トレーニングデータのスクリーニング クレンジング
機械学習データにおけるバイアスの問題を解消いたします
「専門性(カテゴリ)」「レイティング(暴力的、アダルトなど)」「要注意表現(ジェンダー平等、障がい)」に関する言及から
「言葉の強さ」「独創性シェア」「生成AIの可能性判定」「5W1Hの含有率」などあらゆるユーザーリクエストに対応
スクリーニング/クレンジング一覧 | 概要 |
---|---|
文章のクラスタリング | ・約500種 ※一覧についての詳細はお問合せください ・宗教関連、武器、戦争に関する仕分け含む |
感情推移 | ・文脈に合わせた感情の推移、感情の強度をポジティブ、ネガティブで評価 ・機械学習による判定ではないため、曖昧さがなく結果が明瞭 ・機械学習によるパターン判定も承ります |
要注意表現の抽出 | ・ジェンダー平等、ポリコレに抵触する記載、誹謗中傷、アダルトなどの炎上が予想される用語を抽出 |
独創性シェア | ・誤字、抽象的な文章(ポエムなど)かを判定 |
レイティング判定 | ・いじめや暴力的な表現、成人向けの内容を含む場合に適した区分で判定 ・イジメや暴力:R15+ ・成人向けの内容:R18+ |
言葉の強度 | ・読み手を刺激し、反応せざるを得ない強い表現の含有率を数値化 |
生成AI判定 | ・生成AIで作成されたものかの可能性を判定 |
文脈バランス | ・5W1H(いつ、どこで、誰が、何を、なぜ、どのように)含有率の偏りを数値化 ・バランスの偏りから、文書の部分的な切り取りの可能性を判定 |
まずはお気軽にお見積もりの依頼から
これまで不可能だった微妙なニュアンスの違いや不均衡データのスクリーニング、クレンジングも可能です