トレーニングデータのスクリーニングクレンジング

機械学習トレーニングデータクレジング/スクリーニング

概要
導入実績
解析対象物

概要　/　機械学習データにおけるバイアスの問題を解消いたします

「専門性（カテゴリ）」「レイティング（暴力的、アダルトなど）」「要注意表現（ジェンダー平等、障がい）」に関する言及から
「言葉の強さ」「独創性シェア」「生成AIの可能性判定」「5W1Hの含有率」など様々なユーザーリクエストに対応
データの誤りや偏りを修正しデータ分析精度を向上します
品質の確認はこちら📑

導入実績

解析対象物

・様々な自然な言葉で書かれた非正規のデータ
・SNS/チャットデータ、検索ログ、商品レビュー、アンケート
・テキストファイル形式すべて／Word・Excel/PDFなど
　*Word、Excelは、Microsoft Corporationの米国及びその他の国における商標または登録商標です

スクリーニングクレンジング一覧

スクリーニング/クレンジング一覧	概要
文章のクラスタリング	・約500種　※一覧についての詳細はお問合せください・宗教関連、武器、戦争に関する仕分け含む
感情推移	・文脈に合わせた感情の推移、感情の強度をポジティブ、ネガティブで評価・機械学習による判定ではないため、曖昧さがなく結果が明瞭・機械学習によるパターン判定も承ります
要注意表現の抽出	・ジェンダー平等、ポリティカルコレクトネス（ポリコレ）に抵触する記載、誹謗中傷、アダルトなどの炎上が予想される用語を抽出
独創性シェア	・誤字、抽象的な文章（ポエムなど）かを判定
レイティング判定	・いじめや暴力的な表現、成人向けの内容を含む場合に適した区分で判定・イジメや暴力：R15+ ・成人向けの内容：R18+
言葉の強度	・読み手を刺激し、反応せざるを得ない強い表現の含有率を数値化
生成AI判定	・生成AIで作成されたものかの可能性を判定
文脈バランス	・5W1H（いつ、どこで、誰が、何を、なぜ、どのように）含有率の偏りを数値化・バランスの偏りから、文書の部分的な切り取りの可能性を判定

まずはお気軽にお見積もりの依頼から

解析対象

これまで不可能だった微妙なニュアンスの違いや不均衡データのスクリーニング、クレンジングも可能です

学習データ

学習データ

データ前処理段階のクレンジングやアノテート

レビュー/SNS解析

レビュー/SNS解析

商品レビューやニュースのコメントの内容を分析/分別
表記揺れや同義語集約

チャット/検索ログ

チャット/検索ログ

チャットや検索ログを分析し、暴力的な表現やアダルト表現、個人情報などの不適切な書き込みを抽出

文章の組み立て

文章の組み立て

特徴的な表現の抜き出し
「誰」がもれている
「いつ」がもれている
「どこで」がもれている
など、文章構造を解析

ご発注フロー

STEP.01

ボリューム、スクリーニング、クレンジング内容をヒアリング

・必要に応じて、秘密保持(NDA)契約
最短当日中にお見積り

ご検討、お申し込みはこちらよくあるご質問

トライアルは不適切コムへ
STEP.02

[依頼]
セキュアアップロード（データ）

対象データを当社指定のサイトよりアップロード
STEP.03

[納品]
ダウンロード用ワンタイムURLを発行

当社指定のサイトから「納品データ」をダウンロード
STEP.04

[お支払い]
お支払いはご請求書による後払い

納品日の翌月末にお支払い

トライアルは不適切コムへ

主な導入実績
キャリア・メディア・インフラ・大学まで

導入実績