トレーニングデータのスクリーニング クレンジング

機械学習トレーニングデータ クレジング/スクリーニング

概要

機械学習データにおけるバイアスの問題を解消いたします
「専門性(カテゴリ)」「レイティング(暴力的、アダルトなど)」「要注意表現(ジェンダー平等、障がい)」に関する言及から
「言葉の強さ」「独創性シェア」「生成AIの可能性判定」「5W1Hの含有率」などあらゆるユーザーリクエストに対応

導入実績

  • オムロン ソフトウェア株式会社
  • 株式会社リコー
  • 京都大学

【解析対象物】

  • ・あらゆる自然な言葉で書かれた非正規データ
  • ・SNS/チャットデータ、検索ログ、商品レビュー、アンケート
  • ・テキストファイル形式すべて/Word・Excel/PDFなど
     *Word、Excelは、Microsoft Corporationの米国及びその他の国における商標または登録商標です

【スクリーニング クレンジング一覧】

スクリーニング/クレンジング一覧 概要
文章のクラスタリング ・約500種 ※一覧についての詳細はお問合せください
・宗教関連、武器、戦争に関する仕分け含む
感情推移 ・文脈に合わせた感情の推移、感情の強度をポジティブ、ネガティブで評価
・機械学習による判定ではないため、曖昧さがなく結果が明瞭
・機械学習によるパターン判定も承ります
要注意表現の抽出 ・ジェンダー平等、ポリコレに抵触する記載、誹謗中傷、アダルトなどの炎上が予想される用語を抽出
独創性シェア ・誤字、抽象的な文章(ポエムなど)かを判定
レイティング判定 ・いじめや暴力的な表現、成人向けの内容を含む場合に適した区分で判定

・イジメや暴力:R15+
・成人向けの内容:R18+
言葉の強度 ・読み手を刺激し、反応せざるを得ない強い表現の含有率を数値化
生成AI判定 ・生成AIで作成されたものかの可能性を判定
文脈バランス ・5W1H(いつ、どこで、誰が、何を、なぜ、どのように)含有率の偏りを数値化
・バランスの偏りから、文書の部分的な切り取りの可能性を判定

まずはお気軽にお見積もりの依頼から

解析対象

これまで不可能だった微妙なニュアンスの違いや不均衡データのスクリーニング、クレンジングも可能です


ご発注フロー

  • STEP.01
    ボリューム、スクリーニング、クレンジング内容をヒアリング
    必要に応じて、秘密保持(NDA)契約
    最短当日中にお見積り
  • STEP.02
    [依頼]
    セキュアアップロード(データ)
    対象データを当社指定のサイトよりアップロード
  • STEP.03
    [納品]
    ダウンロード用ワンタイムURLを発行
    当社指定のサイトから「納品データ」をダウンロード
  • STEP.04
    [お支払い]
    お支払いはご請求書による後払い
    納品日の翌月末にお支払い


導入実績

  • ドコモ
  • パン・パシフィック・インターナショナルホールディングス
  • ジオテクノロジーズ
  • 京都大学
  • ヤマハ
  • 伊藤忠テクノソリューションズ
  • TBSラジオ
  • TOKYO FM
  • TBS
  • オムロン
  • フロムソフトウェア
  • イオン