トレーニングデータのスクリーニング クレンジング

機械学習トレーニングデータ クレジング/スクリーニング

概要

機械学習データにおけるバイアスの問題を解消いたします
「専門性(カテゴリ)」「レイティング(暴力的、アダルトなど)」「要注意表現(ジェンダー平等、ポリコレなど)」に関する言及から
「言葉の強さ」「独創性シェア」「生成AIの可能性判定」「5W1Hの含有率」などあらゆるユーザーリクエストに対応

導入実績

  • オムロン ソフトウェア株式会社
  • 株式会社リコー
  • 京都大学

【解析対象物】

  • ・あらゆる自然な言葉で書かれた非正規データ
  • ・SNS/チャットデータ、検索ログ、商品レビュー、アンケート
  • ・テキストファイル形式すべて/Word・Excel/PDFなど
     *Word、Excelは、Microsoft Corporationの米国及びその他の国における商標または登録商標です

【スクリーニング クレンジング一覧】

  • ・文書のカテゴライズ 約500種 一覧はお問い合わせください
     *宗教関連、武器、戦争に関する仕分けを含む
  • ・感情判定、ポジティブ、ネガティブシェア
     *単語および係り受け(打ち消し含)での判定、機械学習による判定ではございませんので曖昧さがなく結果が明瞭です
      機械学習によるパターン判定も承ります
  • ・要注意表現の抽出
     *ジェンダー平等、ポリコレに抵触する記載、誹謗中傷、アダルトなどの特定ルールに沿った文章
  • ・独創性シェア
     *誤字、抽象的な文章(ポエムなど)
  • ・レイティング判定
     *暴力的な表現や性的な内容を含む場合に適した区分で判定
  • ・言葉の強度
     *読み手を刺激し反応せざるを得ないような強い表現の含有率を数値化
  • ・生成AI判定
     *生成AIで生成されたものかの可能性を判定
  • ・文脈バランス
     *5W1H(いつ、どこで、誰が、何を、なぜ、どのように)含有率の偏りを数値化

まずはお気軽にお見積もりの依頼から

解析対象

これまで不可能だった微妙なニュアンスの違いや不均衡データのスクリーニング、クレンジングも可能です


ご発注フロー

  • STEP.01
    ボリューム、スクリーニング、クレンジング内容をヒアリング
    必要に応じて、秘密保持(NDA)契約
    最短当日中にお見積り
  • STEP.02
    [依頼]
    セキュアアップロード(データ)
    対象データを当社指定のサイトよりアップロード
  • STEP.03
    [納品]
    ダウンロード用ワンタイムURLを発行
    当社指定のサイトから「納品データ」をダウンロード
  • STEP.04
    [お支払い]
    お支払いはご請求書による後払い
    納品日の翌月末にお支払い


導入実績

  • ドコモ
  • パン・パシフィック・インターナショナルホールディングス
  • ジオテクノロジーズ
  • 京都大学
  • ヤマハ
  • 伊藤忠テクノソリューションズ
  • TBSラジオ
  • TOKYO FM
  • TBS
  • オムロン
  • フロムソフトウェア
  • イオン