1. homechevron_right
  2. マニュアルchevron_right
  3. ドキュメント解析

ドキュメントのアップロード

ドキュメントのアップロード


作成したドキュメントタイプに、解析したいファイルをアップロードすることで自動的にドキュメント解析がおこなわれます。

ドキュメントをアップロードするにはサイドバーの「アップロード」ボタンをクリックします。

  1. プロジェクト

    ドキュメントに紐づくプロジェクトを選択できます。

    すでに作成されているプロジェクト(プロジェクトグループ)が選択できます。ただし、プロジェクトのみドキュメントのアップロード時に新規作成することができます。

    (プロジェクトを追加が表示されているキャプチャー)

  2. ドキュメントタイプ

    アップロードするファイルに適するドキュメントタイプを選択できます。

    ドキュメントタイプは複数選択することができます。ドキュメントアップロード時に複数のドキュメントタイプが選択された場合は、1つのドキュメントで複数回(複数種類)のドキュメント解析がおこなわれます。

  3. 解析オプション
    1. ドキュメントを自動で判定する

      ドキュメントタイプに「自動判別用プロンプト」が設定されている場合に、自動判別用プロンプトに基づきアップロードされたドキュメントがどのドキュメントタイプに適しているかが生成AIによって自動判定されます。自動判定されたのち、ドキュメントはドラフトに移行します。

      *ドキュメント自動判定機能を使用した場合、自動的にドキュメント解析はおこなわれず、ドラフト画面にてAIによって自動判別されたドキュメントタイプを確認したのち、手動でドキュメント解析を実行する必要があります。

    2. OCRスキャンで表抽出する

      OCRによる文字起こし時に表形式を明示的に認識させたい場合にこのオプションをONにします。このオプションをONにすることで表形式の資料の読取精度の向上が期待できます。

  4. 入力形式
    1. ファイル

      解析したいファイルをアップロードできます。

      クリック、またはドラッグ&ドロップで最大30ファイルまでファイルをアップロードできます。

      アップロードされ、ドキュメント解析予定のファイルは入力形式の下にリストで表示されます。

    2. テキスト

      ファイル名とテキストを入力し、解析することができます。テキストデータやメール本文などの解析に利用できます。

    3. URL

      ファイル名とURLを入力し、解析することができます。

      URLは複数入力することができ、それぞれのURLが自動的にスクレイピングされ、AI解析がおこなわれます。

  5. 選択中のドキュメント

    アップロードされたファイルが表示されます。「キャンセル」をクリックすると、アップロードを取り消せます。

ファイルをアップロードし、「アップロード」ボタンをクリックすると、自動的にドキュメント解析がおこなわれます。

*ただし、ドキュメント自動判定機能を利用した場合のみドキュメントタイプの自動判定のみが実行されます。

OCRスキャンで表抽出

ドキュメントのアップロード時に、オプションとしてOCRスキャンで表抽出するかどうかを選択できます。

*ドキュメントタイプの基本情報で「OCRスキャンで表抽出する」をデフォルトでONに設定もできます。

OCRスキャンで表抽出することを選択されたドキュメントはAI-OCRでの文字起こし時にドキュメントを意図的に表形式のデータとして認識させます。

OCRスキャンで表抽出を選択することで、同じドキュメントであっても、次のように文字起こし結果が変化します。

OCRスキャンで表抽出がOFFの場合、罫線が無視されて文字が取得されるのに対して、OCRスキャンで表抽出がONの場合は、罫線も記号として取得され、OCRスキャンで表抽出がOFFの時に比べて、表形式のデータであることが文字起こし時に明示されます。

AI解析時にはこの文字起こし結果を利用するため、表形式のデータが存在するファイルに対してはOCRスキャンで表抽出をONにしてドキュメント解析した方が解析精度は高くなる傾向があります。そのため解析したいドキュメントに表形式のデータがあり、その値をうまく取得したい場合はOCRスキャンで表抽出をONにしてドキュメントをアップロードすることを推奨しています。

表形式のデータが存在するファイルには、OCRスキャンで表抽出をONにしてドキュメント解析した方が解析精度は高くなる傾向はありますが、必ずしも常に解析精度が向上するわけではありません。1つのセルに変則的に複数の値が存在していたり、1列に複数の項目が設定されているなどの複雑性の高い表形式のデータの場合は、むしろ解析精度が低下する場合もあります。その場合は、表形式のデータが存在していても敢えて、OCRスキャンで表抽出をOFFにしてドキュメント解析を行うこともあります。