1. homechevron_right
  2. マニュアルchevron_right
  3. はじめに

ドキュメントフォースで使われているAI技術

ドキュメントフォースでは、「AI-OCR (人工知能を用いた光学的文字認識)」と「LM(言語モデル)」という2つのAI技術が使われています。

ドキュメント解析機能では、この2つのAI技術を効果的に組み合わせて利用することで、アップロードされたドキュメントのフォーマットの定型・非定型を問わずに高い読取精度を実現しています。

AI-OCR


AI-OCRを利用することで紙面・画像に記載された文字・文章をテキストデータへ変換することができます。

AI-OCRでは、フォーマットが決まっている帳票はもちろん、あらゆるスタイルの文字を素早くテキスト化します。AI-OCRは横書きや縦書きだけでなく、丸く湾曲して書かれた文字や傾いた文字などの悪条件下での読み取りに対応しており、
多言語の認識、専門用語の認識も可能です。

AI-OCRが苦手なこと

「縦読み・横読みが混在している書類」

縦読みと横読みが混在する書類はうまく読み取れません。どちらかの読み取り方に固定して出力するため、例えば郵便番号などが横で住所が縦に記載されているハガキなどは上手く読み取れない可能性があります。

「1行の途中で改行が入る書類」

1行ずつ全て電子化するため、1行の途中で改行が入る場合は上手く読み取れません。

「チェックボックスやレ点がある書類」

文字として認識されないチェックボックスやレ点を読み取ることはできません。

また、AI-OCRで手書き文字も識別可能ですが、人間が目視でも認識しにくい文字はAI-OCRでも認識精度は低下します。また元データの解像度や画質なども認識精度に大きく影響します。

LM(言語モデル)


LLM(大規模言語モデル)とは、大量のテキストデータを学習し、自然言語処理を行うAIモデルです。

ドキュメントフォースでは、AI-OCRで読み取られたテキストデータをさらにAIモデルに解析させることで、高度なドキュメント解析を実現しています。また、AI-OCRで読み取られたテキストデータをただ取得するだけでなく、AIモデルによる改変や加工を加えることもできます。

LM(言語モデル)を使うことによって出来ること

「出力形式の変更や変換ができる」

読み取られた内容とは異なる形式のデータを出力することができます。例えば、元ドキュメントには「2000/1/1」と記載されていた日付を「2000年1月1日」のように変換することができます。

また複数のデータをCSV形式やJSON形式など指定のフォーマットで出力することもできます。

「文章の要約や翻訳ができる」

読み取られた内容の要約や翻訳をすることができます。

「高度な推論ができる」

読み取られた内容を基に推論をおこなうことができます。例えば、読み取られたレシートの情報から、その買い物が「食品」の買い物だったのか、または「雑貨」の買い物だったのかをAIに推論させ、回答させることができます。

LM(言語モデル)が苦手なこと

「大量のデータ解析」

自然言語処理を行うAIモデルのため大量のデータ解析や数値解析はあまり得意ではありません。

「複雑な条件分岐」

「AもしくはB」のような単純な条件分岐であれば十分に対応可能ですが、「AもしくはBまたはC」のように条件分岐が増えていくと解析精度は低下していきます。

「高度な専門用語を使用した解析」

一般的な用語は理解できますが、特定の領域のみで使用されているような専門用語は必ずしも理解できるとは限りません。

LM(言語モデル)でできないこと

「同一の回答結果を常に期待する」

LM(言語モデル) は常に同一の結果を出力すると限りません。同一の言語モデルに対して、同一のプロンプトをリクエストしたとしても前回と同じ結果が返る保証はなく、それぞれのリクエストは完全に独立しています。

また言語モデルの中には、使用するたびに独自の学習をおこなうものもありますが、ドキュメントフォースで利用している言語モデルは独自の学習を一切おこないません。(独自の学習をしないように設定しています)

この設定によりサービス内で個人情報や機密情報を含むデータも安心してご利用いただけるようになっています。

*この独自の学習をしない設定により、言語モデルが使用者ごとにカスタマイズされていくこともありませんので、事前学習はプロンプトの設定によっておこなう必要があります。