ドキュメントフォースで使われているAI技術

ドキュメントフォースでは、「AI-OCR (人工知能を用いた光学的文字認識)」と「LM（言語モデル）」という２つのAI技術が使われています。

ドキュメント解析機能では、この２つのAI技術を効果的に組み合わせて利用することで、アップロードされたドキュメントのフォーマットの定型・非定型を問わずに高い読取精度を実現しています。

AI-OCR

AI-OCRを利用することで紙面・画像に記載された文字・文章をテキストデータへ変換することができます。

AI-OCRでは、フォーマットが決まっている帳票はもちろん、あらゆるスタイルの文字を素早くテキスト化します。AI-OCRは横書きや縦書きだけでなく、丸く湾曲して書かれた文字や傾いた文字などの悪条件下での読み取りに対応しており、 多言語の認識、専門用語の認識も可能です。

縦読みと横読みが混在する書類はうまく読み取れません。どちらかの読み取り方に固定して出力するため、例えば郵便番号などが横で住所が縦に記載されているハガキなどは上手く読み取れない可能性があります。

1行ずつ全て電子化するため、1行の途中で改行が入る場合は上手く読み取れません。

文字として認識されないチェックボックスやレ点を読み取ることはできません。

また、AI-OCRで手書き文字も識別可能ですが、人間が目視でも認識しにくい文字はAI-OCRでも認識精度は低下します。また元データの解像度や画質なども認識精度に大きく影響します。

LLM（大規模言語モデル）とは、大量のテキストデータを学習し、自然言語処理を行うAIモデルです。

ドキュメントフォースでは、AI-OCRで読み取られたテキストデータをさらにAIモデルに解析させることで、高度なドキュメント解析を実現しています。また、AI-OCRで読み取られたテキストデータをただ取得するだけでなく、AIモデルによる改変や加工を加えることもできます。

読み取られた内容とは異なる形式のデータを出力することができます。例えば、元ドキュメントには「2000/1/1」と記載されていた日付を「2000年1月1日」のように変換することができます。

また複数のデータをCSV形式やJSON形式など指定のフォーマットで出力することもできます。

読み取られた内容の要約や翻訳をすることができます。

読み取られた内容を基に推論をおこなうことができます。例えば、読み取られたレシートの情報から、その買い物が「食品」の買い物だったのか、または「雑貨」の買い物だったのかをAIに推論させ、回答させることができます。

自然言語処理を行うAIモデルのため大量のデータ解析や数値解析はあまり得意ではありません。

「AもしくはB」のような単純な条件分岐であれば十分に対応可能ですが、「AもしくはBまたはC」のように条件分岐が増えていくと解析精度は低下していきます。

一般的な用語は理解できますが、特定の領域のみで使用されているような専門用語は必ずしも理解できるとは限りません。

LM（言語モデル）　は常に同一の結果を出力すると限りません。同一の言語モデルに対して、同一のプロンプトをリクエストしたとしても前回と同じ結果が返る保証はなく、それぞれのリクエストは完全に独立しています。

また言語モデルの中には、使用するたびに独自の学習をおこなうものもありますが、ドキュメントフォースで利用している言語モデルは独自の学習を一切おこないません。（独自の学習をしないように設定しています）

この設定によりサービス内で個人情報や機密情報を含むデータも安心してご利用いただけるようになっています。

＊この独自の学習をしない設定により、言語モデルが使用者ごとにカスタマイズされていくこともありませんので、事前学習はプロンプトの設定によっておこなう必要があります。