画像やPDFの文字認識(OCR)精度を高める編集術
手書き文字・複雑なレイアウト・表組みなど、AIが読み取りにくいPDFや画像の文字認識(OCR)精度を100%に近づける編集手順を解説します。OCR後の誤認識を手動修正する効率的な方法と、精度を下げない資料の作り方も紹介します。
紙のメニュー表をスマートフォンで撮るだけで、AI がそのままナレッジ化してくれる——Socrates の手軽さの源です。
ただし、AI の「目」も完璧ではありません。ほんの少しの編集の手間で、回答精度は大きく変わります。
この記事では、OCR で読み取りミスが起きやすい場面と、Socrates の「内容を確認・編集」機能を使った精度向上のコツを解説します。
「ざっくり撮って、大事なところだけ整える」運用が、現場の負担を増やさずに精度を上げるための最適解です。

OCR 読み取りミスが起きやすい 3 つの場面
1. 撮影環境の問題
反射した照明・蛍光灯の写り込み・濃い影が入っている画像は、AI が文字を背景と区別しにくくなります。
また、極端に斜めから撮影された写真や、ピントが甘い写真は、文字の輪郭が崩れて誤認識を招きます。
現場で撮影するときは、「真上から、明るい場所で、まっすぐ撮る」を意識するだけで、OCR の精度が大きく上がります。
2. 似た文字の誤認識
「0(ゼロ)」と「O(オー)」、「1(数字)」と「l(小文字 L)」、「カタカナ ロ」と「漢字 口」など、人間でも見分けがつきにくい文字は AI も間違えやすいです。
特に電話番号・郵便番号・料金などの数字情報は、誤読が直接トラブルにつながります。
3. 複雑なレイアウトの読み取り順序
メニュー表のように複数の段組みや表形式になっているドキュメントは、AI が読み取る順序が想定と異なる場合があります。
「価格と商品名の対応がずれる」「セット価格と単品価格が混ざる」というミスが起きやすい構造です。
Socrates の「確認・編集」機能を使い倒す
実践1. アップロード後は必ず「内容を確認・編集」
ファイルをアップロードしたら、すぐに登録を完了させず、必ず管理画面の「内容を確認・編集」ボタンをクリックして、OCR の読み取り結果を目視で確認します。
AI が読み取ったテキストはそのまま管理画面で編集できるため、修正は数秒で完了します。この一手間が、精度を保つ最大の鍵です。
実践2. 「重要項目」を優先的にチェック
すべての文字を完璧に確認する必要はありません。
優先的にチェックすべきは、料金・電話番号・営業時間・住所・URL の 5 項目です。これらは間違いが許されない情報なので、最初に確認します。
実践3. 用語の定義を AI 側に補足する
自社固有の略語・商品名・サービス名は、OCR が読み取れても AI の解釈がずれる可能性があります。ナレッジに「用語名: 説明」のセットで補足を追加すると、AI が意味を取り違える事故を防げます。
実践4. 元データを「読みやすい形」に整える
どうしても OCR が苦戦するレイアウトの場合は、Excel や Word で表形式に整理し直してから PDF 化してアップロードすると精度が上がります。手書きメモやレシートなど、AI が苦手な素材は「テキスト化してから登録」するのが安全です。
運用ステップ
- ① 撮影 / アップロード
真上から、明るい場所で、まっすぐ撮ったファイルをアップロード。複数ページの PDF も対応します。 - ② 確認・編集画面で読み取り結果を目視
料金・電話番号・営業時間など重要項目を優先的にチェック。誤読を手動で修正します。 - ③ AI に話しかけて検証
登録完了後、自分で AI に質問して、意図通りの回答が返るかを確認します。
よくある質問
Q1. 手書き文字も読み取れますか?
読み取れる場合とそうでない場合があります。きれいに書かれた手書きは認識できますが、崩した文字や走り書きは精度が落ちます。重要な手書きデータはテキスト化してからの登録を推奨します。
Q2. 表形式のデータはどう扱われますか?
表は AI が読み取って構造を解釈しますが、複雑な結合セルや段組みの場合は順序が崩れることがあります。確認画面で順序を整えるか、CSV 形式での登録が安全です。
Q3. 何枚までアップロードできますか?
ナレッジ全体の合計は 8,000 字以内が上限です。枚数というより、合計の文字量を意識して登録します。
Q4. アップロードしたファイルの保存期間は?
プランごとに定められた保存期間(リテンション期間)を過ぎると、ファイルはシステムから物理的に削除されます。ナレッジとして残したい情報は、OCR 読み取り後のテキストとして登録してください。
Q5. OCR の精度が低くて困っています。どうすれば?
撮影環境を見直すか、それでも難しい場合は Word/Excel でデータを整理してから PDF 化することで大きく改善します。最終的には確認・編集画面での手動修正が確実です。
OCRで対応できるファイル形式と特徴
Socratesでは、以下の形式でファイルをアップロードしてナレッジ化できます。それぞれの特性を理解して使い分けることで、OCR精度が上がります。
- PDF(推奨)
テキスト情報が埋め込まれたPDFはOCRを必要とせず、文字をほぼ完璧に読み取ります。スキャンしたPDFは画像として処理されるため、OCR精度に撮影品質が影響します。 - 画像(JPEG・PNG・WEBP)
メニュー表・価格表・手書きメモの写真などに対応します。明るく・まっすぐ・ピントが合った状態で撮ると精度が上がります。 - CSV
OCR不要。列ごとにテキストとして読み込まれます。商品一覧・料金表の登録に最適です。 - テキストファイル(TXT)
OCR不要。そのままテキストとして登録されるため、最も精度が高い登録方法です。手書きや印刷物はテキスト化してから登録するのが安全です。
OCR後の「確認・編集」チェックリスト
アップロード後の確認作業を習慣化するために、以下のチェックリストを活用してください。
- ✅ 料金・金額の数字に誤読がないか確認する
- ✅ 電話番号・郵便番号がゼロと O(オー)で混同していないか確認する
- ✅ 営業時間の AM/PM・曜日表記が正しく読み取られているか確認する
- ✅ 住所の番地・ビル名に誤読がないか確認する
- ✅ 自社固有のサービス名・プラン名・略語が正しく読み取られているか確認する
- ✅ 確認後、実際にAIに質問して意図通りの回答が返るか検証する
よくある質問
Q1. 手書き文字も読み取れますか?
読み取れる場合とそうでない場合があります。きれいに書かれた手書きは認識できますが、崩した文字や走り書きは精度が落ちます。重要な手書きデータはテキスト化してからの登録を推奨します。
Q2. 表形式のデータはどう扱われますか?
表は AI が読み取って構造を解釈しますが、複雑な結合セルや段組みの場合は順序が崩れることがあります。確認画面で順序を整えるか、CSV 形式での登録が安全です。
Q3. 何枚までアップロードできますか?
ナレッジ全体の合計は 8,000 字以内が上限です。枚数というより、合計の文字量を意識して登録します。
Q4. アップロードしたファイルの保存期間は?
プランごとに定められた保存期間(リテンション期間)を過ぎると、ファイルはシステムから物理的に削除されます。ナレッジとして残したい情報は、OCR 読み取り後のテキストとして登録してください。
Q5. OCR の精度が低くて困っています。どうすれば?
撮影環境を見直すか、それでも難しい場合は Word/Excel でデータを整理してから PDF 化することで大きく改善します。最終的には確認・編集画面での手動修正が確実です。
Q6. 確認・編集で修正した内容は自動で保存されますか?
管理画面で編集後、保存ボタンを押すことで反映されます。ブラウザを閉じただけでは保存されないため、修正後は必ず保存操作を行ってください。
関連ガイド
- ナレッジ(RAG)管理の基本 — 何をどの順番で登録すべきかの優先順位
- ナレッジ更新の最短ステップ — 情報が古くなったときの入れ替え手順
- チャットでファイルを送信する方法 — お客様が直接ファイルを添付して相談する使い方
「ざっくり撮って、大事なところだけパパッと直す」。
この運用習慣が、現場の負担を増やさずに精度の高い AI 運用を実現するコツです。