OCRはあくまで機械
OCRで認識される文字はあくまでも機械の認識なので、ソフトによっては認識ミスが出てきます。…というか、どんなに精度のいいソフトでも100%認識してくれることはまずありません。
在宅ワークでの仕事も「OCR修正作業」というものが時々あります。これは、OCRで認識したテキストを原稿どおりに修正して、正しいテキストデータを作る作業です。
一文字一文字修正していくのは当然なのですが、私はその前に一括で置換をして、見落としを防ぐようにしていました。
OCRが認識ミスする文字には、ある程度のクセがあります。なので、間違いやすい文字をリスト化して、そのリストを元に一番最初に置換作業をしてしまいます。あらたによく間違える文字を発見したら、またリストに追加し、次の作業でよりデータの精度が高くなるようにしておきます。
以下はOCRで間違いやすい文字の一覧です。参考にしてみてください。
OCRで認識をミスしやすい文字
上記は一部ですが、画面上では見落としがちな文字ばかりです。必ず、画面上で修正したあとは、プリントアウトして一字一句の校正作業をすることでさらにミスを防げます。