蛇使いな彼女BLOG
【第20回】 PDFから文字起こし③ーその後の話
2020.10.01
以前の記事でtesseractを使った文字起こしについて紹介しましたが、その後頼まれていたPDFファイルの変換は無事できたのかと言うと……
以下、前処理なしで元のデータをそのままtesseractにかけた結果です。
こんなんなりました…!!!!!!!
やば!文字化けしすぎやん!!!!!!
原因を色々と調べると、最初に懸念していた通り、罫線に文字や数字が重なっているとうまく読み込んでくれないみたいです。
また、スキャナーで取り込んだ際に角度や影がついていたりノイズがあると正確に認識してくれないようでした(T_T)
絶望…笑
悪あがきで罫線除去やノイズ除去、エッジ検出をPython上で行ってから再度tesseractにかけてみると、文字化けは軽減されましたが数値は誤認が多く、列もバラバラ。
左端の日付ですら順番になっていません(;´д`)
やっぱり精度がイマイチでした。
……もうこれは打つ手なし😔
こんな細かい数字から間違いだけを探して修正するのも逆に時間と注意力を使うので諦めてコツコツExcelに打ち込むしかないのね…。
以上のように、今回かなりの時間を使って作業をしたのですが私ではこれが限界でした。
tesseractを再学習させるという手もあるらしいので、jTessBoxEditorという専用ツールを使って試してみたのですが、こちらは .txtからインプットした文字列を正しく認識させる仕様のようで、フォントの違いや熟語の認識誤差はなくなりそうですが…
今回のように、そもそも文字の一部が途切れていたり荒い画像から何の文字かを予測して出力するという課題には適していませんでした。
きっと予測できないことは無いんでしょうけど、今回は期限に間に合わないので断念(*_*)
後日談ですが、のちに有償のソフトで文字起こしを行うと上手くいきました 笑
やっぱり無料ソフトには限界があるようです(;・∀・)