GoogleのOCRに驚いた

吉田松陰全集の現代語訳を進めるにあたって、参照できるテキストのうち、最も入手しやすいものが国立国会図書館デジタルアーカイブだった。はじめのうちは、テキストを自らWordに打ち込み、分からない漢字や単語を一つ一つ調べながら原文テキストの電子化を完成させ、その後、現代語訳に着手するようにしていた。じつは原文入力を始める前から、この作業が手間になることは分かっていたが、最初だけでも自分で入力したいという思いがあり続けていた。その思いが満たされ(比較的すぐに)、電子化で便利なツールが無いか探すことにした。

調べてみると、GoogleOCR(Optical Character Recognition 光学的文字認識)のアプリを提供していることを知った。さらに、フリーのオンラインOCRサービス(https://www.onlineocr.net/)もあって、両者を比較してみることにした。2018年の4月頃に試したときには、Googleのほうは、抽出された文字が誤っていることが多く、原文の縦の文章がふりがなの影響を受けてか、入れ替わったりばらばらになっている場合がよく見られた。それに対し、オンラインOCRは、ふりがなや注(文章中に小さい文字で2段組で書かれる)の部分で、文章がずれることがあったが、文字の誤りはGoogleよりも少なかった。便利さを感じたので、電子化にオンラインOCRを使うことにした。画像を切り抜き、ファイルをインポートしてOCRにかけ、出力ファイルからテキストを抜き出し修正を加えて、原文テキストを作成していった。『福堂策』の記事はそうやって出来上がった。

ところが、先日(2019年7月1日)久しぶりにGoogleドライブに画像をアップロードし、「アプリで開く」からGoogleドキュメントを選択して開いてみたところ、生成されたテキストの再現具合が非常に高くなっているように感じられた。ふりがなの部分で文章がずれてはいるが、理由は不明だがふりがなだけが一か所にまとめられているので、文章をつなぎ合わせるのに差し障りはなかった。漢字については、旧漢字をそのまま表示していくれていたり、場合によっては新字に変換してくれているところもあった。漢字の再現精度の高さにはとても驚いた。念の為、同じ画像をオンラインOCRにもインポートして確認してみたが、どうやら再現性はGoogle OCRのほうが高そうだ。自分で電子化を進めざるを得ない現状のなかでは、非常に助かるツールなのでしばらく手放せそうにはないし、さらに精度が上がっていくことを期待したい。