要望

フランス語で書かれた論文をテキストデータにしたい。製本された形のものをそのまま読み込みたい。

作業内容

製本されているものをバラバラにせずにキレイに読み取るためには、非接触型のスキャナを利用します。

今回選んだ機材は、ページのゆがみも調整可能なPFUのSV600です。

しかし、付属しているOCRソフトではレイアウト崩れや文字を正確に認識してくれないなどの問題がありました。

そこで使用したのがGoogleDocsを利用した画像OCR機能です。

「PDF や写真のファイルをテキストに変換する – パソコン – Google ドライブ ヘルプ」

手順

  1. SV600でJPG画像としてスキャン
  2. GoogleDriveに転送
  3. 目的のファイルを選択し、[アプリで開く] 次へ [Google ドキュメント] をクリックします。
  4. 必要な部分だけコピーしてワードなどのテキストエディタで編集する。

たったこれだけの手順で非常に精度の高いデジタルデータとして読み込むことができました。

無料でここまでの事ができるとは驚きです!

Google恐るべし。

しかし、少しだけ問題もありました。

GoogleDocs上で文字データの文字色が白になってしまい、見えないというものです。

解決方法としては、文字列すべてを選択して文字色を黒に変更することで見えるようになりました。

なぜこのような現象が起きたのかは不明です。