写真の文字をデータ化!画像OCRのご紹介
ども。sQuirlyです。
今回は、自分が副業としてやっている仕事をこなす上で大変お世話になっているツールをご紹介したいと思います。
画像からテキストを抽出するOCR技術がすごい!
現在、自分が副業としてやっている仕事の中で、品番リストが載ったカタログをデータ化する作業があるのですが、何とか手打ちで入力しなくても済む方法はないかなと探っていたところ、「画像OCR」なるものを見つけました!
画像OCRとは
画像から文字を抽出してデータ化してくれるサービスやツールです。無料で使える代表的なサービスとしては、下記の2つがあるようです。
Google Driveを利用する方法は、一度画像をアップロードしてからgoogleドキュメントで開く必要があり、ひと手間かかるので、Online OCRを使用されることをオススメします。
実際につかってみた
下記画像はサンプルとしてスキャンした写真から一部抜粋したものです。これを、Online OCR を使ってデータ化してみました。一部二重に出力されてしまっていますが、軽くチェックして修正を入れる程度で済みそうです。
入力したサンプル画像と実際に出力されたテキストデータ
半角カタカナは難しいようです
ちなみに、半角カタカナは難しいようです。濁点や半濁点が、「 n 」や「 h 」・「 ◇ 」といったデータで出力されました。また、判断のつけにくい「ソ」や「ン」のデータ化ミスも目立ちます。これらをいちいち手直しするくらいなら、最初から手打ちした方が良さそうです。
入力した半角カタカナのサンプル画像と実際に出力されたテキストデータ
Online OCR の使い方
[Select file…] をクリックしてデータ化したい画像を開くか、ボタン上にドラック&ドロップします(最大15MBまで)
読み取る画像の言語と出力用のデータ形式を選びます
[CONVERT] をクリックします
変換が完了したら、[Download Output File] をクリックして出力ファイルをダウンロードします
まとめ
インデックスページなど、膨大な文字が書いてあるページのデータ化に非常に役に立ちそうです。
近代では何でも紙ではなく、データとして持ち歩く時代になってきました。会社のカタログをテキストデータに修正してPDF化したい等思われている方は一度試されてみてはいかがでしょうか?