好きなことを広く浅く学んでいくブログ

写真の文字をデータ化!画像OCRのご紹介

WRITER
 
画像OCRサムネ
この記事を書いている人 - WRITER -
パソコンに関する最新デバイスやアクセサリーなど集めるのが好きです。興味をもったことは徹底的に調べつくす性格。海外向けの物品販売サイトも運営しています。
詳しいプロフィールはこちら

ども。sQuirlyです。

今回は、自分が副業としてやっている仕事をこなす上で大変お世話になっているツールをご紹介したいと思います。

 

画像からテキストを抽出するOCR技術がすごい!

現在、自分が副業としてやっている仕事の中で、品番リストが載ったカタログをデータ化する作業があるのですが、何とか手打ちで入力しなくても済む方法はないかなと探っていたところ、「画像OCR」なるものを見つけました!

 

画像OCRとは

画像から文字を抽出してデータ化してくれるサービスやツールです。無料で使える代表的なサービスとしては、下記の2つがあるようです。

Google Driveを利用する方法は、一度画像をアップロードしてからgoogleドキュメントで開く必要があり、ひと手間かかるので、Online OCRを使用されることをオススメします。

 

実際につかってみた

下記画像はサンプルとしてスキャンした写真から一部抜粋したものです。これを、Online OCR を使ってデータ化してみました。一部二重に出力されてしまっていますが、軽くチェックして修正を入れる程度で済みそうです。

リストサンプル

OCR出力データ

入力したサンプル画像と実際に出力されたテキストデータ

 

半角カタカナは難しいようです

ちなみに、半角カタカナは難しいようです。濁点だくてん半濁点はんだくてんが、「 n 」や「 h 」・「 ◇ 」といったデータで出力されました。また、判断のつけにくい「ソ」や「ン」のデータ化ミスも目立ちます。これらをいちいち手直しするくらいなら、最初から手打ちした方が良さそうです。

リストサンプル半角カタカナ
半角カタカナOCRデータ

入力した半角カタカナのサンプル画像と実際に出力されたテキストデータ

 

Online OCR の使い方

※事前にデータ化したい画像のノイズを飛ばしたり、精度を上げるために編集ソフトの[トーンカーブ]機能や[レベル補正]機能を使って文字をはっきりさせ裏写りを消したりすることをおすすめします。

[Select file…] をクリックしてデータ化したい画像を開くか、ボタン上にドラック&ドロップします(最大15MBまで)
読み取る画像の言語と出力用のデータ形式を選びます
[CONVERT] をクリックします
変換が完了したら、[Download Output File]  をクリックして出力ファイルをダウンロードします

 

まとめ

インデックスページなど、膨大な文字が書いてあるページのデータ化に非常に役に立ちそうです。

近代では何でも紙ではなく、データとして持ち歩く時代になってきました。会社のカタログをテキストデータに修正してPDF化したい等思われている方は一度試されてみてはいかがでしょうか?

 

 

この記事を書いている人 - WRITER -
パソコンに関する最新デバイスやアクセサリーなど集めるのが好きです。興味をもったことは徹底的に調べつくす性格。海外向けの物品販売サイトも運営しています。
詳しいプロフィールはこちら










- Comments -

メールアドレスが公開されることはありません。

Copyright© Stealth Blog , 2018 All Rights Reserved.