OCRとは？書類やPDFをスキャン→文字起こしできる革命的技術

OCRとは、文字を読み取りデータ化する技術

OCR（Optical Character Recognition）とは、PDFや画像に書かれた文字を認識し、編集できるテキストとしてデータ化する技術です。

じつはOCR自体は、最新のテクノロジーというわけではありません。しかし近年のAI技術の発展により文字認識精度が向上し、スマートフォンの機能や製造現場など、さまざまな場面で活用されるようになりました。

身近な例では、スマートフォンのカメラで外国語を読みとり即時翻訳する、といった機能にもOCRの技術が使用されています。

▲Googleレンズによる、カメラをとおした翻訳例。OCRの技術が使われている

OCRの仕組み

OCRは次の順番で処理されます。

書類やPDFファイルをスキャン
文字が書かれた領域を解析
領域内の文字を解析
解析した文字の認識
出力

なにやら複雑そうに見えますが、2〜5はOCR機能が自動でおこなってくれるため、人の手が必要なのは1のスキャンのみ。読み取りたい書類やPDFファイルさえあれば、OCRで簡単にテキスト化できます。

OCRでできること

OCRによりできるようになることは、おもに次の2つです。

PDFのダイレクトな編集
PDFから他形式のファイルへの変換

それぞれ以下でくわしく説明します。

できること1. PDFのダイレクトな編集

OCRにより文字を認識することで、PDFをダイレクトに編集することができます。

「PDFって、PDFのままで編集できるの？？」と思われる方もいるかもしれませんね。

そもそもPDFとは、文字や画像、動画などの情報を、閲覧する環境を問わず同じように表現できるようにパッケージした情報の集合体です。

なので、PDFに含まれる文字情報を認識することができれば、PDF自体の編集も可能というワケです。

基本的にPDFで配布するような資料は、WordやPowerPointなどで作成し、PDFに書き出すケースがほとんどだと思います。ただこの場合、PDFに書き出した後の資料に修正ポイントが発覚した場合、PowerPointの資料を修正して再度PDF書き出し直す、という方が多いのではないでしょうか。

ここで『PDFelement』のような、OCRを活用したPDF編集ソフトの出番です。簡単な修正であれば、PDFのままで修正してしまいましょう。

できること2. PDFから他形式のファイルへの変換

OCRの便利さは「テキストファイルとして出力する」だけにとどまりません。PDFをOCRにかけると、WordやPowerPoint、Excelなどのファイルとしても出力可能になるのです。

たとえばクライアントからもらった紙の書類やPDFを、PowerPointに変換して保管／編集する、といった使い方も可能になります。

情報管理の自由度がぐっと広がりますね。

OCRを用いた業務効率化事例

OCRを用いた業務効率化の事例について5つ紹介します。

事例1. 紙の書類をデータ化し保管スペースを削減＆検索可能に

なんだかんだ多くのスペースを取りがちな紙の書類。これらをスキャンし電子データとして取り込むことで、保管スペースの削減が可能になります。

しかしOCRなしに、ただスキャンをしただけでは検索で見つけられず、かえって資料探しが大変になってしまうことも。

▲スキャンしただけでは、明らかに見えている文字も検索してくれない……

ここでOCRを用いることで、データ内に含まれるテキストを検索できるようになるのです。

『PDFelement』であれば、たった2ステップでOCR機能を活用して検索可能なデータに変換可能に。

▲対象のPDFを開き、「ツール」タブ内の「OCR処理」ボタンを押します

▲対象言語を選んでOCR開始（PDFelementであれば外国語にも対応しています）

▲36箇所の「ジョブディスクリプション」の文字を認識。資料内の文言が検索できるようになりました

OCRがあれば「あの資料どこやったかな〜」ともおさらば、ですね。

事例2. 手打ち入力からの解放。書類やPDFテキストのコピペが可能に

PDFを編集可能なテキストデータにするOCRさえあれば、もう画面を見ながら1文字ずつ手打ちする必要はありません。

たとえば以下のPDF資料をもとに、上司やクライアントを説得する資料を作りたいとき。

▲左側の文言の一部や、右側の図を使いたい……

OCRを知らない状態であれば、おそらく左の文言を、画面とにらめっこをしながら手入力することになるでしょう。

また右の図はPDFのままではコピペできないため、そっくりの図をエクセルなどで作るか、PDFを開いたPC画面のスクリーンショットを撮ることになります。

しかしOCR機能が実装された『PDFelement』であれば、簡単にコピペを駆使して資料作成ができるようになるのです。

▲PDFをOCR処理することで……はじめはまったく選択不可能だった文章が選択→コピペ可能に！

▲もちろんグラフだってコピペ可能

▲その結果ほとんど時間をかけずに資料作成を進められました！

今回のように「社内などの内輪向けに、なるべく時間をかけずにとりあえず情報をまとめたい」といったケースでは、OCRのコピペ機能はかなり便利といえるでしょう。

事例3. 紙の書類をパソコン上で編集可能に

「紙の書類をデータ化したはいいけど、編集できないから不便……」

そんな悩みも、OCRを使えば解決。

OCRによって紙の書類データからテキストを抽出し、編集可能な状態にできます。

▲たとえばこちらの紙の資料をスキャンします

▲スキャナで読み取った紙の書類を『PDFelement』にて読み込み、「OCRを実行します」をクリック

▲わずかな時間で編集可能なテキストデータを抽出できました。これで検索やコピペも楽チン！

事例4. 外国語の書類を翻訳可能に

OCRでテキストデータを拾えるということは、テキストデータを翻訳し、外国語のPDF資料を日本語に変換することも可能なのです。

▲サンプルとしてAlice in Wonderlandを『PDFelement』で翻訳してみます。「ツール」タブから、「翻訳」ボタンをクリック

▲すると翻訳用のウインドウが開きます

▲この状態で翻訳したい文章を選択すると、自動で文章が翻訳されます。簡単！外国語情報のリサーチがはかどりますね

事例5. 契約書等を印刷なしでサイン＆捺印可能に

OCR機能のあるPDF編集ソフトを活用することで、契約書などを印刷なしでサイン＆捺印が可能になります。

たとえばクライアントから契約書がPDFで送られてきたとします。いままではPDFを紙に印刷し、ハンコを押して再度スキャンして返送、というフローだった人も多いはず。

しかし『PDFelement』のようなPDF編集ソフトであれば、PDFを紙に印刷することなく、PDFのままでサインや捺印が可能なのです。

▲今回は私が作成した「サンプル領収書」にハンコを押すと仮定して、印刷無しで捺印する方法を紹介します

▲まずはハンコを登録しましょう。ハンコを押したいPDFを開いたら、「注釈」→「スタンプの管理」→「作成」と進みます

▲ハンコを登録し「OKボタン」を押します（電子印鑑自体は別途作成する必要があります）

▲「スタンプ」ボタン一覧に登録したハンコが加わっています

▲場所とサイズを調整して、捺印しましょう

一度ハンコを登録してしまえば、あとは何度でも再利用可能。いちいち印刷する場合と比べ、大幅な時間短縮となるでしょう。

なおPDFelementは電子署名に対応しているので、電子契約にも使用できます。

OCRを手軽に導入できるおすすめアプリ『PDFelement』

「あ！ PDFにミスが……またPowerPointを立ち上げて修正しないと……」
「以前クライアントからもらった資料、どこいったっけ……」
「請求書にハンコを押すために、コンビニに印刷にいかないと……」

OCRを活用することで、このようなちょっとした雑務を大幅に減らすことができます。そしてその分だけ、クライアントへ価値を提供するために充てる時間が増えるのです。

PDFelement

そんなOCRを導入するにあたってのおすすめアプリは『PDFelement』。

ここまでOCRを活用したPDFelementの便利な機能をいくつかご紹介しましたが、じつはPDFelementにはまだまだ便利な機能が満載です。

PDFの分割、合体、特定ページのみの抽出
PDFのサイズ圧縮
PDF内への記入可能なフォームの設置
他人がPDF編集できないようにするためのパスワード付与機能
PDF同士の差分検出（バージョンの比較に便利）
クラウドへの保存が可能
専用のiOS、Androidアプリあり

毎日の雑務やちょっとしたストレスの積み重ねが、PDFelementで解消できるかもしれません。

PDFelementの価格

PDFelementの料金体系は以下のとおり。（詳細は公式サイトをご確認ください）

	プロ版＋iOS版	標準版
永続ライセンス	9,380円（税込）	5,980円（税込）
1年間プラン	7,280円（税込）	4,980円（税込）

※参考：Adobe Acrobat Standard 1年間プラン 18,216円（税込）／Adobe Acrobat Pro 1年間プラン 23,760円（税込）

値段を見て「思ったよりいい値段するし、やっぱ試すのやめとこうかな」という人もいるかもしれません。

ただOCRによって（少なめに見積もって）毎月3時間程度の時間が雑務以外の時間に充てられるとすると、年間36時間は雑務に費やされている計算になります。時給が1,000円だったとしても、PDFelementには年間36,000円の価値があるのです。

その価値が年間4,980円〜で受け続けられると思うと、なかなか「アリ」なのではないでしょうか。

PDFelementがお得に利用できるキャンペーン

「どれくらいPDFelementが便利なのか、一度試せないかな？」と考えている方に朗報です。

新製品であるPDFelement Ver.9のリリースに合わせ、プロ版の7日間無料体験キャンペーンが行われます！

PDFに関する機能が総合的に詰まったPDFelementが無料で手に入るチャンス、ぜひお見逃しないよう。

無料でPDFelementプロ版を使う（7日間無料）

なお基本的な機能については、いつでも試用版を無料ダウンロードできます。「とりあえずPDFelementの使用感を確かめたい！」という人は、こちらもぜひお試しください。

無料でPDFelement試用版を使う

（執筆：すめし　編集：じきるう）

#副業OK
#新規事業
#スタートアップ
#急募
#長期案件
#スポット案件（1ヶ月）
#フルリモートOK

PM・ディレクター募集！プロジェクトをリードし、クリエイター陣と協力して顧客課題を解決する！

Web制作をリードするフロントエンド構築、WordPress実装が可能なエンジニア募集！

Workship MAGAZINE編集部

Workship MAGAZINE（ワークシップマガジン）は、日本最大級のフリーランス・副業メディアです。エンジニア、デザイナー、マーケターなどデジタル系専門職のフリーランス・副業者にとって役立ち、刺激になる情報をお届け。海外最新情報や働き方ノウハウ・ツール、著名人・専門家インタビューなど、さまざまなコンテンツを発信中です。2017年5月開設。

Follow @goworkship

■当サイト掲載中の情報について
Workship MAGAZINEでは日々情報の更新に努めておりますが、掲載内容は最新のものと異なる可能性があります。当該情報について、その有用性、適合性、完全性、正確性、安全性、合法性、最新性等について、いかなる保証もするものではありません。修正の必要に気づかれた場合は、サイト下の問い合わせ窓口よりお知らせください。
■アクセス解析ツールについて
当サイトでは、Googleによるアクセス解析ツール『Googleアナリティクス』を利用しています。このGoogleアナリティクスはトラフィックデータの収集を行なっています。このトラフィックデータは匿名で収集されており、個人を特定するものではありません。この規約に関して、詳しくはGoogle アナリティクス利用規約をご覧ください。

■広告の配信について
当サイトは第三者配信の広告サービス『Google Adsense』を利用しています。広告配信事業者は、取得した閲覧履歴や購買履歴等の情報を分析して、ユーザーの趣味・嗜好に応じた新商品・サービスに関する広告を表示することがあります。また当サイトは、商品やサービスを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、『A8.net』『もしもアフィリエイト』『afb』『アクセストレード』『バリューコマース』『レントラックス』『felmat』『TGアフィリエイト』『リンクシェア』『楽天アフィリエイト』『Amazon アソシエイト』の参加者です。IPアドレス、ユーザーエージェント、クッキー情報、成果結果情報（広告成果毎の識別子）などを取得し、広告配信に係る成果計測、広告配信に係る不正防止などに利用する場合があります。

OCRとは？書類やPDFをスキャン→文字起こしできる革命的技術

OCRとは、文字を読み取りデータ化する技術

OCRの仕組み