OCRとは? 書類やPDFをスキャン→文字起こしできる革命的技術

OCR

「紙の書類やPDFを、Wordなどの編集できる形に変換したい!」

しかしどうしても難しく、仕方なく手入力で打ち直した……という経験はありませんか? じつは「OCR」を使えば、かんたんに編集可能なファイルに変換できちゃうんです。

OCR(光学的文字認識)とは、いままでは編集できなかった紙の書類やPDF、画像などを、編集可能なテキストデータに文字起こしする技術。OCRを活用するとPDFから文章を抽出できるようになり、いままでの業務が便利になること間違いなし!

この記事ではOCRの仕組みや具体的な利用方法、おすすめアプリを紹介します。

※本記事は株式会社ワンダーシェアーソフトウェアの提供でお送りします

OCRとは、文字を読み取りデータ化する技術

OCR(Optical Character Recognition)とは、PDFや画像に書かれた文字を認識し、編集できるテキストとしてデータ化する技術です。

じつはOCR自体は、最新のテクノロジーというわけではありません。しかし近年のAI技術の発展により文字認識精度が向上し、スマートフォンの機能や製造現場など、さまざまな場面で活用されるようになりました。

身近な例では、スマートフォンのカメラで外国語を読みとり即時翻訳する、といった機能にもOCRの技術が使用されています。

Googleレンズ

▲Googleレンズによる、カメラをとおした翻訳例。OCRの技術が使われている

OCRの仕組み

OCRは次の順番で処理されます。

  1. 書類やPDFファイルをスキャン
  2. 文字が書かれた領域を解析
  3. 領域内の文字を解析
  4. 解析した文字の認識
  5. 出力

なにやら複雑そうに見えますが、2〜5はOCR機能が自動でおこなってくれるため、人の手が必要なのは1のスキャンのみ。読み取りたい書類やPDFファイルさえあれば、OCRで簡単にテキスト化できます。

OCRでできること

OCRによりできるようになることは、おもに次の2つです。

  • PDFのダイレクトな編集
  • PDFから他形式のファイルへの変換

それぞれ以下でくわしく説明します。

できること1. PDFのダイレクトな編集

OCRにより文字を認識することで、PDFをダイレクトに編集することができます。

「PDFって、PDFのままで編集できるの??」と思われる方もいるかもしれませんね。

そもそもPDFとは、文字や画像、動画などの情報を、閲覧する環境を問わず同じように表現できるようにパッケージした情報の集合体です。

なので、PDFに含まれる文字情報を認識することができれば、PDF自体の編集も可能というワケです。

基本的にPDFで配布するような資料は、WordやPowerPointなどで作成し、PDFに書き出すケースがほとんどだと思います。ただこの場合、PDFに書き出した後の資料に修正ポイントが発覚した場合、PowerPointの資料を修正して再度PDF書き出し直す、という方が多いのではないでしょうか。

ここで『PDFelement』のような、OCRを活用したPDF編集ソフトの出番です。簡単な修正であれば、PDFのままで修正してしまいましょう。

できること2. PDFから他形式のファイルへの変換

OCRの便利さは「テキストファイルとして出力する」だけにとどまりません。PDFをOCRにかけると、WordやPowerPoint、Excelなどのファイルとしても出力可能になるのです。

たとえばクライアントからもらった紙の書類やPDFを、PowerPointに変換して保管/編集する、といった使い方も可能になります。

情報管理の自由度がぐっと広がりますね。

OCRを用いた業務効率化事例

OCRを用いた業務効率化の事例について5つ紹介します。

事例1. 紙の書類をデータ化し保管スペースを削減&検索可能に

なんだかんだ多くのスペースを取りがちな紙の書類。これらをスキャンし電子データとして取り込むことで、保管スペースの削減が可能になります。

しかしOCRなしに、ただスキャンをしただけでは検索で見つけられず、かえって資料探しが大変になってしまうことも。

OCRスキャン

▲スキャンしただけでは、明らかに見えている文字も検索してくれない……

ここでOCRを用いることで、データ内に含まれるテキストを検索できるようになるのです。

PDFelement』であれば、たった2ステップでOCR機能を活用して検索可能なデータに変換可能に。

OCRスキャン2

▲対象のPDFを開き、「ツール」タブ内の「OCR処理」ボタンを押します

OCR開始

▲対象言語を選んでOCR開始(PDFelementであれば外国語にも対応しています)

資料内文言検索

▲36箇所の「ジョブディスクリプション」の文字を認識。資料内の文言が検索できるようになりました

OCRがあれば「あの資料どこやったかな〜」ともおさらば、ですね。

事例2. 手打ち入力からの解放。書類やPDFテキストのコピペが可能に

PDFを編集可能なテキストデータにするOCRさえあれば、もう画面を見ながら1文字ずつ手打ちする必要はありません。

たとえば以下のPDF資料をもとに、上司やクライアントを説得する資料を作りたいとき。

資料

▲左側の文言の一部や、右側の図を使いたい……

OCRを知らない状態であれば、おそらく左の文言を、画面とにらめっこをしながら手入力することになるでしょう。

また右の図はPDFのままではコピペできないため、そっくりの図をエクセルなどで作るか、PDFを開いたPC画面のスクリーンショットを撮ることになります。

しかしOCR機能が実装された『PDFelement』であれば、簡単にコピペを駆使して資料作成ができるようになるのです。

コピペ可能に

▲PDFをOCR処理することで……はじめはまったく選択不可能だった文章が選択→コピペ可能に!

グラフのコピペ

▲もちろんグラフだってコピペ可能

Wordで作成

▲その結果ほとんど時間をかけずに資料作成を進められました!

今回のように「社内などの内輪向けに、なるべく時間をかけずにとりあえず情報をまとめたい」といったケースでは、OCRのコピペ機能はかなり便利といえるでしょう。

事例3. 紙の書類をパソコン上で編集可能に

「紙の書類をデータ化したはいいけど、編集できないから不便……」

そんな悩みも、OCRを使えば解決。

OCRによって紙の書類データからテキストを抽出し、編集可能な状態にできます。

紙の資料

▲たとえばこちらの紙の資料をスキャンします

OCRを実行

▲スキャナで読み取った紙の書類を『PDFelement』にて読み込み、「OCRを実行します」をクリック

テキストデータ抽出

▲わずかな時間で編集可能なテキストデータを抽出できました。これで検索やコピペも楽チン!

事例4. 外国語の書類を翻訳可能に

OCRでテキストデータを拾えるということは、テキストデータを翻訳し、外国語のPDF資料を日本語に変換することも可能なのです。

Alice in Wonderland

▲サンプルとしてAlice in Wonderlandを『PDFelement』で翻訳してみます。「ツール」タブから、「翻訳」ボタンをクリック

翻訳用ウィンドウ

▲すると翻訳用のウインドウが開きます

翻訳後

▲この状態で翻訳したい文章を選択すると、自動で文章が翻訳されます。簡単! 外国語情報のリサーチがはかどりますね

事例5. 契約書等を印刷なしでサイン&捺印可能に

OCR機能のあるPDF編集ソフトを活用することで、契約書などを印刷なしでサイン&捺印が可能になります。

たとえばクライアントから契約書がPDFで送られてきたとします。いままではPDFを紙に印刷し、ハンコを押して再度スキャンして返送、というフローだった人も多いはず。

しかし『PDFelement』のようなPDF編集ソフトであれば、PDFを紙に印刷することなく、PDFのままでサインや捺印が可能なのです。

サンプル領収書

▲今回は私が作成した「サンプル領収書」にハンコを押すと仮定して、印刷無しで捺印する方法を紹介します

ハンコ登録

▲まずはハンコを登録しましょう。ハンコを押したいPDFを開いたら、「注釈」→「スタンプの管理」→「作成」と進みます

ハンコ登録

▲ハンコを登録し「OKボタン」を押します(電子印鑑自体は別途作成する必要があります)

スタンプ

▲「スタンプ」ボタン一覧に登録したハンコが加わっています

捺印

▲場所とサイズを調整して、捺印しましょう

一度ハンコを登録してしまえば、あとは何度でも再利用可能。いちいち印刷する場合と比べ、大幅な時間短縮となるでしょう。

なおPDFelementは電子署名に対応しているので、電子契約にも使用できます。

OCRを手軽に導入できるおすすめアプリ『PDFelement』

「あ! PDFにミスが……またPowerPointを立ち上げて修正しないと……」
「以前クライアントからもらった資料、どこいったっけ……」
「請求書にハンコを押すために、コンビニに印刷にいかないと……」

OCRを活用することで、このようなちょっとした雑務を大幅に減らすことができます。そしてその分だけ、クライアントへ価値を提供するために充てる時間が増えるのです。

PDFelement

そんなOCRを導入するにあたってのおすすめアプリは『PDFelement』。

ここまでOCRを活用したPDFelementの便利な機能をいくつかご紹介しましたが、じつはPDFelementにはまだまだ便利な機能が満載です。

  • PDFの分割、合体、特定ページのみの抽出
  • PDFのサイズ圧縮
  • PDF内への記入可能なフォームの設置
  • 他人がPDF編集できないようにするためのパスワード付与機能
  • PDF同士の差分検出(バージョンの比較に便利)
  • クラウドへの保存が可能
  • 専用のiOS、Androidアプリあり

毎日の雑務やちょっとしたストレスの積み重ねが、PDFelementで解消できるかもしれません。

PDFelementの価格

PDFelementの料金体系は以下のとおり。(詳細は公式サイトをご確認ください

プロ版+iOS版 標準版
永続ライセンス 9,380円(税込) 5,980円(税込)
1年間プラン 7,280円(税込) 4,980円(税込)

※参考:Adobe Acrobat Standard 1年間プラン 18,216円(税込)/Adobe Acrobat Pro 1年間プラン 23,760円(税込)

値段を見て「思ったよりいい値段するし、やっぱ試すのやめとこうかな」という人もいるかもしれません。

ただOCRによって(少なめに見積もって)毎月3時間程度の時間が雑務以外の時間に充てられるとすると、年間36時間は雑務に費やされている計算になります。時給が1,000円だったとしても、PDFelementには年間36,000円の価値があるのです。

その価値が年間4,980円〜で受け続けられると思うと、なかなか「アリ」なのではないでしょうか。

PDFelementがお得に利用できるキャンペーン

「どれくらいPDFelementが便利なのか、一度試せないかな?」と考えている方に朗報です。

新製品であるPDFelement Ver.9のリリースに合わせ、プロ版の7日間無料体験キャンペーンが行われます!

PDFに関する機能が総合的に詰まったPDFelementが無料で手に入るチャンス、ぜひお見逃しないよう。

なお基本的な機能については、いつでも試用版を無料ダウンロードできます。「とりあえずPDFelementの使用感を確かめたい!」という人は、こちらもぜひお試しください。

(執筆:すめし 編集:じきるう)

SHARE

  • 広告主募集
  • ライター・編集者募集
  • WorkshipSPACE
週2日20万円以上のお仕事多数
Workship