タグ別アーカイブ: OCR

PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(2)

PDFを再利用する場合、元となるPDFは内容によって以下の2種類に分けることができます。

1)テキストが含まれているPDF
2)テキストが含まれない画像だけのPDF

1)の「テキストが含まれているPDF」とは、WordやExcelなどで文字入力しPDF化したものが該当します。
このようなPDFからの変換には、『瞬簡PDF 変換 9』が適しています。

瞬簡PDF 変換 9』は、PDFにテキスト・データが含まれていればそれを解析してWordやExcelに変換します。テキスト・データをそのまま変換するため文字化けしたりすることなくWordやExcel形式に移して再利用可能になります。

変換されたいPDFにテキスト・データが含まれるかどうかは、Adobe Reader などでPDFを表示して[編集]メニューから[すべて選択]をクリックしてみてください。
テキスト・データが以下のように反転表示されれば、テキストが含まれるPDFだと判別できます(※)。

pdf

テキストをすべて選択

 

※ スキャナーで作成された画像には、スキャナーがOCR処理をかけてテキスト・データをPDFに埋め込むことがあります(透明テキストつきPDF)。この場合は同じようにテキスト部分が反転して表示されます。

2)の「テキストが含まれない画像だけのPDF」とは、紙の書類をスキャナーで読み取ってPDF化したものなどが該当します。
このようなPDFは文字と見える部分も画像でしかないため、そのままWordやExcel形式に変換しても編集のできない画像が貼り付きます。
このようなデータに対しては「OCR」といって画像から文字を認識する機能を使うことでテキスト・データを取り出すことができます。ただし、OCR処理では画像の状態により文字が正しく認識できず、文字化けしてしまうことがあるため注意が必要です。

紙に印刷された内容をWordやExcelで再利用されたい場合は、『瞬簡PDF OCR』が適しています。

瞬簡PDF OCR』はOCR専用製品で、スキャナーからの直接読み込みにも対応しています。
読み込んだ画像はOCR処理し、誤認識した文字を画面上で修正したり編集したりしながら、変換結果に反映させることができます。
(製品の仕様上、常にOCR処理をかけるため、テキスト・データがあらかじめ含まれているPDFを変換する用途には適しません。)

なお、『瞬簡PDF 変換 9』にもOCR機能があり、画像データからテキスト・データを認識して変換することができます。
ただし、スキャナーからの読み込み機能や誤認識した文字を画面上で修正する機能はありません。

瞬簡PDF OCR』は紙の書類の再利用をされたい場合に適しているのに対し、『瞬簡PDF 変換 9』は内容に関わらず複数のPDFを一括して変換されたいような場合に適していると言えます。

どういったPDFを再利用されたいかによって、いずれの製品を選択するかご検討いただければ幸いです。

PDFをWordやExcelに変換したいけれど、望み通りに変換してくれるか心配…

PDFをWordやExcelに変換したいとお考えの場合、どれだけ正確に変換できるかが気になることと思います。
上記2つの製品にはそれぞれ体験版をご用意しておりますので、その変換精度や使い勝手を事前にご確認いただくことができます。

ただし、体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつのPDFについて、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』、または『瞬簡PDF OCR 体験版のお申し込み』をそれぞれご参照ください。


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(1)

弊社伊那支店の近くには、春に桜で賑わう高遠という町があります。
江戸時代は高遠藩の城下町だったところで、そこかしこに古い時代の面影が残り普段はとても閑かな町です。
そこは、高遠石工と呼ばれる石工集団が活躍したところでもあり、城下の寺には名工といわれた守屋貞治が刻んだ数々の仏さまが遺されています。

正観世音菩薩

正観世音菩薩

写真が下手でうまく伝えられませんが、石なのに柔らかくて温かい表情が何ともいえず好きです。時間と興味のある方は、是非一度現地を訪ねてみてください。

閑話休題。

PDFは紙に代わるデジタルな文書形式として、すっかり身近なものになりました。もともとは閲覧や印刷用途で普及したPDFですが、WordやExcelのように自由に編集して再利用したいというニーズも必然的に増えています。

そのようなニーズに応えてご用意しているのが、弊社のパッケージ製品『瞬簡PDF 変換 9』と『瞬簡PDF OCR』です。

いずれも、PDFをWord(ワード)/Excel(エクセル)/PowerPoint(パワーポイント) の各文書形式に変換することでPDFの再利用が可能な製品です。

なぜPDFから変換をするのに2つも種類があるの? とは、よくお問い合わせをいただくご質問です。

次回は、2つの製品の違いを元になるPDFの観点からご説明します。


『瞬簡PDF OCR』のマルチドキュメント・インタフェースとは?

昨日に続いて、日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』をご紹介します。

『瞬簡PDF OCR』は、マルチドキュメント・インタフェースというちょっと聞き慣れない用語でその操作性をアピールしております。
これは何かといいますと、平たく言えば、いくらでもデータを読み込んでお好きな変換先に変換できますよ、ということです。

もちろんパソコンの物理的な制限というのはありますから、「いくらでも」というのは言い過ぎですね。
しかし、スキャナからでも、PDFからでも、ビットマップやJPEGなどのイメージからでも、クリップボードからでも、画像データであればとりあえず『瞬簡PDF OCR』の画面上に放り込んでおいて、いつでもWordやExcelに変換できるような作りになっています。

以下では、そのあたりを説明してみたいと思います。

『瞬簡PDF OCR』では、原稿データの1枚を「ページ」と言っています。
スキャナで紙の原稿を読み込むときの原稿1枚、1枚がそれぞれ1ページになります。
画像ファイルを読み込んだ場合はひとつの画像ファイルが1ページとなり、 PDFを読み込んだ場合はPDFに含まれる各ページがそれぞれ1ページになります。

次に、ページをひとつにまとめたものを「ドキュメント」と言います。
『瞬簡PDF OCR』では、ひとつのドキュメントが『Word』や『Excel』の1文書に変換されます。 また、作業ファイルに保存する場合も「ドキュメント」毎に行います。
これを図に表すと以下のようになります。

tutrial_pdf_ocr_s.png
(画像をクリックすると拡大します)

これをどんなふうに使うかというと、例えばスキャナで複数の原稿を取り込む場合を考えてみます。
紙の原稿にはいろいろな種類があると思いますが、報告書であるとか、申請書のような形式の文書はWordで編集した方が何かと便利です。
一方、表形式になった月次売上だとか名簿などは、Excelで編集するのが向いていると言えます。
これらを一度にスキャンして、別々のドキュメントにまとめて取り込んでおけば、片方はWordに、もう片方はExcelに分けて変換することができます。

また、Wordに変換する場合でも、報告書は報告書でまとめてひとつのWordファイルに変換し、申請書は申請書で種類毎に別のWordファイルにしたいと思いませんか?
そのような場合でも、『瞬簡PDF OCR』では、報告書のドキュメント、申請書Aのドキュメント、申請書Bのドキュメントというように、原稿を取り込んだ時点で分類しておけるので、後はそれぞれのドキュメント単位で変換できます。
これを整理しますと、以下のようになります。

  • スキャンした原稿や、PDFの内容などをひとつのドキュメントにしたり、それぞれを別のドキュメントに分けたりすることで、目的に応じた変換結果を簡単に得ることができます。
  • ドキュメントに含まれるページは、サムネイルを使って順序を入れ替えたり、不要なら削除したりが簡単に操作できます。また、ドキュメント間でページに含まれる任意の範囲をコピーして貼り付けたり、移動することも可能です。
  • ドキュメント毎にその状態を保存できますので、途中で作業を中断して『瞬簡PDF OCR』を終了しても、次回起動時に再び前回の中断時点から作業を再開することが容易です。

tutrial_main_interface_s.png
(画像をクリックすると拡大します)

以上、『瞬簡PDF OCR』の操作画面について、簡単に説明しました。
次回は実際に取り込んだ画像データから変換を行うまでの操作方法についてご紹介したいと思います。
是非明日もこちらのブログをご覧ください。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。


OCRのよもやま話

先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。

さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。

これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。

デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。

前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。