月別アーカイブ: 2012年10月

Server Based ConverterのWindows Server 2012対応について

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。
 Server Based Converterは、Windows Server 2012に対応するかというお問い合わせを頂戴しています。
 Server Based Converterは、Windows Server 2012に対応いたします。
 現在、動作検証を進めている状況です。
 現在の最新版は、V4.0 MR2ですが、これで動作確認を行います。動作に問題がなければ、その旨、ウェブなどでお知らせいたします。
 もし、動作に問題が起きたときは、改良を加えて、V4.0 MR3としてリリースすることになります。
 いずれにしましても、最新バージョンの最新MRで、Windows Server 2012に対応することになります。
 それ以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
 どうしてもという場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
 よろしくお願いいたします。
 Server Based Converterに関する詳しい情報は、
Server Based Converter 製品ページ
を、ぜひ、ご覧ください。
 評価版もご用意しております。
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


HTML on Word
WebページをWordで作る!

『瞬簡PDF OCR』を使ってみましょう(その3)

本日は、日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』のご紹介の最終回です。

昨日は、『瞬簡PDF OCR』で領域の誤認識を直す方法について説明をしました。

本日は、文字の誤変換を回避する方法として、画像データの「文字認識」について説明します。
これまでの変換例では、文書の先頭のタイトル部分が文字を誤認識しておかしな結果になっていました。

sample_result4.png

元の文字を見ると、丸文字系のフォントが使われていてデザインを優先した文字であることが分かります。
実は、こういった文字の認識はOCR処理の苦手とする部分です。人間の眼でみればなんということもないのですが、画像化された点の集まりから文字の形を拾い出して元の文字コードを推測するというOCR処理の論理からすると、文字の形状や方向が変化している画像は元の文字を特定しにくくて誤変換しやすいものとなるのです。
OCRソフトを使った変換では、こうした誤変換を変換前に修正する機能を用意しています。

再び『瞬簡PDF OCR』に戻って、ツールバーにある「文字認識」というボタンをクリックします。OCR処理で文字認識した結果が右のテキストビューに表示されますので、誤変換している文字を選択します。
すると、いくつか文字の一覧が傍らにポップアップで表示されるので、そこに正しい文字があれば選択して置き換えます。

char_modify.png

同様に他の文字についても置き換えを行っていきます。

また、『瞬簡PDF OCR』では、テキストのフォント種類やサイズ、色、強調表示なども合わせて指定できます。
変換したいテキスト範囲を選択して、「文字のプロパティ」で文字属性を簡単に変更することが可能です。

<char_modify2_s.png
(画像をクリックすると拡大します)

このように文字の認識結果について気になるところがあれば、変換前にある程度修正を行うことが可能です。

さて、以上の修正を行った上であらためてWordに変換した結果を示します。左側の既定値での変換結果と比較してみてください。

sample_result5_s.png
(画像をクリックすると拡大します)

一度紙に固定された文書からテキストや画像を取り出し再利用可能にするOCRソフトは、非常に有用なツールです。
オフィスや家庭には、これまであまり再利用されなかった紙の資産がたくさん眠っているのではないでしょうか?
『瞬簡PDF OCR』をご活用いただくことで、皆さまの資産の有効利用に多少なりともお役に立つことができれば、開発・販売を行っているものとして、たいへん嬉しく存じます。
今後とも弊社製品をご愛用いただけますよう、よろしくお願いいたします。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

『瞬簡PDF OCR』を使ってみましょう(その2)

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』を使った変換について、昨日の続きから説明します。

『瞬簡PDF OCR』は、以下の手順で画像からの変換処理を行います。

  1. 画像データの読み込み
  2. 領域解析
  3. 文字認識
  4. 変換先ファイル形式への保存

昨日は、OCRソフトでは誤変換が避けられないというお話をしました。

本日は、誤変換を回避する方法として、画像データの「領域解析」から説明していきます。
下記は、サンプルのPDFを既定値で変換した例です。

sample_result_s.png
(画像をクリックすると拡大します)

自慢にならないですが、ひと目みて、おかしな変換や文字の誤変換があることがお分かりになるかと思います。
特に赤い丸をつけたグラフ部分がまったく再現されていません。これは、Word上では表に変換されているためです。
この原因は、OCR処理でこの部分の領域を間違えて認識しているためです。

『瞬簡PDF OCR』に戻って、ツールバーにある「領域解析」というボタンをクリックすると、OCR処理でどのような認識が行われたかが分かります。
以下は、問題部分の領域解析結果です。

sample_result2.png

図で、赤枠で囲まれた箇所は横書きテキスト、ピンク色の枠で囲まれた箇所は縦書きテキスト、緑色の枠で囲まれた箇所は表領域にそれぞれ認識されています。表と認識されたのは、グラフにある横の目盛りを表の罫線と認識したためです。
これでは、Word上で修正しようがないので、元の認識処理に遡ってやり直す必要があります。

誤認識した範囲を画像領域に変更する例を図で示します。
(1)誤認識している領域範囲をマウスでドラッグ→(2)選択された領域をすべて解除→(3)範囲を選択し直し、一括で画像領域に変更

change_layout_s.png
(画像をクリックすると拡大します)

領域を変更したところで、いったんWordに変換して結果を確認してみましょう。いったん「文字認識」を行い、「Wordへ変換」ボタンをクリックします。
以下は、Wordに変換しなおした結果です。先ほどのグラフ部分に注目してください。

sample_result3_s.png
(画像をクリックすると拡大します)

さて、変換結果をみると、まだ不具合があります。文書の先頭のタイトル部分が文字を誤認識しておかしなことになっています。

sample_result4.png

誤認識した文字の修正方法は、また明日の回で説明しましょう。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


HTML on Word
WebページをWordで作る!

『瞬簡PDF OCR』を使ってみましょう(その1)

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』を使って変換するまでの概略を何回かに分けてご紹介します。

『瞬簡PDF OCR』は、以下の手順で画像からの変換処理を行います。

  1. 画像データの読み込み
  2. 領域解析
  3. 文字認識
  4. 変換先ファイル形式への保存

これまでOCRソフト製品を使用してこられた方であれば、お馴染みの手順かと思います。

それでは、まず画像データの読み込みから始めましょう。

  • イメージスキャナ:イメージスキャナは一般的にTWAINと呼ばれる標準規格を採用しています。『瞬簡PDF OCR』もこの規格を採用したスキャナであれば基本的に扱うことができます。
    また、TWAIN規格ではないですが、「ScanSnap」というドキュメントスキャナの機種で読み込んだデータも受け取ることができます。
  • PDF:PDFには、スキャナで作成される画像だけのPDFもありますし、一般的にPDFドライバと呼ばれる仮想プリンタ形式のソフトを使って、Wordなどのアプリケーションから作成されるテキストが含まれたPDFもあります。
    『瞬簡PDF OCR』はいずれのPDFであっても読み込みできます。ただし、後者のテキストが含まれたPDFはいったん画像にした上でOCR処理しますので、元あったテキストデータは消えてしまいます。この点はご注意ください。
  • 画像ファイル:イメージファイルとして一般的なビットマップ形式や写真でよく使われるJPEG形式など、広く使用されている画像形式をサポートしています。また、クリップボードにコピーした画像データも対象にできます。

ここでは、手近にあるPDFを読み込む手順を説明しましょう。ファイルの読み込みは、単にWindowsのエクスプローラなどから任意のPDFをつかんで、『瞬簡PDF OCR』の上にドラッグ&ドロップするだけです。
この際に、既に何か読み込みされたデータがあると、以下のような確認画面が表示されるのが他のOCRソフトと違ったところです。

ドキュメントに追加しますか?

これが昨日説明した、『瞬簡PDF OCR』独特のドキュメントの扱い方に関連するものです。既にあるドキュメントに同じ仲間としてページを追加するか、あるいは別物として新規にドキュメントを作成し、そちらに格納するかを問い合わせているわけです。
ここでもし「追加する」を選択し、画面中にある「以後、同じ処理を繰り返す」にチェックをいれると、次に新しいデータを取り込んでも問い合わせをしないで、ひとつのドキュメントに「追加」し続けます。この指定は、1枚づつしか取り込みできないスキャナから連続して原稿を取り込みたいときなどに便利です。

画像の読み込みが終わると、内容が画面に表示されます。
下記は、PDFを読み込んだ直後の状態です。

PDFを読み込んだ例
(画像をクリックすると拡大します)

結果を急ぐ人は、ここでいきなり変換してしまうこともできます。

変換の開始

元の画像の条件がよい場合は、いきなり変換してそのまま再利用ができるほどの変換結果が得られるかも知れません。
OCR処理で「条件がよい」というのは、元の画像の解像度が高くて、画像の傾き、ゴミなどのノイズがなく、文字は活字で余分な飾りもなく、レイアウト自体も単純、といったような場合をさします。しかし、そういった原稿など現実にはあまりなさそうですね。
通常、OCR処理で変換したい画像は、たいてい文字が化けたり元と違う文字に置き換わったりするなど、誤変換が避けて通れないものです。

元と違う文字が変換される程度であれば、変換後にワープロソフトを使って修正可能ですが、画像で変換したい箇所を文字と誤認識してひどい文字化けになるなど、変換後では修正しきれない場合もあります。
このような事情から、OCRソフトには誤変換を回避するための処理が備わっています。
その詳細は、明日の回で説明することにしましょう。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




HTML on Word
WebページをWordで作る!


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

『瞬簡PDF OCR』のマルチドキュメント・インタフェースとは?

昨日に続いて、日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』をご紹介します。

『瞬簡PDF OCR』は、マルチドキュメント・インタフェースというちょっと聞き慣れない用語でその操作性をアピールしております。
これは何かといいますと、平たく言えば、いくらでもデータを読み込んでお好きな変換先に変換できますよ、ということです。

もちろんパソコンの物理的な制限というのはありますから、「いくらでも」というのは言い過ぎですね。
しかし、スキャナからでも、PDFからでも、ビットマップやJPEGなどのイメージからでも、クリップボードからでも、画像データであればとりあえず『瞬簡PDF OCR』の画面上に放り込んでおいて、いつでもWordやExcelに変換できるような作りになっています。

以下では、そのあたりを説明してみたいと思います。

『瞬簡PDF OCR』では、原稿データの1枚を「ページ」と言っています。
スキャナで紙の原稿を読み込むときの原稿1枚、1枚がそれぞれ1ページになります。
画像ファイルを読み込んだ場合はひとつの画像ファイルが1ページとなり、 PDFを読み込んだ場合はPDFに含まれる各ページがそれぞれ1ページになります。

次に、ページをひとつにまとめたものを「ドキュメント」と言います。
『瞬簡PDF OCR』では、ひとつのドキュメントが『Word』や『Excel』の1文書に変換されます。 また、作業ファイルに保存する場合も「ドキュメント」毎に行います。
これを図に表すと以下のようになります。

tutrial_pdf_ocr_s.png
(画像をクリックすると拡大します)

これをどんなふうに使うかというと、例えばスキャナで複数の原稿を取り込む場合を考えてみます。
紙の原稿にはいろいろな種類があると思いますが、報告書であるとか、申請書のような形式の文書はWordで編集した方が何かと便利です。
一方、表形式になった月次売上だとか名簿などは、Excelで編集するのが向いていると言えます。
これらを一度にスキャンして、別々のドキュメントにまとめて取り込んでおけば、片方はWordに、もう片方はExcelに分けて変換することができます。

また、Wordに変換する場合でも、報告書は報告書でまとめてひとつのWordファイルに変換し、申請書は申請書で種類毎に別のWordファイルにしたいと思いませんか?
そのような場合でも、『瞬簡PDF OCR』では、報告書のドキュメント、申請書Aのドキュメント、申請書Bのドキュメントというように、原稿を取り込んだ時点で分類しておけるので、後はそれぞれのドキュメント単位で変換できます。
これを整理しますと、以下のようになります。

  • スキャンした原稿や、PDFの内容などをひとつのドキュメントにしたり、それぞれを別のドキュメントに分けたりすることで、目的に応じた変換結果を簡単に得ることができます。
  • ドキュメントに含まれるページは、サムネイルを使って順序を入れ替えたり、不要なら削除したりが簡単に操作できます。また、ドキュメント間でページに含まれる任意の範囲をコピーして貼り付けたり、移動することも可能です。
  • ドキュメント毎にその状態を保存できますので、途中で作業を中断して『瞬簡PDF OCR』を終了しても、次回起動時に再び前回の中断時点から作業を再開することが容易です。

tutrial_main_interface_s.png
(画像をクリックすると拡大します)

以上、『瞬簡PDF OCR』の操作画面について、簡単に説明しました。
次回は実際に取り込んだ画像データから変換を行うまでの操作方法についてご紹介したいと思います。
是非明日もこちらのブログをご覧ください。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』のご案内

本日は、9月に発売を開始したばかりのニューフェイス、『瞬簡PDF OCR』をご紹介します。

『瞬簡PDF OCR』は、紙に印刷された文書をスキャナーなどで読み取り、WordやExcelなどのOffice文書に変換する、いわゆる「汎用OCRソフト」のカテゴリに分類される製品です。

このカテゴリには、既に以前から多くのソフトウェア・メーカーさんが進出され、バージョンを重ねた老舗のソフトもいくつか見られます。
変換一筋25年を標榜するアンテナハウスが、今回ここに新製品を投入した狙いは、ズバリ、「編集しやすい変換結果を提供することで、より簡単に紙の原稿の再活用が可能であることを体験していただきたい」というものです。

このことは、『瞬簡PDF OCR』が、OCR汎用ソフトにおける文字認識精度などの入力側ではなく、Officeへの変換精度という出力側に焦点をあてた製品コンセプトであることを意味します。

以下では、具体的な例を通して説明してみたいと思いますので、どうぞ今しばらくお付き合いください。

みなさんは、マイクロソフト・ワードなどのワープロソフトで文書を作るとき、どんなふうに文字を配置していかれるでしょうか?
おそらく多くの方が、新規文書を開き、そこに示されたカーソルに従ってそのまま文字を入力していくことと思います。
これは、ワープロ上に本文領域が既定値で設定されていて、そこに文字を配置していく操作に他なりません。
つまり、普通に文書を作成する場合は、本文にテキストを配置し、必要であれば、やはり本文内に図や表を配置していくのが自然な操作であると言えます。

さて、次の図の例をみてください。

変換例1
(画像をクリックすると拡大します)

これは、上の青い枠で囲まれた原稿(スキャナで作成されたPDF)をWordに変換した結果を示したものです。
左の赤枠で囲まれた結果はOCRソフトでは比較的よく見かける変換方法で、OCR処理した結果をWord上にテキストボックスで配置しています。
テキストボックスで文字を配置するのは、レイアウトの再現という面では有効な手法です。
しかしひとつながりの段落を段組レイアウトで配置しているような場合には、テキストボックスで段落のつながりが切れてしまうため、テキストの手直しが面倒になります。
Wordには、テキストボックスをリンクしてつなげる機能が備わっていますが、ひとつずつ手作業で指定するなど、使い勝手はあまりよくないようです。

右の赤枠で囲まれた方は、『瞬簡PDF OCR』でWord上に本文としてテキストを変換した結果です。
本文で変換することにより、文字の挿入・削除といった編集操作を違和感なく行うことができます。

もうひとつ、同じような事例ですが、次の図をご覧ください。

scn_fig02_s.png
(画像をクリックすると拡大します)

最初の例と同様、青い枠で囲まれた、表を含む段落をWordに変換した例です。
左の赤枠で囲まれた方は、やや見づらいですが、テキストを本文で変換し、表をテキストボックスで変換した例です。
表をテキストボックス内で変換して配置した場合は、Word上で本文と分離して置かれますので、そのままでは本文に重なって表示されます。
これに対し、右の赤枠で囲まれた方は『瞬簡PDF OCR』でWord上に表を変換したもので、本文内に表を置いています。
本文でテキスト行を追加したり削除すると、表も本文と一緒に移動します。
どちらが編集しやすいか、お分かりいただけるかと思います。

OCRの文字認識精度が高ければ文字を正確に抜き出せるので、あとはOffice上で自由に編集すればいい、という考え方も当然できます。
しかし、元の原稿が長文であったりレイアウトが複雑であったりするほど、後工程での編集にも時間がかかるだろうことは容易に予想されます。
せっかく貴重なお金を消費してOCRソフトを購入し、紙原稿をOffice上に写したものであれば、その後の再利用に要する時間は節約できた方が満足度も増すのではないでしょうか?

以上、『瞬簡PDF OCR』の目指すところを簡単に述べさせていただきました。
次回は『瞬簡PDF OCR』をご理解いただくための、より深い情報をご紹介したいと思います。
もし本製品にご興味をお持ちいただけた場合は、是非明日もこちらのブログを覗いてみてください。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識
Pages: Prev 1 2