月別アーカイブ: 2012年7月

OCR技術の活用

前回はOCR技術が完璧なものでなく、文字の誤認識は避けられないということをお話しました。

現状では、原稿の文字の品質が十分によければ、市販されているOCR用のソフトウェアで活字を認識できる率は100%に近いところまでいけるようです。
しかし、文字のかすれやつぶれなどがあって品質が低かったり、文字と文字の間隔が狭い場合などは、どうしても認識率が低下してしまいます。
また、広告などで使われる装飾された文字や背景に模様がある文字、イタリックのように斜めに寝てデザインされた文字などはやはり苦手なものです。

では、OCRはまったく使えないかというと、決してそうではありません。
例えば、以下はA4サイズの原稿を弊社の「瞬簡PDF 変換7」のOCR機能を使用してWordに変換した例です。この原稿に含まれる文字数は約1600字あります。

A4サイズの原稿

これを、もしOCR技術を使わないで取り込むとしたら、他の手段としてはキーボードから直接文字を打ち込むことくらいかと思います。
原稿が1枚きりであればそれも選択肢と考えられます。しかし10枚、20枚とあったら…これはもう冷や汗ものですね。

また、パソコン上に原稿を移して後から文字で検索するといった用途を考えた場合、文字の誤認識が仮に100文字中10文字あったとしたらどうでしょう?
紙の状態のままでまったく検索できないことを考えると、検索できない文字があったとしても、十分実用の範囲ではないでしょうか?

OCRの文字認識レベルは、特定の産業分野では実績もあり十分実用に耐えるものとなっています。
しかし、不特定の紙の原稿を汎用的に扱うパソコン用のOCRソフトではまだその信頼性は十分でありません。
それでも、こうした技術は日進月歩で、文字の認識率を上げる研究も絶え間なく行われていますから、ハードウェアの進化とともに今後性能が向上することはあってもこのままで停滞することは考えられません。

これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。

最近は、スマートフォンやタブレットと、クラウドと呼ぶサーバーでのサービスとが組み合わされて、携帯端末のカメラで撮影した画像をクラウド上でOCR処理して文字情報を取得し、送り返すといった仕組みが利用されるようになってきました。パソコンの枠を超えた、こうした利用方法は今後もどんどん増えていくことでしょう。

絶えず新しい技術革新がされて進化を続けるOCR技術と、それを応用したOCRソフトに今後とも注目していただければ幸いです。


OCRのよもやま話

先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。

さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。

これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。

デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。

前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。


デスクトップ製品のサポート期間

デスクトップ製品のサポート窓口には様々なお問い合わせがありますが、その中に製品のサポート期間を知りたいというお問い合わせがあります。
製品の利用ガイドなどにも記載されておりますが、アンテナハウスのデスクトップ製品は、お客様が製品をご購入されてから1年間がサポート期間となっており、お電話、あるいはメールでのお問い合わせにお答えしております。
また、ご購入から1年以上を経過した製品でも、製品の販売終了から1年未満の製品については、なるべくご質問にお答えしております。
販売終了から1年以上経過した製品のお問い合わせにつきましては、場合によってはお断りするケースもございますが、お客様が製品を使うにあたり、少しでもお役に立てるようサポートを行っておりますので、製品をご購入頂いた後、お困りのことがあった際には是非サポートセンターをご利用ください。
なお、デスクトップ製品のサポートについての詳細は「デスクトップ製品のユーザーサポートについて」をご参照ください。


PDF Driver APIのマルチスレッド変換

こんにちは。
今日は、PDF Driver API V5.0 のマルチスレッド変換について、紹介します。
PDF Driver API V5.0はマルチスレッドでの変換に対応しています。
複数のファイルを同時に変換することにより全体の処理時間を大幅に短縮することが可能です。

青線はExcel文書250個とWord文書150個を、赤線は比較的シンプルなExcel文書500個をそれぞれ
1~20スレッドで変換した場合に要した時間を示したものです。
CPUコア数程度までははっきりと処理時間が短くなります。ハイパースレッディングの効果は薄いですが、それでもCPUスレッド数の2倍程度のスレッド数までは時間短縮に効果があります。
サーバー上で変換を行うシステムではマルチスレッド実行により複数のキューを持たせることができます。
バックグラウンドでバッチ処理をしながら同じシステム上に今すぐ変換したいユーザー用の独立したキューを用意して、バッチ処理の影響を受けることなくすぐ変換させることも可能です。
※マルチスレッド変換時はEXCEL.EXE、WINWORD.EXEが合計で最大スレッド数と同じ数だけ動作します。
通常のOffice文書編集時とは比較にならないほど必要なメモリが多くなるので64bit版のWindowsをおすすめします。
※一太郎、PowerPointはアプリケーションの都合上マルチスレッド変換でもそれぞれ1つずつの変換しかできません。


Pages: Prev 1 2