TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
前回のブログ担当日から今日までの間に、改訂版として、V5.2 MR1, V5.1 MR4, V5.0 MR6を出荷しましたので、それを紹介します。
TextPorter V5.2 MR1の改訂内容については、
TextPorter V5.2 MR1
をご覧ください。
TextPorter V5.1 MR4の改訂内容については、
TextPorter V5.1 MR4
をご覧ください。
TextPorter V5.0 MR6の改訂内容については、
TextPorter V5.0 MR6
をご覧ください。
今回の改訂は、主に、Microsoft Office 2007/Office 2010に関するものです。
一見するとたくさんあるようですが、実は、同じ修正です。Word, Excel, PowerPointの2007と2010に対して行われているので、多く修正されているようにみえるだけです。
「ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題」というのは、DMC_GETTEXT_OPT1_TEMPという、ややこしいオプションに関するものです。
TextPorterは、処理の都合上、一時ファイルが必要な場合は、通常、システムのデフォルトのディレクトリを使います。しかし、システムのデフォルトではなく、出力先と同じディレクトリを使ってくれというお客様の要望があって、このオプションができました。
しかし、ストリーム出力では、出力先ディレクトリという概念そのものがありません。といって、このオプションは、システムのデフォルトのディレクトリは使わないという意図で設けられたオプションです。仕方がないので、ストリーム主力でこのオプションが指定された場合は、TextPorterは、入力ファイルと同じディレクトリに一時ファイルを作ります。
さて、セキュリティ意識の高まりに伴って、運用者は、サーバ上で、ファイルを書き込めるディレクトリを、厳しく制限するようになってきました。入力ファイルは、入力なので書き込むことはないという仮定で、入力ファイルがあるディレクトリを書込み禁止に、TextPorterの出力をストリーム、かつ、このオプションを付けるとどうなるでしょうか。
TextPorterの動作は、不定。すなわち、どうなるかわからないというのが仕様です。
入力ファイルがある場所に一時ファイルを作ろうと思っても、書込み禁止なので、処理できないのです。
一番簡単な対処法は、DMC_GETTEXT_OPT1_TEMPを使わないことです。そうすれば、誰でも書き込みが保証されているシステムのデフォルトに一時ファイルを作ります。
もし、DMC_GETTEXT_OPT1_TEMPを使い、かつ、ストリーム出力を使うときは、入力ファイルのあるディレクトリを書込み禁止にしないように、運用側で、注意してください。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
紙の情報をコンピューターに取り込む
本日は、紙の情報をコンピューターに取り込む手段としてのOCR技術について説明いたします。
OCRとは、Optical Character Recognition(あるいはReader)という英語の略で、日本語では光学的文字認識(あるいは光学的文字読み取り装置)と訳されます。
紙に印刷された文字をイメージスキャナやデジタルカメラなどで読み取り、画像化された情報から文字情報を識別し、コンピュータで処理可能な情報(文字コード)を抽出する技術またはその装置を指します。
こう書くとなんだかややこしいですが、要は人間が新聞や雑誌など紙に書かれた文字を読んで内容を理解するのと同じようなことをコンピュータにもやらせようとするための技術のひとつと言えます。
実はOCR技術は身近なところで使われています。割と古くからあってOCRの老舗といえるのは「郵便番号読み取り装置」でしょう。日本では1968年の郵便番号導入とともに使われたといいますから、既に40年以上の実績があるわけです。
また、試験の際にお目にかかるマークシート方式の回答用紙も採点のためにOCR技術が応用されている身近な例といえます。
これらは大量の情報を一括で高速に処理する必要があるのでOCR装置も専用の高精度、高価格なものが使用されますが、私たちがパソコンを使って汎用に使用する場合には、市販のスキャナとOCRソフトとの組み合わせで取り込むのが一般的です。
さて、実際に紙の原稿からパソコンにデータを取り込み、文字を認識する場合には、概略次のことが行われます。
- 画像で取り込み:スキャナでスキャンした紙の原稿は画像データとしてパソコンに取り込まれます。画像データの種類はお使いのスキャナの仕様によって異なりますが、最近はPDF形式が使用されることが多いようです。PDFであっても内部には画像データのみ格納されています。
- 領域の識別:取り込んだ画像には、当然のことながら紙の原稿のレイアウトが移されています。それは文字であったり、図形であったり、画像であったりします。人間が紙に書かれたこれらの範囲を区別するのと同じようにOCRも識別をします。これを領域(レイアウト)認識または領域解析と呼びます。
- 文字の認識:上記で文字領域と識別された部分について文字データの読み込み(抽出)を行います。
ただし、人間が文字を読み取るのと比較して、コンピュータが文字を読むことは簡単なことではありません。人間の脳は、乱暴に書かれた手書き文字やかすれた文字などを読む場合、曖昧な部分を的確に補って正しく認識する能力を備えていますが、コンピュータはこうした認識が大の苦手です。
例えば、以下は、元の文字画像が鮮明でないために、文字の誤認識が出てしまう例です。このため、さまざまな方法が考案されて文字の認識率を高める努力がされていますが、文字の認識率が100%(つまり完全)ということにはなかなかなりません。文字のかすれやつぶれがないなどコンディションの良い活字を認識した場合、一般に98%くらいの認識率であれば正確といえるようです。
- 認識結果の保存:OCR処理された結果はそのままでは利用することができません。認識された文字や画像などの情報をパソコン・ユーザーが扱える形式、たとえばWordやExcelなどのOffice文書やテキストファイル、透明テキスト付きPDFなどに保存することで、文字の検索に利用したり、編集して別の文書に再生したりといったことが可能になります。
以上、簡単にアウトラインだけをご説明しました。実際にはOCR技術はもっと複雑で、具体的な文字識別の方法などは興味のつきないところですが、これ以上は専門的な話題となってしまいますのでここでは割愛させていただきます。
OCR技術の活用
前回はOCR技術が完璧なものでなく、文字の誤認識は避けられないということをお話しました。
現状では、原稿の文字の品質が十分によければ、市販されているOCR用のソフトウェアで活字を認識できる率は100%に近いところまでいけるようです。
しかし、文字のかすれやつぶれなどがあって品質が低かったり、文字と文字の間隔が狭い場合などは、どうしても認識率が低下してしまいます。
また、広告などで使われる装飾された文字や背景に模様がある文字、イタリックのように斜めに寝てデザインされた文字などはやはり苦手なものです。
では、OCRはまったく使えないかというと、決してそうではありません。
例えば、以下はA4サイズの原稿を弊社の「瞬簡PDF 変換7」のOCR機能を使用してWordに変換した例です。この原稿に含まれる文字数は約1600字あります。
これを、もしOCR技術を使わないで取り込むとしたら、他の手段としてはキーボードから直接文字を打ち込むことくらいかと思います。
原稿が1枚きりであればそれも選択肢と考えられます。しかし10枚、20枚とあったら…これはもう冷や汗ものですね。
また、パソコン上に原稿を移して後から文字で検索するといった用途を考えた場合、文字の誤認識が仮に100文字中10文字あったとしたらどうでしょう?
紙の状態のままでまったく検索できないことを考えると、検索できない文字があったとしても、十分実用の範囲ではないでしょうか?
OCRの文字認識レベルは、特定の産業分野では実績もあり十分実用に耐えるものとなっています。
しかし、不特定の紙の原稿を汎用的に扱うパソコン用のOCRソフトではまだその信頼性は十分でありません。
それでも、こうした技術は日進月歩で、文字の認識率を上げる研究も絶え間なく行われていますから、ハードウェアの進化とともに今後性能が向上することはあってもこのままで停滞することは考えられません。
これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。
最近は、スマートフォンやタブレットと、クラウドと呼ぶサーバーでのサービスとが組み合わされて、携帯端末のカメラで撮影した画像をクラウド上でOCR処理して文字情報を取得し、送り返すといった仕組みが利用されるようになってきました。パソコンの枠を超えた、こうした利用方法は今後もどんどん増えていくことでしょう。
絶えず新しい技術革新がされて進化を続けるOCR技術と、それを応用したOCRソフトに今後とも注目していただければ幸いです。
OCRのよもやま話
先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。
さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。
これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。
デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。
前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。
デスクトップ製品のサポート期間
デスクトップ製品のサポート窓口には様々なお問い合わせがありますが、その中に製品のサポート期間を知りたいというお問い合わせがあります。
製品の利用ガイドなどにも記載されておりますが、アンテナハウスのデスクトップ製品は、お客様が製品をご購入されてから1年間がサポート期間となっており、お電話、あるいはメールでのお問い合わせにお答えしております。
また、ご購入から1年以上を経過した製品でも、製品の販売終了から1年未満の製品については、なるべくご質問にお答えしております。
販売終了から1年以上経過した製品のお問い合わせにつきましては、場合によってはお断りするケースもございますが、お客様が製品を使うにあたり、少しでもお役に立てるようサポートを行っておりますので、製品をご購入頂いた後、お困りのことがあった際には是非サポートセンターをご利用ください。
なお、デスクトップ製品のサポートについての詳細は「デスクトップ製品のユーザーサポートについて」をご参照ください。
名古屋支店が移転しました
PDF Driver APIのマルチスレッド変換
こんにちは。
今日は、PDF Driver API V5.0 のマルチスレッド変換について、紹介します。
PDF Driver API V5.0はマルチスレッドでの変換に対応しています。
複数のファイルを同時に変換することにより全体の処理時間を大幅に短縮することが可能です。
青線はExcel文書250個とWord文書150個を、赤線は比較的シンプルなExcel文書500個をそれぞれ
1~20スレッドで変換した場合に要した時間を示したものです。
CPUコア数程度までははっきりと処理時間が短くなります。ハイパースレッディングの効果は薄いですが、それでもCPUスレッド数の2倍程度のスレッド数までは時間短縮に効果があります。
サーバー上で変換を行うシステムではマルチスレッド実行により複数のキューを持たせることができます。
バックグラウンドでバッチ処理をしながら同じシステム上に今すぐ変換したいユーザー用の独立したキューを用意して、バッチ処理の影響を受けることなくすぐ変換させることも可能です。
※マルチスレッド変換時はEXCEL.EXE、WINWORD.EXEが合計で最大スレッド数と同じ数だけ動作します。
通常のOffice文書編集時とは比較にならないほど必要なメモリが多くなるので64bit版のWindowsをおすすめします。
※一太郎、PowerPointはアプリケーションの都合上マルチスレッド変換でもそれぞれ1つずつの変換しかできません。
CAS-UBにメルマガインポート機能(アルファ版)を追加
これまで述べてきましたように、今、有料メルマガの世界にEPUBを採用する動きが広まっています。
そこでCAS-UBではメルマガをEPUBに変換するサービスを追加する予定です。
現在、クラウド上のサービスではCAS-UBのドラフトの画面のテキストインポート機能にメルマガをインポートする機能(アルファ版)を追加しています。インポートファイルの形式をクリックすると次の画面になります。
ここに4種類のメニューは、次の4つのメルマガに対応します。
・メルマガH:マグマグから配信されている「堀江貴文のブログでは言えない話」
・メルマガK:「夜間飛行」から配信されている小寺信良の「金曜ランチボックス」
・メルマガT:「夜間飛行」から配信されている『津田大介の「メディアの現場」』
・メルマガU:「夜間飛行」から配信されている「内田樹メールマガジン 大人の条件」
実はメルマガをEPUBに変換するサービスの大きな問題は、メルマガ一つ一つに、専用の変換メニューを用意しなければならないことです。プログラムそのものは難しくないのですが、一定のルールに従って書いてもらえないと綺麗な変換ができないのですね。で、ルールは各著者によって違いますので、個別対応が必要になります。
メルマガ用EPUB3スタイルシートは、現在、開発中です。とりあえずは、既存のスタイルシートを少し直して、「標準メルマガEPUB3(アルファ版)」を用意してありますので、関心をお持ちのかたはお試しになってみてください。
但し、現在、綺麗に変換できるメルマガとしては、上記の4種類(と同じ雛形で書いたメルマガ)だけで、それ以外は満足のいく変換にはなりません。
なお、上の4種類はいずれも既にEPUB形式で配信されていますが、CAS-UBのEPUB自動変換はそれらのものよりも多少は良いと思います。
新しいスタイルシートやビジネスモデルを含めて「国際電子出版EXPO」にてご案内の予定です。
また、7月11日夕方、秋葉原にて「ビジネスモデルとしての有料メルマガを考える」というテーマでセミナーを予定しています。
■有料メルマガライターまたは制作者のためのEPUB作成セミナー
メルマガ配信の新しいステージとEPUBのインパクトを考える―(下)メルマガビジネスの将来
『堀江貴文のブログでは言えない話』の成功により、有料メルマガのブームが始まったのですが、それでは将来はどうなるのでしょうか。
日経ビジネス2012年6月25日号の「敗軍の将、兵を語る」は「ホリエモンの獄中手記」です。その記事の最後の方に次のような文章があります:
しかし、「有料メルマガ」というメディアは大きな可能性があるかもしれません。将来は、テレビや新聞、雑誌に置き換わっていくものだと期待し、発信を続けていきます。
・有料メルマガが堀江氏の予見通り大きなメディアに成長するのでしょうか?
・そのためには何が必要なのでしょうか?
このことについて多方面から勉強してみたいと考えて、有料メルマガライターまたは制作者を対象にして、「ビジネスモデルとしての有料メルマガを考える」セミナーを開催することにしました。本セミナーでは、メルマガ評論家の渡辺文重氏をゲストにお招きして、最近の有料メルマガの動きや未来についてお話をいただきます。
また、私は、EPUBがその一つの鍵になるのではないかと考えています。そして、アンテナハウスでは、メルマガを自動でEPUB3に変換するサービスを近く開始します。本セミナーではその狙いや内容についても紹介します。
●本セミナーの概要
テーマ有料メルマガライターまたは制作者のためのEPUB作成セミナー~ビジネスモデルとしての有料メルマガを考える~
○開催日時
2012年7月11日(水)18時30分~20時45分(受付開始18時00分)
○主な内容
・渡辺 文重氏講演「有料メルマガの未来」(45分)
・アンテナハウスのメルマガからEPUB3への変換サービスの趣旨とサービス内容説明(40分)
・質疑応答(15分)
○会場
東京・秋葉原UDXビル8F ネットカンファレンス会議室B
○定員
40名
○参加費用
一般5,250円(消費税込み)。但し、有料メルマガ・ライターまたは制作者は発行しているメルマガを示していただいた場合、無料となります。
○主催
アンテナハウス株式会社
○セミナー事務局
株式会社エクスイズム
○お申し込み
次のセミナー事務局の申し込みフォームでお申し込みください。セミナー事務局申し込み先(エクスイズムのWebページにジャンプします)
https://www.exism.co.jp/contact/form/seminarinq_sp.html
メルマガ配信の新しいステージとEPUBのインパクトを考える―(中)メルマガの配信形式
前回はメルマガ配信スタンドの動向、有料メルマガの増加、著者個人によるメルマガ配信の可能性、などについて考えてみました。
今回は、メルマガの配信形式として、EPUBが普及するかどうかを考えて見ます。
《注:本記事は、CAS-SUPPORTのブログ6月25日掲載分と同一の内容です》
やはり、最初に過去の歴史をさかのぼって見ます。まず、電子メールはこれまではテキスト形式が主流でHTMLメールが副次的に使われてきました。しかし、日本ではHTMLメールはあまり普及していません。米国などではHTMLメールがもっと普及していると耳にします。
「マグマグ」のベストセラーメールの配信形式をみてもHTMLメールは少ないことから、メルマガ配信形式としてのHTMLメールもあまり普及していないと言えるようです。
1. HTMLメールが普及しなかった理由
HTML形式にすることで、テキスト形式に比べて次のようなメリットがあります。
(1) 見出しなどにレイアウトをつけたり、背景をつけたり、フォントサイズ指定、フォントファミリー指定などのレイアウト指定が可能
(2) 画像をページの中に埋め込むことでいままでコンテンツの充実が図れる
(3) 表の表現ができる
こうしてみますと、表現力という点では、HTMLメールがよさそうに見えます。
しかし、HTMLメールには次のような問題点があります。
(1) HTMLメールに対応したメール閲読ソフトが必要。
(2) HTMLメールでは、スクリプトを埋め込むことができるのでこれを悪用したウイルスが可能になるという問題があり、最初の頃にかなりネガティブキャンペーンが行なわれた。
(3) テキストだけと比べて、表などのレイアウトを指定するには、プラスアルファの作業が必要になる。
(4) さらにレイアウトセンスが問われる。一人で執筆能力とレイアウト能力を兼ね備えた著者は少ない。
(5) 画像を含めることが可能になるので、それを生かすためには、テキスト能力に加えて写真やイラストなどの画像を準備することが必要になる。
有料メルマガの場合は、お客さまでもある読者に向かってウイルスを送信する著者はいないでしょうし、(1)、(2)はあまり問題にならないでしょう。
(3)~(5)からは、HTMLメールの可能性を生かすには、著者の方に文章を書くことに加えて、熱意・スキル、スキルが足りない場合にはそれを補う体制作りが必要になることがわかります。
2. EPUB版メルマガの登場
こちら(CAS-UBにメルマガインポート機能(アルファ版)を追加)に紹介しましたが、2011年10月に津田大介さんのメルマガをEPUBに無償変換するサービスが登場したことがTwitter上で話題になりました。
その後、『津田大介の「メディアの現場」』は既にEPUB版のテキストメールとの同時配信を開始しています。また、「夜間飛行」はテキストメールとEPUBメールの同時配信を行なっています。
さらに、インプレスはEPUB版のみのメルマガを配信開始しています。このようにEPUBがメルマガの形式として採用される動きが出ています。
3. EPUB版メルマガの将来を考える
今後、これらの動きはどこまで進むのでしょうか?次のシナリオのどちらになるのでしょうか?
・有料メルマガの間に爆発的に普及する
・HTMLメールと同じように、一部の著者の採用するところでとどまる
EPUB版メルマガは表現力という点ではHTMLメールと類似しています。つまりHTMLメールの長所を引き継ぐことになります。
さらに、HTMLメールに無い、EPUB版メルマガの特徴として第一にパッケージ化があります。パッケージ化によって出版物としての形態を整えることができ、電子書店の店頭に並べることが可能になります。このことは、メルマガをEPUBにすることで流通ルートを増やせる可能性がある、ということになります。
一方で、HTMLメールが普及しなかった理由の(1)~(5)は、HTMLメールとEPUBメルマガの相違である閲読環境について、メールソフトをEPUBリーダやスマホ・タブレット環境に置き換えて考えると、EPUB版メルマガにもそのままあてはまってしまうようです。
ですので、EPUBメルマガが普及するためには、次の要件が整う必要があるのでしょう。
・まず閲読環境の普及が前提
・次にEPUB版メルマガの制作体制を整えること
■■7月11日「有料メルマガライターまたは制作者のためのEPUB作成セミナー」を開催します。