本ブログの記事「日本語組版処理の要件(2012年3月30日)」で紹介しました「W3C技術ノート 日本語組版処理の要件」が東京電機大学出版局から発売されています(2012年4月10日発売)。
→ W3C技術ノート 日本語組版処理の要件(Amazon.co.jp)
この書籍は、そのほとんどすべてが弊社『AH Formatter V6』によって組版されています。機会がありましたら『AH Formatter』でどのような組版ができるのか是非お手にとってご覧ください。
なお、本件の導入事例は、『AH Formatter』の「導入事例紹介ページ」に掲載しています。
→ AH Formatter V6 による JLReq の自動組版(AH Formatter 導入事例紹介)
年別アーカイブ: 2012年
AH Formatter V6.0 改訂3版につきまして
2012年7月4日、AH Formatter V6.0 改訂3版を公開しました。
主な機能強化は以下のとおりです。
・PDF フォームのテキストフィールドに書式設定ができるようになりました。
・また、書式を設定したテキストフィールドに初期値の設定ができるようになりました。
この他、これまでの障害に対応しております。改訂内容の詳細は次をご参照ください。
→ AH Formatter V6.0 改訂情報
評価版は以下のページよりお申し込みいただけます。
→ AH Formatter V6 評価版のお申し込み
製品のご購入につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
→ アンテナハウス システム製品技術相談会
AH Formatter 事例紹介セミナーのご案内 – 2012/7/27(金)
このたびアンテナハウスは、『AH Formatter(XSL Formatter)』がどのような分野でどのようにご利用されているか、実際にご利用いただいているお客様からご紹介いただく「第2回 AH Formatter 事例紹介セミナー」を 2012年7月27日(金)に開催いたします(事前予約制)。『AH Formatter』にご興味のある方、導入をご検討されていらっしゃる方は、是非、ご参加ください。
セミナーの詳細及びお申し込みは、
「第2回 AH Formatter 事例紹介セミナー」のご案内
をご覧ください。
ヤフーやグーグルがメールを勝手に読んでる!? その2
昨日は、
(1) ヤフージャパンが「インタレストマッチ広告」を始める
(2) それを実現するために、メールの内容を解析する
(3) メールの解析を通信の秘密やプライバシー侵害とみなす意見もある
(4) 今回、問題視されていることを、グーグルは何年も前からGmailでやっている
(5) グーグルは、Gmail以外でも、同社のクラウドにユーザが置いたデータに対して、自由に、使用、複製、変更、派生物の作成などができる利用規約になっている
(6) ほとんどのユーザは、それに気づいておらず、プライバシー侵害とも思っていない
(5) これらが、TextPorterやServer Based Converter(SBC)とも関係がある
ということを書きました。
TextPorterは、PDF, Microsoft Officeなどのファイルから、テキストを抜き出す、テキスト抽出エンジンです。
SBCは、Microsoft Officeのファイルを、Microsoft Officeなしで、クラウド上で変換し、PDFや画像にする変換エンジンです。
TextPorterは、ユーザがクラウドに置いた各種ファイルからテキストを抽出し、全文検索やインタレストマッチ広告に使うデータを提供できます。
企業では、法令遵守(コンプライアンス)強化のため、社員のメールを解析して、機密情報が外部に漏れないようにしたり、社外の人間と怪しいメールをやり取りしていないかチェックするためにも使われています。
SBCは、ユーザがクラウドに置いた各種ファイルを、ブラウザで表示できるように変換します。これが、派生物の作成に相当します。
なお、ヤフーやグーグルが、TextPorterやSBCを使っているといっているわけではありませんので、ご注意を。TextPorterやSBCは、ヤフーやグーグルがやっていることをやるための道具立てになり得るということです。
そして、実際に、いくつもの大企業が、TextPorterやSBCを使って、クラウド上で、日々、ファイルをスキャンし、変換して、生産性向上に役立てています。
一般消費者向けの製品ではなく、縁の下の力持ちですから、一般ユーザの目には触れませんが。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
ヤフーやグーグルがメールを勝手に読んでる!?
ヤフージャパンが、ヤフーメールの内容を解析して、メール内容に合致した広告を入れる「インタレストマッチ広告」サービスを始めることに対して、通信の秘密の侵害ではないか、プライバシーの侵害ではないかと、話題になっています。
詳しくは、たとえば、
http://diamond.jp/articles/-/21403
新サービスでヤフーが開けた通信の秘密というパンドラの箱
を読んでいただくとして、これは、我々、ICT業界人にとっては、何年も前に話題になったことです。
というのは、グーグルのGmailというサービスは、まさにこれをやっているからです。
グーグルがこれを導入したとき、Gmailはプライバシーの侵害だと、アメリカでは大騒ぎになりました。それに対してグーグル幹部が、コンピュータウイルスを調べるのに、メールやファイルをスキャンするのと同じだと、いかにも理系的な返事をしたために、火に油を注いだ状況にもなりました。
グーグルはGmailを日本でもサービスし、多くのユーザがいますが、なぜ、グーグルが許されて、ヤフーが問題視されるかといえば、メールを保存しているのは日本国外なので日本の法律の適用外、かつ、グーグルは電気通信事業者の届出をしていないので、通信の秘密を守らなければならない法律の適用外。ということのようです。
Gmailでは、グーグルのコンピュータが、メールを勝手にスキャン(メールを勝手に読んでいる)ことを、知らない人も多いでしょうし、多くの人は、通信の秘密の侵害、プライバシー侵害とも思ってないでしょう。
実は、グーグルは、Gmailはもとより、他のサービスでも、同社のクラウドにユーザが置いたデータを自由に使える利用規約を定めています。
Google 利用規約(最終更新日: 2012年3月1日)
によれば、
「ユーザーは Google(および Google と協働する第三者)に対して、そのコンテンツについて、使用、ホスト、保存、複製、変更、派生物の作成(たとえば、Google が行う翻訳、変換、または、ユーザーのコンテンツが本サービスにおいてよりよく機能するような変更により生じる派生物などの作成)、(公衆)送信、出版、公演、上映、(公開)表示、および配布を行うための全世界的なライセンスを付与することになります」
となっています。
グーグルのユーザは、グーグルがユーザのデータをどう料理しても、文句はいいませんと、承認しているのです。逆にいえば、だから無料なのです。
Gmailの件と同様、これを意識しているユーザも、ほとんどいないでしょう。
参考:
http://iiyu.asablo.jp/blog/2012/06/11/6475359
Google Driveの利用規約がヤバ過ぎる? だったら、他のサービスもだよ。
なぜ、こんな話を持ち出したかといえば、TextPorterやServer Based Converterにも関係があることだからです。
それについては、明日。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
Server Based Converter V4.0 MR1, V3.1 MR2, V3.0 MR7について
Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換するということです。
前回のブログ担当日から今日までの間に、改訂版として、V4.0 MR1, V3.1 MR2, V3.0 MR7を出荷しましたので、それを紹介します。
Server Based Converter V4.0 MR1の改訂内容については、
Server Based Converter V4.0 MR1
をご覧ください。
Server Based Converter V3.1 MR2の改訂内容については、
Server Based Converter V3.1 MR2
をご覧ください。
Server Based Converter V3.0 MR7の改訂内容については、
Server Based Converter V3.0 MR7
をご覧ください。
今回の改訂は、細かなものが多く、多岐にわたりますが、大筋は、レイアウト再現性の向上を目指したものです。早目に、改訂版の導入をお願いします。
通常、MRはバグ修正のみで、機能追加は行ないませんが、今回のV4.0 MR1では、いくつか機能追加をしています。
(1) WordからPDFの変換において変換結果に合わせた目次を出力できるオプション -docpagenumbercorrection を実装しました。
(2) サポートしていない機能を発見した場合にWarningを返すようにしました。
(3) 暗号化(パスワード)が施されたファイルの処理において、より詳しいエラーを出力するようにしました。
(1)は、Wordのレイアウト結果とerver Based Converter(SBC)のレイアウト結果が違うことが原因で発生する問題を少しでも解消しようという試みです。
同じWord文書を表示しても、Wordの結果とSBCの結果が違うことがあります。これは、SBCが、Wordを完全に真似ることができてないことが原因です。
余談ですが、Wordですら、バージョンが違うと、違ったレイアウト結果になることがあります。これは古くからのWordユーザなら誰もが経験していることでしょう。そういう微妙なところがあります。
レイアウト結果が違うと、目次に振ってあるページ番号が実際のページとずれてしまうことがあります。たとえば、Wordで見たときに、第3章が30ページ目から始まり、目次では、第3章に対しては30という数字が振ってあるものとします。
SBCで変換した結果、本来の30ページ目が31ページ目になった場合、目次にある第3章に対する30という数字は、正しくありません。それを補正して31という数字を振るオプションを追加したということです。
Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorter V5.2 MR1, V5.1 MR4, 5.0 MR6について
TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
前回のブログ担当日から今日までの間に、改訂版として、V5.2 MR1, V5.1 MR4, V5.0 MR6を出荷しましたので、それを紹介します。
TextPorter V5.2 MR1の改訂内容については、
TextPorter V5.2 MR1
をご覧ください。
TextPorter V5.1 MR4の改訂内容については、
TextPorter V5.1 MR4
をご覧ください。
TextPorter V5.0 MR6の改訂内容については、
TextPorter V5.0 MR6
をご覧ください。
今回の改訂は、主に、Microsoft Office 2007/Office 2010に関するものです。
一見するとたくさんあるようですが、実は、同じ修正です。Word, Excel, PowerPointの2007と2010に対して行われているので、多く修正されているようにみえるだけです。
「ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題」というのは、DMC_GETTEXT_OPT1_TEMPという、ややこしいオプションに関するものです。
TextPorterは、処理の都合上、一時ファイルが必要な場合は、通常、システムのデフォルトのディレクトリを使います。しかし、システムのデフォルトではなく、出力先と同じディレクトリを使ってくれというお客様の要望があって、このオプションができました。
しかし、ストリーム出力では、出力先ディレクトリという概念そのものがありません。といって、このオプションは、システムのデフォルトのディレクトリは使わないという意図で設けられたオプションです。仕方がないので、ストリーム主力でこのオプションが指定された場合は、TextPorterは、入力ファイルと同じディレクトリに一時ファイルを作ります。
さて、セキュリティ意識の高まりに伴って、運用者は、サーバ上で、ファイルを書き込めるディレクトリを、厳しく制限するようになってきました。入力ファイルは、入力なので書き込むことはないという仮定で、入力ファイルがあるディレクトリを書込み禁止に、TextPorterの出力をストリーム、かつ、このオプションを付けるとどうなるでしょうか。
TextPorterの動作は、不定。すなわち、どうなるかわからないというのが仕様です。
入力ファイルがある場所に一時ファイルを作ろうと思っても、書込み禁止なので、処理できないのです。
一番簡単な対処法は、DMC_GETTEXT_OPT1_TEMPを使わないことです。そうすれば、誰でも書き込みが保証されているシステムのデフォルトに一時ファイルを作ります。
もし、DMC_GETTEXT_OPT1_TEMPを使い、かつ、ストリーム出力を使うときは、入力ファイルのあるディレクトリを書込み禁止にしないように、運用側で、注意してください。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
紙の情報をコンピューターに取り込む
本日は、紙の情報をコンピューターに取り込む手段としてのOCR技術について説明いたします。
OCRとは、Optical Character Recognition(あるいはReader)という英語の略で、日本語では光学的文字認識(あるいは光学的文字読み取り装置)と訳されます。
紙に印刷された文字をイメージスキャナやデジタルカメラなどで読み取り、画像化された情報から文字情報を識別し、コンピュータで処理可能な情報(文字コード)を抽出する技術またはその装置を指します。
こう書くとなんだかややこしいですが、要は人間が新聞や雑誌など紙に書かれた文字を読んで内容を理解するのと同じようなことをコンピュータにもやらせようとするための技術のひとつと言えます。
実はOCR技術は身近なところで使われています。割と古くからあってOCRの老舗といえるのは「郵便番号読み取り装置」でしょう。日本では1968年の郵便番号導入とともに使われたといいますから、既に40年以上の実績があるわけです。
また、試験の際にお目にかかるマークシート方式の回答用紙も採点のためにOCR技術が応用されている身近な例といえます。
これらは大量の情報を一括で高速に処理する必要があるのでOCR装置も専用の高精度、高価格なものが使用されますが、私たちがパソコンを使って汎用に使用する場合には、市販のスキャナとOCRソフトとの組み合わせで取り込むのが一般的です。
さて、実際に紙の原稿からパソコンにデータを取り込み、文字を認識する場合には、概略次のことが行われます。
- 画像で取り込み:スキャナでスキャンした紙の原稿は画像データとしてパソコンに取り込まれます。画像データの種類はお使いのスキャナの仕様によって異なりますが、最近はPDF形式が使用されることが多いようです。PDFであっても内部には画像データのみ格納されています。
- 領域の識別:取り込んだ画像には、当然のことながら紙の原稿のレイアウトが移されています。それは文字であったり、図形であったり、画像であったりします。人間が紙に書かれたこれらの範囲を区別するのと同じようにOCRも識別をします。これを領域(レイアウト)認識または領域解析と呼びます。
- 文字の認識:上記で文字領域と識別された部分について文字データの読み込み(抽出)を行います。
ただし、人間が文字を読み取るのと比較して、コンピュータが文字を読むことは簡単なことではありません。人間の脳は、乱暴に書かれた手書き文字やかすれた文字などを読む場合、曖昧な部分を的確に補って正しく認識する能力を備えていますが、コンピュータはこうした認識が大の苦手です。
例えば、以下は、元の文字画像が鮮明でないために、文字の誤認識が出てしまう例です。このため、さまざまな方法が考案されて文字の認識率を高める努力がされていますが、文字の認識率が100%(つまり完全)ということにはなかなかなりません。文字のかすれやつぶれがないなどコンディションの良い活字を認識した場合、一般に98%くらいの認識率であれば正確といえるようです。
- 認識結果の保存:OCR処理された結果はそのままでは利用することができません。認識された文字や画像などの情報をパソコン・ユーザーが扱える形式、たとえばWordやExcelなどのOffice文書やテキストファイル、透明テキスト付きPDFなどに保存することで、文字の検索に利用したり、編集して別の文書に再生したりといったことが可能になります。
以上、簡単にアウトラインだけをご説明しました。実際にはOCR技術はもっと複雑で、具体的な文字識別の方法などは興味のつきないところですが、これ以上は専門的な話題となってしまいますのでここでは割愛させていただきます。
OCR技術の活用
前回はOCR技術が完璧なものでなく、文字の誤認識は避けられないということをお話しました。
現状では、原稿の文字の品質が十分によければ、市販されているOCR用のソフトウェアで活字を認識できる率は100%に近いところまでいけるようです。
しかし、文字のかすれやつぶれなどがあって品質が低かったり、文字と文字の間隔が狭い場合などは、どうしても認識率が低下してしまいます。
また、広告などで使われる装飾された文字や背景に模様がある文字、イタリックのように斜めに寝てデザインされた文字などはやはり苦手なものです。
では、OCRはまったく使えないかというと、決してそうではありません。
例えば、以下はA4サイズの原稿を弊社の「瞬簡PDF 変換7」のOCR機能を使用してWordに変換した例です。この原稿に含まれる文字数は約1600字あります。
これを、もしOCR技術を使わないで取り込むとしたら、他の手段としてはキーボードから直接文字を打ち込むことくらいかと思います。
原稿が1枚きりであればそれも選択肢と考えられます。しかし10枚、20枚とあったら…これはもう冷や汗ものですね。
また、パソコン上に原稿を移して後から文字で検索するといった用途を考えた場合、文字の誤認識が仮に100文字中10文字あったとしたらどうでしょう?
紙の状態のままでまったく検索できないことを考えると、検索できない文字があったとしても、十分実用の範囲ではないでしょうか?
OCRの文字認識レベルは、特定の産業分野では実績もあり十分実用に耐えるものとなっています。
しかし、不特定の紙の原稿を汎用的に扱うパソコン用のOCRソフトではまだその信頼性は十分でありません。
それでも、こうした技術は日進月歩で、文字の認識率を上げる研究も絶え間なく行われていますから、ハードウェアの進化とともに今後性能が向上することはあってもこのままで停滞することは考えられません。
これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。
最近は、スマートフォンやタブレットと、クラウドと呼ぶサーバーでのサービスとが組み合わされて、携帯端末のカメラで撮影した画像をクラウド上でOCR処理して文字情報を取得し、送り返すといった仕組みが利用されるようになってきました。パソコンの枠を超えた、こうした利用方法は今後もどんどん増えていくことでしょう。
絶えず新しい技術革新がされて進化を続けるOCR技術と、それを応用したOCRソフトに今後とも注目していただければ幸いです。
OCRのよもやま話
先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。
さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。
これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。
デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。
前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。