月別アーカイブ: 2012年7月

もうすぐ発売! 「瞬簡PDF タッチ -かんたん手書き入力-」

以前このブログでも紹介しましたが、いよいよ8月3日
「瞬簡PDF タッチ -かんたん手書き入力-」

が発売となります。
本製品はタッチ操作と手書き入力に対応したPDF書き込みツールです。タッチ操作で位置を決め、そのままシームレスにペンで手書き入力することができます。
タッチペンとマルチタッチに対応したWindowsタブレットでの使用を想定していますが、普通のPCとマウスだけでも十分使うことができます。
まずお好きなPDFを開いたら

touch_drag_l.png touch_pen.png
      タッチで位置を決めて・・・     ペンで手書き入力

あとは保存ボタンを押すだけで手書き文字入りPDFのできあがり!
とても簡単ですね。
もちろん手書きじゃない、普通のテキスト文字を入力することもできます。
画面はタッチ操作がしやすいようにボタンを大きめにつくってあります。


AH Formatter 導入事例紹介のセミナー資料(PDF)を公開しました。

先週、7月27日(金)に開催いたしました「第2回 AH Formatter 事例紹介セミナー」で使用した資料(PDF)を本日公開いたしました。以下よりダウンロードいただけますので、『AH Formatter』にご興味のある方、導入をご検討されていらっしゃる方には特にご覧いただきたく存じます。

なお、『AH Formatter』の導入事例の紹介は、以下の Webページに豊富にご用意しております。ご参考にしていただければ幸いです。
『AH Formatter』の導入事例紹介


[書籍紹介] W3C技術ノート 日本語組版処理の要件

本ブログの記事「日本語組版処理の要件(2012年3月30日)」で紹介しました「W3C技術ノート 日本語組版処理の要件」が東京電機大学出版局から発売されています(2012年4月10日発売)。
W3C技術ノート 日本語組版処理の要件
W3C技術ノート 日本語組版処理の要件(Amazon.co.jp)
この書籍は、そのほとんどすべてが弊社『AH Formatter V6』によって組版されています。機会がありましたら『AH Formatter』でどのような組版ができるのか是非お手にとってご覧ください。
なお、本件の導入事例は、『AH Formatter』の「導入事例紹介ページ」に掲載しています。
AH Formatter V6 による JLReq の自動組版(AH Formatter 導入事例紹介)


AH Formatter V6.0 改訂3版につきまして

2012年7月4日、AH Formatter V6.0 改訂3版を公開しました。
主な機能強化は以下のとおりです。
・PDF フォームのテキストフィールドに書式設定ができるようになりました。
・また、書式を設定したテキストフィールドに初期値の設定ができるようになりました。
この他、これまでの障害に対応しております。改訂内容の詳細は次をご参照ください。
AH Formatter V6.0 改訂情報
評価版は以下のページよりお申し込みいただけます。
AH Formatter V6 評価版のお申し込み
製品のご購入につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
アンテナハウス システム製品技術相談会


AH Formatter 事例紹介セミナーのご案内 – 2012/7/27(金)

このたびアンテナハウスは、『AH Formatter(XSL Formatter)』がどのような分野でどのようにご利用されているか、実際にご利用いただいているお客様からご紹介いただく「第2回 AH Formatter 事例紹介セミナー」を 2012年7月27日(金)に開催いたします(事前予約制)。『AH Formatter』にご興味のある方、導入をご検討されていらっしゃる方は、是非、ご参加ください。
セミナーの詳細及びお申し込みは、
「第2回 AH Formatter 事例紹介セミナー」のご案内
をご覧ください。

続きを読む


ヤフーやグーグルがメールを勝手に読んでる!? その2

 昨日は、
(1) ヤフージャパンが「インタレストマッチ広告」を始める
(2) それを実現するために、メールの内容を解析する
(3) メールの解析を通信の秘密やプライバシー侵害とみなす意見もある
(4) 今回、問題視されていることを、グーグルは何年も前からGmailでやっている
(5) グーグルは、Gmail以外でも、同社のクラウドにユーザが置いたデータに対して、自由に、使用、複製、変更、派生物の作成などができる利用規約になっている
(6) ほとんどのユーザは、それに気づいておらず、プライバシー侵害とも思っていない
(5) これらが、TextPorterやServer Based Converter(SBC)とも関係がある
ということを書きました。
 TextPorterは、PDF, Microsoft Officeなどのファイルから、テキストを抜き出す、テキスト抽出エンジンです。
 SBCは、Microsoft Officeのファイルを、Microsoft Officeなしで、クラウド上で変換し、PDFや画像にする変換エンジンです。
 TextPorterは、ユーザがクラウドに置いた各種ファイルからテキストを抽出し、全文検索やインタレストマッチ広告に使うデータを提供できます。
 企業では、法令遵守(コンプライアンス)強化のため、社員のメールを解析して、機密情報が外部に漏れないようにしたり、社外の人間と怪しいメールをやり取りしていないかチェックするためにも使われています。
 SBCは、ユーザがクラウドに置いた各種ファイルを、ブラウザで表示できるように変換します。これが、派生物の作成に相当します。
 なお、ヤフーやグーグルが、TextPorterやSBCを使っているといっているわけではありませんので、ご注意を。TextPorterやSBCは、ヤフーやグーグルがやっていることをやるための道具立てになり得るということです。
 そして、実際に、いくつもの大企業が、TextPorterやSBCを使って、クラウド上で、日々、ファイルをスキャンし、変換して、生産性向上に役立てています。
 一般消費者向けの製品ではなく、縁の下の力持ちですから、一般ユーザの目には触れませんが。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
 Server Based Converterに関する詳しい情報は、
http://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


ヤフーやグーグルがメールを勝手に読んでる!?

 ヤフージャパンが、ヤフーメールの内容を解析して、メール内容に合致した広告を入れる「インタレストマッチ広告」サービスを始めることに対して、通信の秘密の侵害ではないか、プライバシーの侵害ではないかと、話題になっています。
 詳しくは、たとえば、
http://diamond.jp/articles/-/21403
新サービスでヤフーが開けた通信の秘密というパンドラの箱
を読んでいただくとして、これは、我々、ICT業界人にとっては、何年も前に話題になったことです。
 というのは、グーグルのGmailというサービスは、まさにこれをやっているからです。
 グーグルがこれを導入したとき、Gmailはプライバシーの侵害だと、アメリカでは大騒ぎになりました。それに対してグーグル幹部が、コンピュータウイルスを調べるのに、メールやファイルをスキャンするのと同じだと、いかにも理系的な返事をしたために、火に油を注いだ状況にもなりました。
 グーグルはGmailを日本でもサービスし、多くのユーザがいますが、なぜ、グーグルが許されて、ヤフーが問題視されるかといえば、メールを保存しているのは日本国外なので日本の法律の適用外、かつ、グーグルは電気通信事業者の届出をしていないので、通信の秘密を守らなければならない法律の適用外。ということのようです。
 Gmailでは、グーグルのコンピュータが、メールを勝手にスキャン(メールを勝手に読んでいる)ことを、知らない人も多いでしょうし、多くの人は、通信の秘密の侵害、プライバシー侵害とも思ってないでしょう。
 実は、グーグルは、Gmailはもとより、他のサービスでも、同社のクラウドにユーザが置いたデータを自由に使える利用規約を定めています。
Google 利用規約(最終更新日: 2012年3月1日)
によれば、
「ユーザーは Google(および Google と協働する第三者)に対して、そのコンテンツについて、使用、ホスト、保存、複製、変更、派生物の作成(たとえば、Google が行う翻訳、変換、または、ユーザーのコンテンツが本サービスにおいてよりよく機能するような変更により生じる派生物などの作成)、(公衆)送信、出版、公演、上映、(公開)表示、および配布を行うための全世界的なライセンスを付与することになります」
となっています。
 グーグルのユーザは、グーグルがユーザのデータをどう料理しても、文句はいいませんと、承認しているのです。逆にいえば、だから無料なのです。
 Gmailの件と同様、これを意識しているユーザも、ほとんどいないでしょう。
参考:
http://iiyu.asablo.jp/blog/2012/06/11/6475359
Google Driveの利用規約がヤバ過ぎる? だったら、他のサービスもだよ。
 なぜ、こんな話を持ち出したかといえば、TextPorterやServer Based Converterにも関係があることだからです。
 それについては、明日。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
 Server Based Converterに関する詳しい情報は、
http://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


Server Based Converter V4.0 MR1, V3.1 MR2, V3.0 MR7について

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換するということです。
 前回のブログ担当日から今日までの間に、改訂版として、V4.0 MR1, V3.1 MR2, V3.0 MR7を出荷しましたので、それを紹介します。
 Server Based Converter V4.0 MR1の改訂内容については、
Server Based Converter V4.0 MR1
をご覧ください。
 Server Based Converter V3.1 MR2の改訂内容については、
Server Based Converter V3.1 MR2
をご覧ください。
 Server Based Converter V3.0 MR7の改訂内容については、
Server Based Converter V3.0 MR7
をご覧ください。
 今回の改訂は、細かなものが多く、多岐にわたりますが、大筋は、レイアウト再現性の向上を目指したものです。早目に、改訂版の導入をお願いします。
 通常、MRはバグ修正のみで、機能追加は行ないませんが、今回のV4.0 MR1では、いくつか機能追加をしています。
(1) WordからPDFの変換において変換結果に合わせた目次を出力できるオプション -docpagenumbercorrection を実装しました。
(2) サポートしていない機能を発見した場合にWarningを返すようにしました。
(3) 暗号化(パスワード)が施されたファイルの処理において、より詳しいエラーを出力するようにしました。
 (1)は、Wordのレイアウト結果とerver Based Converter(SBC)のレイアウト結果が違うことが原因で発生する問題を少しでも解消しようという試みです。
 同じWord文書を表示しても、Wordの結果とSBCの結果が違うことがあります。これは、SBCが、Wordを完全に真似ることができてないことが原因です。
 余談ですが、Wordですら、バージョンが違うと、違ったレイアウト結果になることがあります。これは古くからのWordユーザなら誰もが経験していることでしょう。そういう微妙なところがあります。
 レイアウト結果が違うと、目次に振ってあるページ番号が実際のページとずれてしまうことがあります。たとえば、Wordで見たときに、第3章が30ページ目から始まり、目次では、第3章に対しては30という数字が振ってあるものとします。
 SBCで変換した結果、本来の30ページ目が31ページ目になった場合、目次にある第3章に対する30という数字は、正しくありません。それを補正して31という数字を振るオプションを追加したということです。
 Server Based Converterに関する詳しい情報は、
http://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


TextPorter V5.2 MR1, V5.1 MR4, 5.0 MR6について

 TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
 前回のブログ担当日から今日までの間に、改訂版として、V5.2 MR1, V5.1 MR4, V5.0 MR6を出荷しましたので、それを紹介します。
 TextPorter V5.2 MR1の改訂内容については、
TextPorter V5.2 MR1
をご覧ください。
 TextPorter V5.1 MR4の改訂内容については、
TextPorter V5.1 MR4
をご覧ください。
 TextPorter V5.0 MR6の改訂内容については、
TextPorter V5.0 MR6
をご覧ください。
 今回の改訂は、主に、Microsoft Office 2007/Office 2010に関するものです。
 一見するとたくさんあるようですが、実は、同じ修正です。Word, Excel, PowerPointの2007と2010に対して行われているので、多く修正されているようにみえるだけです。
 「ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題」というのは、DMC_GETTEXT_OPT1_TEMPという、ややこしいオプションに関するものです。
 TextPorterは、処理の都合上、一時ファイルが必要な場合は、通常、システムのデフォルトのディレクトリを使います。しかし、システムのデフォルトではなく、出力先と同じディレクトリを使ってくれというお客様の要望があって、このオプションができました。
 しかし、ストリーム出力では、出力先ディレクトリという概念そのものがありません。といって、このオプションは、システムのデフォルトのディレクトリは使わないという意図で設けられたオプションです。仕方がないので、ストリーム主力でこのオプションが指定された場合は、TextPorterは、入力ファイルと同じディレクトリに一時ファイルを作ります。
 さて、セキュリティ意識の高まりに伴って、運用者は、サーバ上で、ファイルを書き込めるディレクトリを、厳しく制限するようになってきました。入力ファイルは、入力なので書き込むことはないという仮定で、入力ファイルがあるディレクトリを書込み禁止に、TextPorterの出力をストリーム、かつ、このオプションを付けるとどうなるでしょうか。
 TextPorterの動作は、不定。すなわち、どうなるかわからないというのが仕様です。
 入力ファイルがある場所に一時ファイルを作ろうと思っても、書込み禁止なので、処理できないのです。
 一番簡単な対処法は、DMC_GETTEXT_OPT1_TEMPを使わないことです。そうすれば、誰でも書き込みが保証されているシステムのデフォルトに一時ファイルを作ります。
 もし、DMC_GETTEXT_OPT1_TEMPを使い、かつ、ストリーム出力を使うときは、入力ファイルのあるディレクトリを書込み禁止にしないように、運用側で、注意してください。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 評価版もご用意しております。
http://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


紙の情報をコンピューターに取り込む

本日は、紙の情報をコンピューターに取り込む手段としてのOCR技術について説明いたします。

OCRとは、Optical Character Recognition(あるいはReader)という英語の略で、日本語では光学的文字認識(あるいは光学的文字読み取り装置)と訳されます。
紙に印刷された文字をイメージスキャナやデジタルカメラなどで読み取り、画像化された情報から文字情報を識別し、コンピュータで処理可能な情報(文字コード)を抽出する技術またはその装置を指します。

こう書くとなんだかややこしいですが、要は人間が新聞や雑誌など紙に書かれた文字を読んで内容を理解するのと同じようなことをコンピュータにもやらせようとするための技術のひとつと言えます。

実はOCR技術は身近なところで使われています。割と古くからあってOCRの老舗といえるのは「郵便番号読み取り装置」でしょう。日本では1968年の郵便番号導入とともに使われたといいますから、既に40年以上の実績があるわけです。
また、試験の際にお目にかかるマークシート方式の回答用紙も採点のためにOCR技術が応用されている身近な例といえます。

これらは大量の情報を一括で高速に処理する必要があるのでOCR装置も専用の高精度、高価格なものが使用されますが、私たちがパソコンを使って汎用に使用する場合には、市販のスキャナとOCRソフトとの組み合わせで取り込むのが一般的です。

さて、実際に紙の原稿からパソコンにデータを取り込み、文字を認識する場合には、概略次のことが行われます。

  1. 画像で取り込み:スキャナでスキャンした紙の原稿は画像データとしてパソコンに取り込まれます。画像データの種類はお使いのスキャナの仕様によって異なりますが、最近はPDF形式が使用されることが多いようです。PDFであっても内部には画像データのみ格納されています。
  2. 領域の識別:取り込んだ画像には、当然のことながら紙の原稿のレイアウトが移されています。それは文字であったり、図形であったり、画像であったりします。人間が紙に書かれたこれらの範囲を区別するのと同じようにOCRも識別をします。これを領域(レイアウト)認識または領域解析と呼びます。
  3. 文字の認識:上記で文字領域と識別された部分について文字データの読み込み(抽出)を行います。
    ただし、人間が文字を読み取るのと比較して、コンピュータが文字を読むことは簡単なことではありません。人間の脳は、乱暴に書かれた手書き文字やかすれた文字などを読む場合、曖昧な部分を的確に補って正しく認識する能力を備えていますが、コンピュータはこうした認識が大の苦手です。
    例えば、以下は、元の文字画像が鮮明でないために、文字の誤認識が出てしまう例です。

    文字の誤認識が出てしまう

    このため、さまざまな方法が考案されて文字の認識率を高める努力がされていますが、文字の認識率が100%(つまり完全)ということにはなかなかなりません。文字のかすれやつぶれがないなどコンディションの良い活字を認識した場合、一般に98%くらいの認識率であれば正確といえるようです。

  4. 認識結果の保存:OCR処理された結果はそのままでは利用することができません。認識された文字や画像などの情報をパソコン・ユーザーが扱える形式、たとえばWordやExcelなどのOffice文書やテキストファイル、透明テキスト付きPDFなどに保存することで、文字の検索に利用したり、編集して別の文書に再生したりといったことが可能になります。

以上、簡単にアウトラインだけをご説明しました。実際にはOCR技術はもっと複雑で、具体的な文字識別の方法などは興味のつきないところですが、これ以上は専門的な話題となってしまいますのでここでは割愛させていただきます。


Pages: 1 2 Next