ヤフージャパンが、ヤフーメールの内容を解析して、メール内容に合致した広告を入れる「インタレストマッチ広告」サービスを始めることに対して、通信の秘密の侵害ではないか、プライバシーの侵害ではないかと、話題になっています。
詳しくは、たとえば、
http://diamond.jp/articles/-/21403
新サービスでヤフーが開けた通信の秘密というパンドラの箱
を読んでいただくとして、これは、我々、ICT業界人にとっては、何年も前に話題になったことです。
というのは、グーグルのGmailというサービスは、まさにこれをやっているからです。
グーグルがこれを導入したとき、Gmailはプライバシーの侵害だと、アメリカでは大騒ぎになりました。それに対してグーグル幹部が、コンピュータウイルスを調べるのに、メールやファイルをスキャンするのと同じだと、いかにも理系的な返事をしたために、火に油を注いだ状況にもなりました。
グーグルはGmailを日本でもサービスし、多くのユーザがいますが、なぜ、グーグルが許されて、ヤフーが問題視されるかといえば、メールを保存しているのは日本国外なので日本の法律の適用外、かつ、グーグルは電気通信事業者の届出をしていないので、通信の秘密を守らなければならない法律の適用外。ということのようです。
Gmailでは、グーグルのコンピュータが、メールを勝手にスキャン(メールを勝手に読んでいる)ことを、知らない人も多いでしょうし、多くの人は、通信の秘密の侵害、プライバシー侵害とも思ってないでしょう。
実は、グーグルは、Gmailはもとより、他のサービスでも、同社のクラウドにユーザが置いたデータを自由に使える利用規約を定めています。
Google 利用規約(最終更新日: 2012年3月1日)
によれば、
「ユーザーは Google(および Google と協働する第三者)に対して、そのコンテンツについて、使用、ホスト、保存、複製、変更、派生物の作成(たとえば、Google が行う翻訳、変換、または、ユーザーのコンテンツが本サービスにおいてよりよく機能するような変更により生じる派生物などの作成)、(公衆)送信、出版、公演、上映、(公開)表示、および配布を行うための全世界的なライセンスを付与することになります」
となっています。
グーグルのユーザは、グーグルがユーザのデータをどう料理しても、文句はいいませんと、承認しているのです。逆にいえば、だから無料なのです。
Gmailの件と同様、これを意識しているユーザも、ほとんどいないでしょう。
参考:
http://iiyu.asablo.jp/blog/2012/06/11/6475359
Google Driveの利用規約がヤバ過ぎる? だったら、他のサービスもだよ。
なぜ、こんな話を持ち出したかといえば、TextPorterやServer Based Converterにも関係があることだからです。
それについては、明日。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
Server Based Converter V4.0 MR1, V3.1 MR2, V3.0 MR7について
Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換するということです。
前回のブログ担当日から今日までの間に、改訂版として、V4.0 MR1, V3.1 MR2, V3.0 MR7を出荷しましたので、それを紹介します。
Server Based Converter V4.0 MR1の改訂内容については、
Server Based Converter V4.0 MR1
をご覧ください。
Server Based Converter V3.1 MR2の改訂内容については、
Server Based Converter V3.1 MR2
をご覧ください。
Server Based Converter V3.0 MR7の改訂内容については、
Server Based Converter V3.0 MR7
をご覧ください。
今回の改訂は、細かなものが多く、多岐にわたりますが、大筋は、レイアウト再現性の向上を目指したものです。早目に、改訂版の導入をお願いします。
通常、MRはバグ修正のみで、機能追加は行ないませんが、今回のV4.0 MR1では、いくつか機能追加をしています。
(1) WordからPDFの変換において変換結果に合わせた目次を出力できるオプション -docpagenumbercorrection を実装しました。
(2) サポートしていない機能を発見した場合にWarningを返すようにしました。
(3) 暗号化(パスワード)が施されたファイルの処理において、より詳しいエラーを出力するようにしました。
(1)は、Wordのレイアウト結果とerver Based Converter(SBC)のレイアウト結果が違うことが原因で発生する問題を少しでも解消しようという試みです。
同じWord文書を表示しても、Wordの結果とSBCの結果が違うことがあります。これは、SBCが、Wordを完全に真似ることができてないことが原因です。
余談ですが、Wordですら、バージョンが違うと、違ったレイアウト結果になることがあります。これは古くからのWordユーザなら誰もが経験していることでしょう。そういう微妙なところがあります。
レイアウト結果が違うと、目次に振ってあるページ番号が実際のページとずれてしまうことがあります。たとえば、Wordで見たときに、第3章が30ページ目から始まり、目次では、第3章に対しては30という数字が振ってあるものとします。
SBCで変換した結果、本来の30ページ目が31ページ目になった場合、目次にある第3章に対する30という数字は、正しくありません。それを補正して31という数字を振るオプションを追加したということです。
Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/sbc/trial.html
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorter V5.2 MR1, V5.1 MR4, 5.0 MR6について
TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
前回のブログ担当日から今日までの間に、改訂版として、V5.2 MR1, V5.1 MR4, V5.0 MR6を出荷しましたので、それを紹介します。
TextPorter V5.2 MR1の改訂内容については、
TextPorter V5.2 MR1
をご覧ください。
TextPorter V5.1 MR4の改訂内容については、
TextPorter V5.1 MR4
をご覧ください。
TextPorter V5.0 MR6の改訂内容については、
TextPorter V5.0 MR6
をご覧ください。
今回の改訂は、主に、Microsoft Office 2007/Office 2010に関するものです。
一見するとたくさんあるようですが、実は、同じ修正です。Word, Excel, PowerPointの2007と2010に対して行われているので、多く修正されているようにみえるだけです。
「ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題」というのは、DMC_GETTEXT_OPT1_TEMPという、ややこしいオプションに関するものです。
TextPorterは、処理の都合上、一時ファイルが必要な場合は、通常、システムのデフォルトのディレクトリを使います。しかし、システムのデフォルトではなく、出力先と同じディレクトリを使ってくれというお客様の要望があって、このオプションができました。
しかし、ストリーム出力では、出力先ディレクトリという概念そのものがありません。といって、このオプションは、システムのデフォルトのディレクトリは使わないという意図で設けられたオプションです。仕方がないので、ストリーム主力でこのオプションが指定された場合は、TextPorterは、入力ファイルと同じディレクトリに一時ファイルを作ります。
さて、セキュリティ意識の高まりに伴って、運用者は、サーバ上で、ファイルを書き込めるディレクトリを、厳しく制限するようになってきました。入力ファイルは、入力なので書き込むことはないという仮定で、入力ファイルがあるディレクトリを書込み禁止に、TextPorterの出力をストリーム、かつ、このオプションを付けるとどうなるでしょうか。
TextPorterの動作は、不定。すなわち、どうなるかわからないというのが仕様です。
入力ファイルがある場所に一時ファイルを作ろうと思っても、書込み禁止なので、処理できないのです。
一番簡単な対処法は、DMC_GETTEXT_OPT1_TEMPを使わないことです。そうすれば、誰でも書き込みが保証されているシステムのデフォルトに一時ファイルを作ります。
もし、DMC_GETTEXT_OPT1_TEMPを使い、かつ、ストリーム出力を使うときは、入力ファイルのあるディレクトリを書込み禁止にしないように、運用側で、注意してください。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
紙の情報をコンピューターに取り込む
本日は、紙の情報をコンピューターに取り込む手段としてのOCR技術について説明いたします。
OCRとは、Optical Character Recognition(あるいはReader)という英語の略で、日本語では光学的文字認識(あるいは光学的文字読み取り装置)と訳されます。
紙に印刷された文字をイメージスキャナやデジタルカメラなどで読み取り、画像化された情報から文字情報を識別し、コンピュータで処理可能な情報(文字コード)を抽出する技術またはその装置を指します。
こう書くとなんだかややこしいですが、要は人間が新聞や雑誌など紙に書かれた文字を読んで内容を理解するのと同じようなことをコンピュータにもやらせようとするための技術のひとつと言えます。
実はOCR技術は身近なところで使われています。割と古くからあってOCRの老舗といえるのは「郵便番号読み取り装置」でしょう。日本では1968年の郵便番号導入とともに使われたといいますから、既に40年以上の実績があるわけです。
また、試験の際にお目にかかるマークシート方式の回答用紙も採点のためにOCR技術が応用されている身近な例といえます。
これらは大量の情報を一括で高速に処理する必要があるのでOCR装置も専用の高精度、高価格なものが使用されますが、私たちがパソコンを使って汎用に使用する場合には、市販のスキャナとOCRソフトとの組み合わせで取り込むのが一般的です。
さて、実際に紙の原稿からパソコンにデータを取り込み、文字を認識する場合には、概略次のことが行われます。
- 画像で取り込み:スキャナでスキャンした紙の原稿は画像データとしてパソコンに取り込まれます。画像データの種類はお使いのスキャナの仕様によって異なりますが、最近はPDF形式が使用されることが多いようです。PDFであっても内部には画像データのみ格納されています。
- 領域の識別:取り込んだ画像には、当然のことながら紙の原稿のレイアウトが移されています。それは文字であったり、図形であったり、画像であったりします。人間が紙に書かれたこれらの範囲を区別するのと同じようにOCRも識別をします。これを領域(レイアウト)認識または領域解析と呼びます。
- 文字の認識:上記で文字領域と識別された部分について文字データの読み込み(抽出)を行います。
ただし、人間が文字を読み取るのと比較して、コンピュータが文字を読むことは簡単なことではありません。人間の脳は、乱暴に書かれた手書き文字やかすれた文字などを読む場合、曖昧な部分を的確に補って正しく認識する能力を備えていますが、コンピュータはこうした認識が大の苦手です。
例えば、以下は、元の文字画像が鮮明でないために、文字の誤認識が出てしまう例です。このため、さまざまな方法が考案されて文字の認識率を高める努力がされていますが、文字の認識率が100%(つまり完全)ということにはなかなかなりません。文字のかすれやつぶれがないなどコンディションの良い活字を認識した場合、一般に98%くらいの認識率であれば正確といえるようです。
- 認識結果の保存:OCR処理された結果はそのままでは利用することができません。認識された文字や画像などの情報をパソコン・ユーザーが扱える形式、たとえばWordやExcelなどのOffice文書やテキストファイル、透明テキスト付きPDFなどに保存することで、文字の検索に利用したり、編集して別の文書に再生したりといったことが可能になります。
以上、簡単にアウトラインだけをご説明しました。実際にはOCR技術はもっと複雑で、具体的な文字識別の方法などは興味のつきないところですが、これ以上は専門的な話題となってしまいますのでここでは割愛させていただきます。
OCR技術の活用
前回はOCR技術が完璧なものでなく、文字の誤認識は避けられないということをお話しました。
現状では、原稿の文字の品質が十分によければ、市販されているOCR用のソフトウェアで活字を認識できる率は100%に近いところまでいけるようです。
しかし、文字のかすれやつぶれなどがあって品質が低かったり、文字と文字の間隔が狭い場合などは、どうしても認識率が低下してしまいます。
また、広告などで使われる装飾された文字や背景に模様がある文字、イタリックのように斜めに寝てデザインされた文字などはやはり苦手なものです。
では、OCRはまったく使えないかというと、決してそうではありません。
例えば、以下はA4サイズの原稿を弊社の「瞬簡PDF 変換7」のOCR機能を使用してWordに変換した例です。この原稿に含まれる文字数は約1600字あります。
これを、もしOCR技術を使わないで取り込むとしたら、他の手段としてはキーボードから直接文字を打ち込むことくらいかと思います。
原稿が1枚きりであればそれも選択肢と考えられます。しかし10枚、20枚とあったら…これはもう冷や汗ものですね。
また、パソコン上に原稿を移して後から文字で検索するといった用途を考えた場合、文字の誤認識が仮に100文字中10文字あったとしたらどうでしょう?
紙の状態のままでまったく検索できないことを考えると、検索できない文字があったとしても、十分実用の範囲ではないでしょうか?
OCRの文字認識レベルは、特定の産業分野では実績もあり十分実用に耐えるものとなっています。
しかし、不特定の紙の原稿を汎用的に扱うパソコン用のOCRソフトではまだその信頼性は十分でありません。
それでも、こうした技術は日進月歩で、文字の認識率を上げる研究も絶え間なく行われていますから、ハードウェアの進化とともに今後性能が向上することはあってもこのままで停滞することは考えられません。
これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。
最近は、スマートフォンやタブレットと、クラウドと呼ぶサーバーでのサービスとが組み合わされて、携帯端末のカメラで撮影した画像をクラウド上でOCR処理して文字情報を取得し、送り返すといった仕組みが利用されるようになってきました。パソコンの枠を超えた、こうした利用方法は今後もどんどん増えていくことでしょう。
絶えず新しい技術革新がされて進化を続けるOCR技術と、それを応用したOCRソフトに今後とも注目していただければ幸いです。
OCRのよもやま話
先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。
さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。
これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。
デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。
前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。
デスクトップ製品のサポート期間
デスクトップ製品のサポート窓口には様々なお問い合わせがありますが、その中に製品のサポート期間を知りたいというお問い合わせがあります。
製品の利用ガイドなどにも記載されておりますが、アンテナハウスのデスクトップ製品は、お客様が製品をご購入されてから1年間がサポート期間となっており、お電話、あるいはメールでのお問い合わせにお答えしております。
また、ご購入から1年以上を経過した製品でも、製品の販売終了から1年未満の製品については、なるべくご質問にお答えしております。
販売終了から1年以上経過した製品のお問い合わせにつきましては、場合によってはお断りするケースもございますが、お客様が製品を使うにあたり、少しでもお役に立てるようサポートを行っておりますので、製品をご購入頂いた後、お困りのことがあった際には是非サポートセンターをご利用ください。
なお、デスクトップ製品のサポートについての詳細は「デスクトップ製品のユーザーサポートについて」をご参照ください。
名古屋支店が移転しました
PDF Driver APIのマルチスレッド変換
こんにちは。
今日は、PDF Driver API V5.0 のマルチスレッド変換について、紹介します。
PDF Driver API V5.0はマルチスレッドでの変換に対応しています。
複数のファイルを同時に変換することにより全体の処理時間を大幅に短縮することが可能です。
青線はExcel文書250個とWord文書150個を、赤線は比較的シンプルなExcel文書500個をそれぞれ
1~20スレッドで変換した場合に要した時間を示したものです。
CPUコア数程度までははっきりと処理時間が短くなります。ハイパースレッディングの効果は薄いですが、それでもCPUスレッド数の2倍程度のスレッド数までは時間短縮に効果があります。
サーバー上で変換を行うシステムではマルチスレッド実行により複数のキューを持たせることができます。
バックグラウンドでバッチ処理をしながら同じシステム上に今すぐ変換したいユーザー用の独立したキューを用意して、バッチ処理の影響を受けることなくすぐ変換させることも可能です。
※マルチスレッド変換時はEXCEL.EXE、WINWORD.EXEが合計で最大スレッド数と同じ数だけ動作します。
通常のOffice文書編集時とは比較にならないほど必要なメモリが多くなるので64bit版のWindowsをおすすめします。
※一太郎、PowerPointはアプリケーションの都合上マルチスレッド変換でもそれぞれ1つずつの変換しかできません。
CAS-UBにメルマガインポート機能(アルファ版)を追加
これまで述べてきましたように、今、有料メルマガの世界にEPUBを採用する動きが広まっています。
そこでCAS-UBではメルマガをEPUBに変換するサービスを追加する予定です。
現在、クラウド上のサービスではCAS-UBのドラフトの画面のテキストインポート機能にメルマガをインポートする機能(アルファ版)を追加しています。インポートファイルの形式をクリックすると次の画面になります。
ここに4種類のメニューは、次の4つのメルマガに対応します。
・メルマガH:マグマグから配信されている「堀江貴文のブログでは言えない話」
・メルマガK:「夜間飛行」から配信されている小寺信良の「金曜ランチボックス」
・メルマガT:「夜間飛行」から配信されている『津田大介の「メディアの現場」』
・メルマガU:「夜間飛行」から配信されている「内田樹メールマガジン 大人の条件」
実はメルマガをEPUBに変換するサービスの大きな問題は、メルマガ一つ一つに、専用の変換メニューを用意しなければならないことです。プログラムそのものは難しくないのですが、一定のルールに従って書いてもらえないと綺麗な変換ができないのですね。で、ルールは各著者によって違いますので、個別対応が必要になります。
メルマガ用EPUB3スタイルシートは、現在、開発中です。とりあえずは、既存のスタイルシートを少し直して、「標準メルマガEPUB3(アルファ版)」を用意してありますので、関心をお持ちのかたはお試しになってみてください。
但し、現在、綺麗に変換できるメルマガとしては、上記の4種類(と同じ雛形で書いたメルマガ)だけで、それ以外は満足のいく変換にはなりません。
なお、上の4種類はいずれも既にEPUB形式で配信されていますが、CAS-UBのEPUB自動変換はそれらのものよりも多少は良いと思います。
新しいスタイルシートやビジネスモデルを含めて「国際電子出版EXPO」にてご案内の予定です。
また、7月11日夕方、秋葉原にて「ビジネスモデルとしての有料メルマガを考える」というテーマでセミナーを予定しています。
■有料メルマガライターまたは制作者のためのEPUB作成セミナー