年別アーカイブ: 2013年

TextPorter V5.3 改訂第2版(MR2)をリリース

 TextPorterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 TextPorter V5.3 改訂第2版(MR2)を、すでにリリースしております。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.3 改訂第2版(MR2)
 改訂内容は、TextPorter V5.3 MR2 追加/修正内容を、ご覧ください。
 改訂版のダウンロードも、上記ページから行なえます。

 以前のバージョンの改訂情報は以下の通りです。

・V5.2 改訂第5版(MR5)
 改訂内容は、TextPorter V5.2 MR5 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.1 改訂第8版(MR8)
 改訂内容は、TextPorter V5.1 MR8 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.0 改訂第10版(MR10)
 改訂内容は、TextPorter V5.0 MR10 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V4.2 改訂第15版(MR15)
 改訂内容は、TextPorter V4.2 MR15 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。

Text Porter について

 TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
 TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

 TextPorterについての詳しい情報は、
TextPorter
をご覧ください。
 評価版もご用意しております。
 TextPorter 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


Server Based Converter V5.0 改訂第2版(MR2)をリリース

 Server Based Converterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 現在、Server Based ConverterのV5.0 改訂2版(MR2)のリリースを予定しております。
 原稿執筆時点では、まだダウンロードが可能になっておりませんが、2013年10月8日から、ダウンロード可能になる予定です。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.0 改訂第2版(MR2)
改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc50.html#v50mr1を、ご覧ください。
ダウンロードは、https://www.antenna.co.jp/sbc/user_V50mrdl_in.htmlから、行なってください。

 以前のバージョンの改訂情報は以下の通りです。

・V4.0 改訂第4版(MR4)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc40.html#v40mr4を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V40mrdl_in.htmlから、行なってください。
・V3.1 改訂第5版(MR5)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc31.html#v31mr5を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V31mrdl_in.htmlから、行なってください。
・V3.0 改訂第10版(MR10)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc30.html#v30mr10を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V30mrdl_in.htmlから、行なってください。

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Officeのライセンスも不要です。
 Server Based Converterは、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

 Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
 サーバベース・コンバーター 評価版のお申し込みから、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


続・OCRのよもやま話(2)

以前の記事『OCR技術の活用』で、OCR技術は文字の誤認識が避けて通れないということを説明しました。
また、その際に「これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。」という感想を書きました。
OCRは弱点があるにしても、ソフトウェア技術として利点を活かしながらうまく利用することで強力なツールになる、という思いがあったからでした。

人力OCR!?

ところが世の中の動きは必ずしもそうではないようで、なんとOCRを「人力」で行うサービスというのがあるようです。

OCRを使った商品の代表的なものというと名刺管理ソフトが思い浮かびますが、これはスマートフォンやスキャナで取った名刺やその他の画像を専用サービスのサイトに送るとオペレータがその画像から文字を読んでテキストデータとして入力し結果を返してくれるというもので、もちろん認識率は並み居るOCRソフトを凌駕したものになります。

「OCRを人力で!?」と聞くと、OCRがソフトウェアの技術だと思い込んでいる私には寝耳に水なのですが、これを手書きの書類をコンピューターに入力するような代行サービスの一種だと考えると、以前からある話しで何のことはないですね。
ただ、これらのサービスが現代風に感じるのは、名刺などをスマートフォンに搭載されたカメラで撮影して専用アプリでクラウドに送信し結果をEvernoteなど別のクラウドサービスで受け取るようになっていること、入力代行しているオペレータが時には中国など遙か海の向こうで作業をしているといったグローバルな仕組みで提供されるというところです。

こういったサービス自体は数年前からWeb上などでも紹介されているので今頃驚いているのが恥ずかしいのですが、考えてみるとこれはOCRの「文字認識率が完全にはならない」というネガティブな点を補う意味で理にかなった利用法であると思えます。

おそらくこの仕組みでは、ユーザーから送信されたデータを一から打ち直すことなどしないで、ある程度はOCRソフトで変換を行った上で誤認識している部分を目視で確認して修正するみたいなことをしているのだと思います。そうすると、「人間でなければできないところ」を補って結果として100%の認識率を実現しているのですから理想的な利用法といえます。

名刺に限らず手書き文字でもOKなようですから、そういったデータをデジタルで管理したい方には利用価値があるかも知れません。
弱点は、人手を介することで利用状況によっては結果が返るのに時間がかかる場合があることだそうです。
お隣りの中国では経済発展の結果として人件費が高騰しつつあるということですから、今後のサービスの行方も気になります。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。


続・OCRのよもやま話

先日、JR東海から2027年度に開業が予定されるリニア新幹線の概要が発表されました。多くのメディアで取り上げられましたので興味を持って見られた方も多かったのではないでしょうか?
弊社の伊那支店がある長野県南部にもリニア新幹線の新駅ができる計画で、地元紙でも大々的に記事が掲載されました。これまで夢としてしか語られなかったことがにわかに現実味を帯びてきたことで、谷あいののどかな地方にこれからどのような風が吹きこむのか、住人としても目が離せない気がします。

閑話休題。

昨年の7月頃に『OCRのよもやま話』という記事を書きました。
今回はその続きということで、OCRにまつわる話題をいくつか追加したいと思います。

OCRと解像度

OCRとは、Optical Character Recognition(あるいはReader)の略で、紙に印刷された文字をイメージスキャナなどで読み取り、画像化された情報から文字情報を抽出する技術であることを以前の記事でご紹介しました。

OCRで文字を正確に取り出すために必要な要素を考えると、おおよそ以下の点が挙げられると思います。

  1. 元になる原稿の状態が良好であること(文字が鮮明で、紙に汚れや皺がないなど)
  2. 適切な解像度でスキャンされていること
  3. OCRソフトが適切な性能であること

このうち、2)の「解像度」について取り上げます。

OCRで使う解像度はスキャナなどで取り込む画像の品質を表すもので、dpi(ディーピーアイ)という単位を使います。これは、1インチ(2.54cm)の間隔にどれだけ物理的な点(画素)が配置されているかを示すもので、同じ大きさの画像で比べた場合は、解像度の値が大きいほど高精細な画像が得られます。

解像度は別の言い方をすると、1インチあたりの画素の密度を表すということができます。密度が濃ければそれだけ細かい描写が可能になります。以下はそれを模式図にしたものですが、文字のサンプルにあるように解像度が小さいと曲線などで滑らかな表現ができなくなります。

解像度

解像度

では、実際に異なる解像度でスキャナから取り込んで比較してみましょう。

以下は、スキャナの設定でそれぞれ 200dpi/400dpi に解像度を変更してJPEG形式に保存したデータの一部を示しています。

解像度の違い

解像度の違い

ちょっと分かりづらいかも知れませんが、ブラウザの表示倍率をあげて見ていただくと両者の違いが分かります。
以下は、この二つの画像を弊社のOCR変換製品『瞬簡PDF OCR』でテキストファイルに変換した結果です。

変換結果

変換結果

解像度が200dpiだと文字化けしてしまう箇所が、400dpiでは(完全ではないですが)おおむね正しく認識できていることが確認できます。

そうすると、もっと解像度を高くしてスキャンすれば更に良い結果が出せそうに思えます。ところが、これがさにあらず、なのです。
以下は、スキャナの設定を600dpiにして変換を行った結果です。

600dpiで変換

600dpiで変換

解像度を上げても、あまり変換結果に影響がないことが確認できるかと思います。
一般にOCR処理では、300~400dpiの範囲が適切なOCR結果を得る解像度だと言われています。それ以上解像度を上げてもファイルサイズが大きくなるばかりで、OCRの変換精度はあまり変わらないか、逆に悪くなってしまう場合もあります。ちなみに今回使用したJPEGデータの場合、400dpiのときのファイルサイズは約1.4MBですが、600dpiでは約2.7MBでした。

OCR処理を使って文字の取り出しを行う際には、スキャンの段階から適切な解像度を設定していただくことでより良い結果が得られます。ご参考にしていただければ幸いです。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。


Windows 8.1 Preview の PDF 表示機能

PDF 表示機能の比較
https://blog.antenna.co.jp/ILSoft2/archives/779
の続きです。

Windows 8.1 Preview の Windows Reader でサンプル PDF (http://ondoc.logand.com/d/223/pdf)を開いてみました。

win8_1_test_pdf

右上のあたりで色が少し違うのと、縦書き文中の括弧の向きがおかしいのは Windows 8 の時と同じですが、
右下の「Text Image」と表示されるはずの部分が空白になっています。
Windows Reader は Windows 8 から 8.1 のバージョンアップで変化があることは確認できましたが、
このサンプルの表示に限っては、劣化していると言えるでしょう。


画像ファイルをスタンプ注釈に利用 PDF Tool 「V4」(もうまもなく)

私の住んでいる地域のコンビニ各社では淹れたてコーヒーの価格差がなくなり100円になりました。
次なる差別化はコーヒーにおつまみをつけるか否かということになってきています。

さて、「PDF Tool」は現在、V4リリースに向けて作業を行っています。
リリースのご案内は10月中旬頃にはできるかと思います。しばらくお待ちください。

V4の新たな機能として画像から直接PDFを作成したり、画像やPDFをスタンプ注釈にするというものがあります。
下記PDFは画像を直接PDF化し、画像をスタンプ注釈として貼り付けたものです。

スタンプ注釈(例)

スタンプとして用いた画像


スタンプしたpdf

スタンプしたpdf

●製品詳細ページ
『Antenna House PDF Driver API / Antenna House PDF Tool API 』

●無償の評価版をぜひお試しください! 
『Antenna House PDF Driver API / Antenna House PDF Tool API』評価版


AH Formatter V6.1 MR2リリース~FormatterClub「CSS書籍組版」セミナーの案内

AH Formatter V6.1 MR2(改訂2版)を公開しました。詳しくは改訂情報のページをご覧ください。
AH Formatter V6.1 改訂情報

評価版は以下のページよりお申し込みいただけます。
AH Formatter V6 評価版のお申し込み

これまでも紹介してきましたが、AH Formatterは、XMLやHTMLで書かれた文書をレイアウトして高品質な印刷・PDF生成を行うことができる自動組版エンジンとして、日本だけでなく世界で使われています。

FormatterClubのすすめ~10/18「CSS書籍組版」セミナー予告

AH Formatterをもっと知りたい、試してみたい、使っている人に聞きたいという方にFormatterClubをお勧めします。
会員(無料)には会員向け試用版の提供をしています。通常評価版では出力ページに「すかし」が入りますが、この会員向けはページの下部にAH FormatterのURLが表示されるだけになり、この表示を改変・削除しない限りにおいて、評価用に利用することのほか、個人的に文書作成に利用するなど、非営利目的に限って使用することが可能です。

FormatterClubについて

FormatterClubでは不定期ですが例会セミナーを開催してます。
次回は10/18(金)に「CSS書籍組版」をテーマで開催予定です。

日時:2013年10月18日(金)14:00-16:30
場所:浜町区民館

講師には『ページ組版のためのCSS指南』編著者、藤島雅宏さん(イーエイド

[書籍紹介] ページ組版のための CSS 指南

「CSS」というと、Webページのレイアウトのためのスタイルシート仕様ですが、この仕様の中にはCSS3 Paged MediaGCPMなど印刷・ページ組版のための機能もあり(ドラフト段階ですがAHは先行実装してます)、これを利用するとHTML+CSSで書籍の組版が可能です。実際、オライリーの書籍などCSS組版で作られて出版されているのですが、まだまだあまり知られていません。
このセミナーでは、CSS組版でここまでできるということを紹介し、その問題点や可能性を話しあえればと考えています。

詳しくは、案内ページへ:
FormatterClub「CSS書籍組版」セミナーご案内(無料セミナー)


PDF/UA(ISO 14289-1)について(終)

PDF/UAの紹介の最後になります。

ここまで、ファイルフォーマットの要件、リーダの要件を記載しましたが、最後はAT(Assistive Technology:支援技術)の要件になります。

このATにはPDF/UAを使用するスクリーンリーダや、音声入力をサポートするデバイス、キーボード入力を容易にする装置、点字に変換して印刷するソフトウェアなど広範なソフトウェア、ハードウェアが含まれます。

ATに求めら得る要件とは、大きくは下記となります。

  • この仕様に定められた構造型、属性、値をユーザが好む方法で利用、表示できること、論理構造ツリーに属さないアーティファクトを処理する機能があること。
  • 準拠リーダが複数の表現方法で表示する場合、ATはユーザの選択する方法でその表現にアクセスすることを可能としなければならない。
    (この複数の表現方法とは、PDFのオプショナルコンテントあるいはレイヤーなどと呼ばれる機能を使用した表現方法のことです)
  • ナビゲーション機能として、以下をサポートする必要があります。
    • PageLabel数値ツリーを用いてナビゲーションする機能
    • 構造階層を用いてナビゲーションする機能
    • ドキュメントのアウトライン(Adobe Readerのしおり)を用いてナビゲーションする機能
    • ユーザ指定に応じたズーム機能

PageLabelとは、たとえば、目次部分は小文字のアラビア数字、本文はローマ数字といったページ番号を持つ文書がありますが、PDFでそのような表現をする機能です。ナビゲーションに、このPageLabelや、文書の章・項といった論理構造の階層情報を使用する機能が必要とされます。

ATの要件については、あまり詳細なことは定められていません。

以上、PDF/UAの紹介となりますが、フォーマットの要件部分で、関連仕様に W3Cの Web Content Accessibility Guidelines(WCAG) 2.0 があることを記載しました。
これまで説明したPDF/UAファイルの作成、使用の双方に必要とされる要件は、PDFファイルをW3Cの勧告であるWCAGに沿って利用するために必要とされるPDFの機能の使用方法となります。

PDF/UAの理解には、WCAG 2.0 (およびその関連ドキュメント)で解説される内容を理解する必要があります。
WCAGのW3Cの勧告は下記にありますので、興味のある方は参照ください。
http://www.w3.org/TR/2008/REC-WCAG20-20081211/
(日本語訳)
http://www.jsa.or.jp/stdz/instac/commitee-acc/W3C-WCAG/WCAG20/


PDF/UA(ISO 14289-1)について(3)

間があいてしまいましたが、以前のPDF/UAの紹介の続きになります。
PDF/UA(ISO 14289-1)について
PDF/UA(ISO 14289-1)について(2)

今回は、PDF/UAのリーダ側の要件をまとめてみます。

全体としては、ISO 32000-1:2008で定義されているドキュメントの論理構造とアーティファクトを処理する能力を持つこと、および、ATとのインターフェース機能を持つこと、とあります。

AT(Assistive Technologies:W3CのWCAG2.0の邦訳では「支援技術」という用語が使用されていました。)とのインターフェース機能とは、

  • 構造タグのタイプ、属性、およびキーの値に対するアクセスの提供およびオプショナルコンテントグループの可視状態を考慮した表示能力
  • アーティファクトをATが利用できるようにすること
  • ユーザインタフェースが存在する場合、それをATが利用できるようにすること

とあります。
(ここの「アーティファクト」ですが、PDFではドキュメントの著者によるオリジナルのコンテント(リアルコンテント)以外の、ページ付けやレイアウトのために生成されたオブジェクトをアーティファクトと呼んでいます)

以下、PDFの各オブジェクトに対して個別に記載されている要件となります。

テキスト

・論理的な読み込み順番をATデバイスが利用可能であること
・文字コードを適切に処理する能力があること
・自然言語、およびその変更をATデバイスが利用可能であること
表のセルが空である場合、その情報をATデバイスが利用可能であること
オプショナルコンテント
オプショナルコンテントを含む場合、複数の表現が選択可能となることがあるが、すべてのオプショナルコンテントを表示する手段を提供し、オプショナルコンテントコンフィギュレーション辞書の階層を表示する手段を提供すること
(このようなドキュメントの例として、多言語ドキュメントで、オプショナルコンテントを使用して、各言語別の表現をサポートしているようなドキュメントがあります)
添付ファイルと埋め込みファイル
  • 構造ツリーに存在していない添付ファイルを利用可能とすること
  • 埋め込みファイルの名称を表示するためにメカニズムを提供すること
デジタル署名
デジタル署名されていることをユーザに報告し、デジタル署名の証明書属性と有効性の状態を提示できること
アクション
アクションがドキュメントの可視状態を変更する場合、ATがその変更を利用できること
メタデータ
ドキュメントのCatalog辞書のMetadataストリームにおけるすべての要素をATが利用できること
ナビゲーション
論理階層構造やしおりを使用してナビゲートする機能を持つこと
注釈
各注釈の代替え記述をATデバイスに利用可能とすること
フォーム
ウィジェット注釈のテキスト記述をATデバイスに利用可能とすること
マルチメディア
動的にではなくユーザの要求に応じて再生すること

PDF/UAの読み手にはこれらの機能が必要とされています。


「Adobe、Readium Foundationに参加」とのこと

おはようございます。CAS-UB営業担当です。
今日の徒然は、一昨日の記事を紹介します。Googleアラートで設定したキーワード「ebook」に引っかかったものです(世の中本当に便利になりました。ますます怠惰になりそうです)。

出所は電子書籍関連の情報を集めるならば多分誰もが覘くであろう「ITmedia eBook USER」から。
タイトルはそのまま「Adobe、Readium Foundationに参加」。

EPUBリーダーについて、Adobeは「Adobe Digital Editions」(現行バージョンは2)という、独自のリーダーを持っていますが、EPUB閲覧、活用性能は、ReadiumやiBooksに較べるとよいとは言えません。

乱立していたEPUBリーダーが、iBooks、Readium系に集約しつつあると見てよいのでしょうか。どちらもWebkitをベースにしているので、大元の開発元であるAppleの応用力の高い技術力のすごさがわかります。

Adobeがこうして、EPUBリーダープロジェクトに参加することで、「PDF=Adobe」だったのが、「PDF/EPUB=Adobe」になったりするのかもしれません。
弊社のような、独自でEPUB制作ツールを開発している会社にとっては、由々しき問題で、もともとのeBook関連制作会社にとっては、ツールが一つに統一できるため、喜ばしきことなのか…。

しかし、各リーダーでの見え方が統一されるのは、弊社としても(検証の手間が省けるため)いいといえばいいのです。
素直にEPUBの未来展望に思いを馳せられないため、もやもやと不完全燃焼です。


Pages: Prev 1 2 3 4 5 6 7 8 9 10 ... 14 15 16 Next