作成者別アーカイブ: AHEntry

TextPorterのWindows 8.1、Windows Server 2012 R2対応について

 TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。

 TextPorterは、Windows 8.1、Windows Server 2012 R2に対応するかというお問い合わせを頂戴しています。
 TextPorterは、Windows 8.1、Windows Server 2012 R2に対応いたします。
 時期につきましては、Windows 8.1、Windows Server 2012 R2の正式版出荷後、1ヵ月ほどを予定しております。
 Windows 8.1、Windows Server 2012 R2の正式版出荷時の最新版(現在の最新版は、V5.3 MR2ですが)で、テスト、動作確認を行ないます。
 もし、問題が起きたときは、改良を加えて、MRとしてリリースする予定です(V5.3 MR2で問題が発生したときは、V5.3 MR3としてリリーする予定です)。
 動作保証ができる段階になれば、その旨、ウェブなどでお知らせいたします。
 いずれにしましても、最新バージョンの最新MRで、Windows 8.1、Windows Server 2012 R2に対応することになります。

 なお、最新版以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
 どうしてもいう場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
 よろしくお願いいたします。

 TextPorterについての詳しい説明は、
 TextPorter をご覧ください。
 
 評価版もご用意しております。
 TextPorter 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
 アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


Server Based ConverterのWindows 8.1、Windows Server 2012 R2対応について

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。

 Server Based Converterは、Windows 8.1、Windows Server 2012 R2に対応するかというお問い合わせを頂戴しております。
 Server Based Converterは、Windows 8.1、Windows Server 2012 R2に対応いたします。
 時期につきましては、Windows 8.1、Windows Server 2012 R2の正式版出荷後、1ヵ月ほどを予定しております。
 Windows 8.1、Windows Server 2012 R2の正式版出荷時の最新版(現在の最新版は、V5.0 MR2ですが)で、テスト、動作確認を行ないます。
 もし、問題が起きたときは、改良を加えて、MRとしてリリースする予定です(V5.0 MR2で問題が発生したときは、V5.0 MR3としてリリーする予定です)。
 動作保証ができる段階になれば、その旨、ウェブなどでお知らせいたします。
 いずれにしましても、最新バージョンの最新MRで、Windows 8.1、Windows Server 2012 R2に対応することになります。

 なお、最新版以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
 どうしてもいう場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
 よろしくお願いいたします。

 Server Based Converterに関する詳しい情報は、
 Server Based Converter 製品ページ を、ぜひ、ご覧ください。
 評価版もご用意しております。
 サーバベース・コンバーター 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


TextPorter V5.3 改訂第2版(MR2)をリリース

 TextPorterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 TextPorter V5.3 改訂第2版(MR2)を、すでにリリースしております。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.3 改訂第2版(MR2)
 改訂内容は、TextPorter V5.3 MR2 追加/修正内容を、ご覧ください。
 改訂版のダウンロードも、上記ページから行なえます。

 以前のバージョンの改訂情報は以下の通りです。

・V5.2 改訂第5版(MR5)
 改訂内容は、TextPorter V5.2 MR5 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.1 改訂第8版(MR8)
 改訂内容は、TextPorter V5.1 MR8 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.0 改訂第10版(MR10)
 改訂内容は、TextPorter V5.0 MR10 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V4.2 改訂第15版(MR15)
 改訂内容は、TextPorter V4.2 MR15 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。

Text Porter について

 TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
 TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

 TextPorterについての詳しい情報は、
TextPorter
をご覧ください。
 評価版もご用意しております。
 TextPorter 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


Server Based Converter V5.0 改訂第2版(MR2)をリリース

 Server Based Converterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 現在、Server Based ConverterのV5.0 改訂2版(MR2)のリリースを予定しております。
 原稿執筆時点では、まだダウンロードが可能になっておりませんが、2013年10月8日から、ダウンロード可能になる予定です。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.0 改訂第2版(MR2)
改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc50.html#v50mr1を、ご覧ください。
ダウンロードは、https://www.antenna.co.jp/sbc/user_V50mrdl_in.htmlから、行なってください。

 以前のバージョンの改訂情報は以下の通りです。

・V4.0 改訂第4版(MR4)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc40.html#v40mr4を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V40mrdl_in.htmlから、行なってください。
・V3.1 改訂第5版(MR5)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc31.html#v31mr5を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V31mrdl_in.htmlから、行なってください。
・V3.0 改訂第10版(MR10)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc30.html#v30mr10を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V30mrdl_in.htmlから、行なってください。

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Officeのライセンスも不要です。
 Server Based Converterは、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

 Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
 サーバベース・コンバーター 評価版のお申し込みから、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。


続・OCRのよもやま話(2)

以前の記事『OCR技術の活用』で、OCR技術は文字の誤認識が避けて通れないということを説明しました。
また、その際に「これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。」という感想を書きました。
OCRは弱点があるにしても、ソフトウェア技術として利点を活かしながらうまく利用することで強力なツールになる、という思いがあったからでした。

人力OCR!?

ところが世の中の動きは必ずしもそうではないようで、なんとOCRを「人力」で行うサービスというのがあるようです。

OCRを使った商品の代表的なものというと名刺管理ソフトが思い浮かびますが、これはスマートフォンやスキャナで取った名刺やその他の画像を専用サービスのサイトに送るとオペレータがその画像から文字を読んでテキストデータとして入力し結果を返してくれるというもので、もちろん認識率は並み居るOCRソフトを凌駕したものになります。

「OCRを人力で!?」と聞くと、OCRがソフトウェアの技術だと思い込んでいる私には寝耳に水なのですが、これを手書きの書類をコンピューターに入力するような代行サービスの一種だと考えると、以前からある話しで何のことはないですね。
ただ、これらのサービスが現代風に感じるのは、名刺などをスマートフォンに搭載されたカメラで撮影して専用アプリでクラウドに送信し結果をEvernoteなど別のクラウドサービスで受け取るようになっていること、入力代行しているオペレータが時には中国など遙か海の向こうで作業をしているといったグローバルな仕組みで提供されるというところです。

こういったサービス自体は数年前からWeb上などでも紹介されているので今頃驚いているのが恥ずかしいのですが、考えてみるとこれはOCRの「文字認識率が完全にはならない」というネガティブな点を補う意味で理にかなった利用法であると思えます。

おそらくこの仕組みでは、ユーザーから送信されたデータを一から打ち直すことなどしないで、ある程度はOCRソフトで変換を行った上で誤認識している部分を目視で確認して修正するみたいなことをしているのだと思います。そうすると、「人間でなければできないところ」を補って結果として100%の認識率を実現しているのですから理想的な利用法といえます。

名刺に限らず手書き文字でもOKなようですから、そういったデータをデジタルで管理したい方には利用価値があるかも知れません。
弱点は、人手を介することで利用状況によっては結果が返るのに時間がかかる場合があることだそうです。
お隣りの中国では経済発展の結果として人件費が高騰しつつあるということですから、今後のサービスの行方も気になります。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。


続・OCRのよもやま話

先日、JR東海から2027年度に開業が予定されるリニア新幹線の概要が発表されました。多くのメディアで取り上げられましたので興味を持って見られた方も多かったのではないでしょうか?
弊社の伊那支店がある長野県南部にもリニア新幹線の新駅ができる計画で、地元紙でも大々的に記事が掲載されました。これまで夢としてしか語られなかったことがにわかに現実味を帯びてきたことで、谷あいののどかな地方にこれからどのような風が吹きこむのか、住人としても目が離せない気がします。

閑話休題。

昨年の7月頃に『OCRのよもやま話』という記事を書きました。
今回はその続きということで、OCRにまつわる話題をいくつか追加したいと思います。

OCRと解像度

OCRとは、Optical Character Recognition(あるいはReader)の略で、紙に印刷された文字をイメージスキャナなどで読み取り、画像化された情報から文字情報を抽出する技術であることを以前の記事でご紹介しました。

OCRで文字を正確に取り出すために必要な要素を考えると、おおよそ以下の点が挙げられると思います。

  1. 元になる原稿の状態が良好であること(文字が鮮明で、紙に汚れや皺がないなど)
  2. 適切な解像度でスキャンされていること
  3. OCRソフトが適切な性能であること

このうち、2)の「解像度」について取り上げます。

OCRで使う解像度はスキャナなどで取り込む画像の品質を表すもので、dpi(ディーピーアイ)という単位を使います。これは、1インチ(2.54cm)の間隔にどれだけ物理的な点(画素)が配置されているかを示すもので、同じ大きさの画像で比べた場合は、解像度の値が大きいほど高精細な画像が得られます。

解像度は別の言い方をすると、1インチあたりの画素の密度を表すということができます。密度が濃ければそれだけ細かい描写が可能になります。以下はそれを模式図にしたものですが、文字のサンプルにあるように解像度が小さいと曲線などで滑らかな表現ができなくなります。

解像度

解像度

では、実際に異なる解像度でスキャナから取り込んで比較してみましょう。

以下は、スキャナの設定でそれぞれ 200dpi/400dpi に解像度を変更してJPEG形式に保存したデータの一部を示しています。

解像度の違い

解像度の違い

ちょっと分かりづらいかも知れませんが、ブラウザの表示倍率をあげて見ていただくと両者の違いが分かります。
以下は、この二つの画像を弊社のOCR変換製品『瞬簡PDF OCR』でテキストファイルに変換した結果です。

変換結果

変換結果

解像度が200dpiだと文字化けしてしまう箇所が、400dpiでは(完全ではないですが)おおむね正しく認識できていることが確認できます。

そうすると、もっと解像度を高くしてスキャンすれば更に良い結果が出せそうに思えます。ところが、これがさにあらず、なのです。
以下は、スキャナの設定を600dpiにして変換を行った結果です。

600dpiで変換

600dpiで変換

解像度を上げても、あまり変換結果に影響がないことが確認できるかと思います。
一般にOCR処理では、300~400dpiの範囲が適切なOCR結果を得る解像度だと言われています。それ以上解像度を上げてもファイルサイズが大きくなるばかりで、OCRの変換精度はあまり変わらないか、逆に悪くなってしまう場合もあります。ちなみに今回使用したJPEGデータの場合、400dpiのときのファイルサイズは約1.4MBですが、600dpiでは約2.7MBでした。

OCR処理を使って文字の取り出しを行う際には、スキャンの段階から適切な解像度を設定していただくことでより良い結果が得られます。ご参考にしていただければ幸いです。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。


Windows 8.1 Preview の PDF 表示機能

PDF 表示機能の比較
https://blog.antenna.co.jp/ILSoft2/archives/779
の続きです。

Windows 8.1 Preview の Windows Reader でサンプル PDF (http://ondoc.logand.com/d/223/pdf)を開いてみました。

win8_1_test_pdf

右上のあたりで色が少し違うのと、縦書き文中の括弧の向きがおかしいのは Windows 8 の時と同じですが、
右下の「Text Image」と表示されるはずの部分が空白になっています。
Windows Reader は Windows 8 から 8.1 のバージョンアップで変化があることは確認できましたが、
このサンプルの表示に限っては、劣化していると言えるでしょう。


画像ファイルをスタンプ注釈に利用 PDF Tool 「V4」(もうまもなく)

私の住んでいる地域のコンビニ各社では淹れたてコーヒーの価格差がなくなり100円になりました。
次なる差別化はコーヒーにおつまみをつけるか否かということになってきています。

さて、「PDF Tool」は現在、V4リリースに向けて作業を行っています。
リリースのご案内は10月中旬頃にはできるかと思います。しばらくお待ちください。

V4の新たな機能として画像から直接PDFを作成したり、画像やPDFをスタンプ注釈にするというものがあります。
下記PDFは画像を直接PDF化し、画像をスタンプ注釈として貼り付けたものです。

スタンプ注釈(例)

スタンプとして用いた画像


スタンプしたpdf

スタンプしたpdf

●製品詳細ページ
『Antenna House PDF Driver API / Antenna House PDF Tool API 』

●無償の評価版をぜひお試しください! 
『Antenna House PDF Driver API / Antenna House PDF Tool API』評価版


AH Formatter V6.1 MR2リリース~FormatterClub「CSS書籍組版」セミナーの案内

AH Formatter V6.1 MR2(改訂2版)を公開しました。詳しくは改訂情報のページをご覧ください。
AH Formatter V6.1 改訂情報

評価版は以下のページよりお申し込みいただけます。
AH Formatter V6 評価版のお申し込み

これまでも紹介してきましたが、AH Formatterは、XMLやHTMLで書かれた文書をレイアウトして高品質な印刷・PDF生成を行うことができる自動組版エンジンとして、日本だけでなく世界で使われています。

FormatterClubのすすめ~10/18「CSS書籍組版」セミナー予告

AH Formatterをもっと知りたい、試してみたい、使っている人に聞きたいという方にFormatterClubをお勧めします。
会員(無料)には会員向け試用版の提供をしています。通常評価版では出力ページに「すかし」が入りますが、この会員向けはページの下部にAH FormatterのURLが表示されるだけになり、この表示を改変・削除しない限りにおいて、評価用に利用することのほか、個人的に文書作成に利用するなど、非営利目的に限って使用することが可能です。

FormatterClubについて

FormatterClubでは不定期ですが例会セミナーを開催してます。
次回は10/18(金)に「CSS書籍組版」をテーマで開催予定です。

日時:2013年10月18日(金)14:00-16:30
場所:浜町区民館

講師には『ページ組版のためのCSS指南』編著者、藤島雅宏さん(イーエイド

[書籍紹介] ページ組版のための CSS 指南

「CSS」というと、Webページのレイアウトのためのスタイルシート仕様ですが、この仕様の中にはCSS3 Paged MediaGCPMなど印刷・ページ組版のための機能もあり(ドラフト段階ですがAHは先行実装してます)、これを利用するとHTML+CSSで書籍の組版が可能です。実際、オライリーの書籍などCSS組版で作られて出版されているのですが、まだまだあまり知られていません。
このセミナーでは、CSS組版でここまでできるということを紹介し、その問題点や可能性を話しあえればと考えています。

詳しくは、案内ページへ:
FormatterClub「CSS書籍組版」セミナーご案内(無料セミナー)


PDF/UA(ISO 14289-1)について(終)

PDF/UAの紹介の最後になります。

ここまで、ファイルフォーマットの要件、リーダの要件を記載しましたが、最後はAT(Assistive Technology:支援技術)の要件になります。

このATにはPDF/UAを使用するスクリーンリーダや、音声入力をサポートするデバイス、キーボード入力を容易にする装置、点字に変換して印刷するソフトウェアなど広範なソフトウェア、ハードウェアが含まれます。

ATに求めら得る要件とは、大きくは下記となります。

  • この仕様に定められた構造型、属性、値をユーザが好む方法で利用、表示できること、論理構造ツリーに属さないアーティファクトを処理する機能があること。
  • 準拠リーダが複数の表現方法で表示する場合、ATはユーザの選択する方法でその表現にアクセスすることを可能としなければならない。
    (この複数の表現方法とは、PDFのオプショナルコンテントあるいはレイヤーなどと呼ばれる機能を使用した表現方法のことです)
  • ナビゲーション機能として、以下をサポートする必要があります。
    • PageLabel数値ツリーを用いてナビゲーションする機能
    • 構造階層を用いてナビゲーションする機能
    • ドキュメントのアウトライン(Adobe Readerのしおり)を用いてナビゲーションする機能
    • ユーザ指定に応じたズーム機能

PageLabelとは、たとえば、目次部分は小文字のアラビア数字、本文はローマ数字といったページ番号を持つ文書がありますが、PDFでそのような表現をする機能です。ナビゲーションに、このPageLabelや、文書の章・項といった論理構造の階層情報を使用する機能が必要とされます。

ATの要件については、あまり詳細なことは定められていません。

以上、PDF/UAの紹介となりますが、フォーマットの要件部分で、関連仕様に W3Cの Web Content Accessibility Guidelines(WCAG) 2.0 があることを記載しました。
これまで説明したPDF/UAファイルの作成、使用の双方に必要とされる要件は、PDFファイルをW3Cの勧告であるWCAGに沿って利用するために必要とされるPDFの機能の使用方法となります。

PDF/UAの理解には、WCAG 2.0 (およびその関連ドキュメント)で解説される内容を理解する必要があります。
WCAGのW3Cの勧告は下記にありますので、興味のある方は参照ください。
http://www.w3.org/TR/2008/REC-WCAG20-20081211/
(日本語訳)
http://www.jsa.or.jp/stdz/instac/commitee-acc/W3C-WCAG/WCAG20/


Pages: Prev 1 2 3 ... 135 136 137 138 139 140 141 ... 210 211 212 Next