Antenna House Web Interface V5.0 for AH Formatter リリース

2013年10月1日より『Antenna House Web Interface V5.0 for AH Formatter』のリリースを開始いたしました。

『Web Interface V5.0』は、サーバ上の組版ソフト『AH Formatter』をインターネット経由で遠方のクライアントから簡単に使用できる便利なソフトウェアです。サーバ側とクライアント側のパソコンに必要なソフトをインストールするだけで、新規にプログラムを開発することもなく、すぐに運用を開始できます。

『Web Interface V5.0』にて追加された機能
・Windows 64ビット版に対応
・HTTPS プロトコルに対応
・『AH Formatter V6.1』との組み合わせ動作保証

Windows 64ビット版対応など、ご利用範囲が広がりましたので、この機会にぜひ評価版でお試しください。

『Web Interface V5.0』に関する詳しい情報は以下のページをご覧ください。
Antenna House Web Interface V5.0 for AH Formatter

評価版は以下のページよりお申し込みいただけます。
Web Interface V5.0 評価版のお申し込み




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

[AH Formatter] FO 中での言語指定の重要性について

ユーザサポートに寄せられる問い合わせ(トラブル)で FO 中での言語指定がないことが原因となっている場合がよくあります。

font-family においてフォントの候補が複数列挙されている時や font-family の指定が無い時、AH Formatter は文字に対してどのフォントを適用すべきかをスクリプトによって決定します。これによって “ABC” などのラテン文字は欧文フォント、”あいうえお” などのひらがな(日本語)であれば和文フォントになります。

Unicode で定義されているスクリプト情報のみで判断できない場合には前後の文字などで判断しますが、それでも決定できない場合があります。例えば、段落に単独で ○(U+25CB)があったり、○ の前後に半角スペースが存在するような場合です。○ は和文フォントと欧文フォントでその字体には違いがあります。

FO 中での言語指定の重要性について

スクリプトが決定できない=フォントが決定できない時、AH Formatter はオプション設定ファイルの default-lang と default-lang2 の設定に従います(フォントの選択方法については、オンラインマニュアルの 技術的資料 – フォントの選択を参照してください)。この指定の既定値に従うと、言語指定のない FO では “eng” が指定されているものとみなします。したがって、上記のような ○ のスクリプトが決定できない場合は欧文フォントが選択されます。

FO 中での言語指定の重要性について

このように言語指定が無いことが原因で同じ ○ に対して適用されるフォントが欧文フォントだったり和文フォントだったりと統一されないことがあります。XSL-FO での言語指定は、xml:lang や language プロパティで行います。この指定を行うことでこのようなトラブルを未然に防ぐことができます。

組版対象の FO において、言語指定をすることは非常に重要です。日本語のドキュメントでは、ひらがな、カタカナ、漢字などの日本語とアルファベットや記号などが混在して文字の言語情報に関して意識しないことが多いのですが、このようなトラブルを防ぐために言語やフォントの指定を正しく行うことが必要です。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

「CSS 書籍組版」セミナー開催のご案内(Formatter Club)

今週末 10月18日(金)に Formatter Club で「CSS 書籍組版」セミナーを開催いたします。
CSS でどこまで組版が可能かのご説明と、CSS 組版の実例のご紹介をいたします。

Formatter Club は会員様以外でも CSS 組版、自動組版にご興味のある方であればどなたでもご自由にご参加いただけます。

開催概要及びお申し込みにつきましては次のページをご覧ください。
Formatter Club 「CSS書籍組版」セミナーご案内(無料セミナー)

Formatter Club の詳細については次のページをご覧ください。
Formatter Club について




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

TextPorterのWindows 8.1、Windows Server 2012 R2対応について

 TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。

 TextPorterは、Windows 8.1、Windows Server 2012 R2に対応するかというお問い合わせを頂戴しています。
 TextPorterは、Windows 8.1、Windows Server 2012 R2に対応いたします。
 時期につきましては、Windows 8.1、Windows Server 2012 R2の正式版出荷後、1ヵ月ほどを予定しております。
 Windows 8.1、Windows Server 2012 R2の正式版出荷時の最新版(現在の最新版は、V5.3 MR2ですが)で、テスト、動作確認を行ないます。
 もし、問題が起きたときは、改良を加えて、MRとしてリリースする予定です(V5.3 MR2で問題が発生したときは、V5.3 MR3としてリリーする予定です)。
 動作保証ができる段階になれば、その旨、ウェブなどでお知らせいたします。
 いずれにしましても、最新バージョンの最新MRで、Windows 8.1、Windows Server 2012 R2に対応することになります。

 なお、最新版以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
 どうしてもいう場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
 よろしくお願いいたします。

 TextPorterについての詳しい説明は、
 TextPorter をご覧ください。
 
 評価版もご用意しております。
 TextPorter 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
 アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

Server Based ConverterのWindows 8.1、Windows Server 2012 R2対応について

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。

 Server Based Converterは、Windows 8.1、Windows Server 2012 R2に対応するかというお問い合わせを頂戴しております。
 Server Based Converterは、Windows 8.1、Windows Server 2012 R2に対応いたします。
 時期につきましては、Windows 8.1、Windows Server 2012 R2の正式版出荷後、1ヵ月ほどを予定しております。
 Windows 8.1、Windows Server 2012 R2の正式版出荷時の最新版(現在の最新版は、V5.0 MR2ですが)で、テスト、動作確認を行ないます。
 もし、問題が起きたときは、改良を加えて、MRとしてリリースする予定です(V5.0 MR2で問題が発生したときは、V5.0 MR3としてリリーする予定です)。
 動作保証ができる段階になれば、その旨、ウェブなどでお知らせいたします。
 いずれにしましても、最新バージョンの最新MRで、Windows 8.1、Windows Server 2012 R2に対応することになります。

 なお、最新版以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
 どうしてもいう場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
 よろしくお願いいたします。

 Server Based Converterに関する詳しい情報は、
 Server Based Converter 製品ページ を、ぜひ、ご覧ください。
 評価版もご用意しております。
 サーバベース・コンバーター 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

TextPorter V5.3 改訂第2版(MR2)をリリース

 TextPorterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 TextPorter V5.3 改訂第2版(MR2)を、すでにリリースしております。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.3 改訂第2版(MR2)
 改訂内容は、TextPorter V5.3 MR2 追加/修正内容を、ご覧ください。
 改訂版のダウンロードも、上記ページから行なえます。

 以前のバージョンの改訂情報は以下の通りです。

・V5.2 改訂第5版(MR5)
 改訂内容は、TextPorter V5.2 MR5 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.1 改訂第8版(MR8)
 改訂内容は、TextPorter V5.1 MR8 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V5.0 改訂第10版(MR10)
 改訂内容は、TextPorter V5.0 MR10 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。
・V4.2 改訂第15版(MR15)
 改訂内容は、TextPorter V4.2 MR15 追加/修正内容に、掲載する予定です。
 改訂版のダウンロードも、上記ページから行なえます。

Text Porter について

 TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
 TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

 TextPorterについての詳しい情報は、
TextPorter
をご覧ください。
 評価版もご用意しております。
 TextPorter 評価版のお申し込み から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

Server Based Converter V5.0 改訂第2版(MR2)をリリース

 Server Based Converterをお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。
 現在、Server Based ConverterのV5.0 改訂2版(MR2)のリリースを予定しております。
 原稿執筆時点では、まだダウンロードが可能になっておりませんが、2013年10月8日から、ダウンロード可能になる予定です。
 保守契約を結んでいらっしゃるお客様で、該当するバージョンをお持ちの方は、ダウンロードして、お試しください。

 なお、他のバージョンにつきましては、今回、メンテナンスリリースはございません。
 以前、お知らせしました通り、
・最新版につきましては、従来通り、おおよそ3ヵ月に1回、年4回を目安とした配布。
・最新版以外のバージョンにつきましては、おおよそ半年に1回、年2回を目安とした配布
と、変更させていただいております。
 何卒、ご了承くださいますよう、お願い申し上げます。

・V5.0 改訂第2版(MR2)
改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc50.html#v50mr1を、ご覧ください。
ダウンロードは、https://www.antenna.co.jp/sbc/user_V50mrdl_in.htmlから、行なってください。

 以前のバージョンの改訂情報は以下の通りです。

・V4.0 改訂第4版(MR4)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc40.html#v40mr4を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V40mrdl_in.htmlから、行なってください。
・V3.1 改訂第5版(MR5)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc31.html#v31mr5を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V31mrdl_in.htmlから、行なってください。
・V3.0 改訂第10版(MR10)
 改訂内容は、https://www.antenna.co.jp/support/update-sys/sbc/sbc30.html#v30mr10を、ご覧ください。
 ダウンロードは、https://www.antenna.co.jp/sbc/user_V30mrdl_in.htmlから、行なってください。

 Server Based Converterは、Microsoft Office, PDFなどのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。
 ダイレクト変換の意味は、たとえば、Microsoft Officeがない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Officeのライセンスも不要です。
 Server Based Converterは、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

 Server Based Converterに関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。
 評価版もご用意しております。
 サーバベース・コンバーター 評価版のお申し込みから、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

続・OCRのよもやま話(2)

以前の記事『OCR技術の活用』で、OCR技術は文字の誤認識が避けて通れないということを説明しました。
また、その際に「これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。」という感想を書きました。
OCRは弱点があるにしても、ソフトウェア技術として利点を活かしながらうまく利用することで強力なツールになる、という思いがあったからでした。

人力OCR!?

ところが世の中の動きは必ずしもそうではないようで、なんとOCRを「人力」で行うサービスというのがあるようです。

OCRを使った商品の代表的なものというと名刺管理ソフトが思い浮かびますが、これはスマートフォンやスキャナで取った名刺やその他の画像を専用サービスのサイトに送るとオペレータがその画像から文字を読んでテキストデータとして入力し結果を返してくれるというもので、もちろん認識率は並み居るOCRソフトを凌駕したものになります。

「OCRを人力で!?」と聞くと、OCRがソフトウェアの技術だと思い込んでいる私には寝耳に水なのですが、これを手書きの書類をコンピューターに入力するような代行サービスの一種だと考えると、以前からある話しで何のことはないですね。
ただ、これらのサービスが現代風に感じるのは、名刺などをスマートフォンに搭載されたカメラで撮影して専用アプリでクラウドに送信し結果をEvernoteなど別のクラウドサービスで受け取るようになっていること、入力代行しているオペレータが時には中国など遙か海の向こうで作業をしているといったグローバルな仕組みで提供されるというところです。

こういったサービス自体は数年前からWeb上などでも紹介されているので今頃驚いているのが恥ずかしいのですが、考えてみるとこれはOCRの「文字認識率が完全にはならない」というネガティブな点を補う意味で理にかなった利用法であると思えます。

おそらくこの仕組みでは、ユーザーから送信されたデータを一から打ち直すことなどしないで、ある程度はOCRソフトで変換を行った上で誤認識している部分を目視で確認して修正するみたいなことをしているのだと思います。そうすると、「人間でなければできないところ」を補って結果として100%の認識率を実現しているのですから理想的な利用法といえます。

名刺に限らず手書き文字でもOKなようですから、そういったデータをデジタルで管理したい方には利用価値があるかも知れません。
弱点は、人手を介することで利用状況によっては結果が返るのに時間がかかる場合があることだそうです。
お隣りの中国では経済発展の結果として人件費が高騰しつつあるということですから、今後のサービスの行方も気になります。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。




瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


HTML on Word
WebページをWordで作る!

続・OCRのよもやま話

先日、JR東海から2027年度に開業が予定されるリニア新幹線の概要が発表されました。多くのメディアで取り上げられましたので興味を持って見られた方も多かったのではないでしょうか?
弊社の伊那支店がある長野県南部にもリニア新幹線の新駅ができる計画で、地元紙でも大々的に記事が掲載されました。これまで夢としてしか語られなかったことがにわかに現実味を帯びてきたことで、谷あいののどかな地方にこれからどのような風が吹きこむのか、住人としても目が離せない気がします。

閑話休題。

昨年の7月頃に『OCRのよもやま話』という記事を書きました。
今回はその続きということで、OCRにまつわる話題をいくつか追加したいと思います。

OCRと解像度

OCRとは、Optical Character Recognition(あるいはReader)の略で、紙に印刷された文字をイメージスキャナなどで読み取り、画像化された情報から文字情報を抽出する技術であることを以前の記事でご紹介しました。

OCRで文字を正確に取り出すために必要な要素を考えると、おおよそ以下の点が挙げられると思います。

  1. 元になる原稿の状態が良好であること(文字が鮮明で、紙に汚れや皺がないなど)
  2. 適切な解像度でスキャンされていること
  3. OCRソフトが適切な性能であること

このうち、2)の「解像度」について取り上げます。

OCRで使う解像度はスキャナなどで取り込む画像の品質を表すもので、dpi(ディーピーアイ)という単位を使います。これは、1インチ(2.54cm)の間隔にどれだけ物理的な点(画素)が配置されているかを示すもので、同じ大きさの画像で比べた場合は、解像度の値が大きいほど高精細な画像が得られます。

解像度は別の言い方をすると、1インチあたりの画素の密度を表すということができます。密度が濃ければそれだけ細かい描写が可能になります。以下はそれを模式図にしたものですが、文字のサンプルにあるように解像度が小さいと曲線などで滑らかな表現ができなくなります。

解像度

解像度

では、実際に異なる解像度でスキャナから取り込んで比較してみましょう。

以下は、スキャナの設定でそれぞれ 200dpi/400dpi に解像度を変更してJPEG形式に保存したデータの一部を示しています。

解像度の違い

解像度の違い

ちょっと分かりづらいかも知れませんが、ブラウザの表示倍率をあげて見ていただくと両者の違いが分かります。
以下は、この二つの画像を弊社のOCR変換製品『瞬簡PDF OCR』でテキストファイルに変換した結果です。

変換結果

変換結果

解像度が200dpiだと文字化けしてしまう箇所が、400dpiでは(完全ではないですが)おおむね正しく認識できていることが確認できます。

そうすると、もっと解像度を高くしてスキャンすれば更に良い結果が出せそうに思えます。ところが、これがさにあらず、なのです。
以下は、スキャナの設定を600dpiにして変換を行った結果です。

600dpiで変換

600dpiで変換

解像度を上げても、あまり変換結果に影響がないことが確認できるかと思います。
一般にOCR処理では、300~400dpiの範囲が適切なOCR結果を得る解像度だと言われています。それ以上解像度を上げてもファイルサイズが大きくなるばかりで、OCRの変換精度はあまり変わらないか、逆に悪くなってしまう場合もあります。ちなみに今回使用したJPEGデータの場合、400dpiのときのファイルサイズは約1.4MBですが、600dpiでは約2.7MBでした。

OCR処理を使って文字の取り出しを行う際には、スキャンの段階から適切な解像度を設定していただくことでより良い結果が得られます。ご参考にしていただければ幸いです。

※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

Windows 8.1 Preview の PDF 表示機能

PDF 表示機能の比較
https://blog.antenna.co.jp/ILSoft2/archives/779
の続きです。

Windows 8.1 Preview の Windows Reader でサンプル PDF (http://ondoc.logand.com/d/223/pdf)を開いてみました。

win8_1_test_pdf

右上のあたりで色が少し違うのと、縦書き文中の括弧の向きがおかしいのは Windows 8 の時と同じですが、
右下の「Text Image」と表示されるはずの部分が空白になっています。
Windows Reader は Windows 8 から 8.1 のバージョンアップで変化があることは確認できましたが、
このサンプルの表示に限っては、劣化していると言えるでしょう。




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換
Pages: Prev 1 2 3 ... 139 140 141 142 143 144 145 ... 229 230 231 Next