昨日は、TextPorterがさまざまなソフトのファイルからテキストを抜き出してくるソフトであること。一般の人の目に触れないところで、実は、数多く採用され、活躍していることをお話しました。
そのTextPorterを使ったPDFからのテキスト抽出で、最近、困ったことが起きています。
1つ目は、壊れたPDFが氾濫していることです。
PDFは、Adobe社が独自に開発したものですが、仕様はすでに、
PDF Reference and Adobe Extensions to the PDF Specification
として、公開されています。また、ISO 32000という国際規格にもなっています。
規格に沿ったPDFであれば、TextPorterは困らないのですが、世の中には、規格を逸脱したPDFがたくさんあります。
お客様から、このPDFからテキストが抽出できないという問い合わせがあり、調べてみると、規格に準拠してない、壊れたPDFであることがほとんどです。
それらは、オープンソースのPDFライブラリや自作の独自ライブラリを用いて作られたものが多いようです。そのPDFライブラリのバグなのか、そのPDFライブラリを使うプログラマのレベルが低くて、バグを入れてしまっているのかは、定かではありません。とにかく、壊れた汚いPDFがあちこちで流通してしまっているのが現状です。
中には、Adobe Readerでも表示できなかったり、Adobe Readerがハングアップしてしまうものまであります。
TextPorterは、なるべくテキストを抽出しようとがんばってはいますが、自ずと限界はあり、壊れ方がひどいと、どうしようもありません。
出来の悪いプログラマが作るPDFには勝てません。どうか、プログラマのみなさん、仕様書を読んで、まともなPDFを作ってくださいと願うばかりです。
2つ目は、画像ばかりのPDFからは、テキストが抽出できないということです。
お客様から、このPDFからテキスト抽出ができないと送られてきたPDFが、実は、テキストは1文字も入っておらず、全ページが画像のPDF。つまり、スキャナで紙の書類を画像として取り込んでPDFにしたものだったというケースが増えています。
技術知識のない一般のお客様の場合、Adobe Readerで見て文字が読めるのだから、テキストが抽出できると思ってしまわれるようですが、そうなりません。実は、TextPorterは、画像認識をしてまでテキストを抽出しようとはしていないのです。
これには理由があって、画像認識までして文字列を抽出しようとすると、処理スピードの低下など、あれこれ弊害が出てしまうからです。TextPorterは日夜、膨大な数のファイルからテキスト抽出をする用途に使われているので、処理スピードの低下は、大きな問題になるのです。
ハードウェアの性能がもっと向上すれば、挑戦すべきテーマとは思いますが、現在のところ、そこまでやることは控えています。
画像ばかりのPDFからは、テキスト抽出はできない。これを覚えておいていただきたいと思います。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。
月別アーカイブ: 2011年10月
サーバ組込用テキスト抽出エンジンTextPorter
TextPorterは、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
何ができるかを一言でいうと、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出してくるソフトです。
「ファイルから文字列を抜き出してくるだけなのに、そんなに大変なことなの?」と思われるかもしれませんが、世の中には、実に数多くの種類のファイルがあり、そこから文字列を抜き出すだけでも、けっこう大変な仕事です。
ファイルの解析から始め、テキスト部分がどこかを探り当て、それを抽出するプログラムを書いて、いろんなケースをテストして製品の完成度を高めないといけません。
TextPorterが対応しているファイル形式の一覧「抽出対象ファイル形式」をご覧いただくとおわかりのように、これだけのファイルに対応するのは、一朝一夕ではできません。アンテナハウスが長年にわたって開発を続け、蓄積してきた成果なのです。
「大変なのはわかった。でも、テキストが抽出できると何がうれしいの?」と思われるかもしれませんが、この技術は、検索エンジン、ウィルス対策ソフト、ドキュメント管理システムなど、さまざまな用途に使うことができるのです。
システム開発をする人が、サーバに組み込んで使うソフトなので、直接、一般の人たちの目には触れませんが、縁の下の力持ちとして、大いに役立っているソフトなのです。
採用事例は数多くあり、世界的なソフトウェアやサービスにも組み込まれていますが、契約の関係上、採用事例をご紹介できるのは、次の事例です。
採用事例(ケーススタディ)
のあるように、エヌ・ティ・ティ アイティ株式会社(NTT-IT)様のInfoBeeにご採用いただいております。
ほかにも、
スマートフォンでの活用 互換性 Server Based Converter
にあるような活用法も考えられます。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。
最近、PDFからテキスト抽出をするときに困っていることが起きているので、明日は、それについて書いてみます。
AH Formatterの強い味方「XSL Report Designer」
アンテナハウスのAH Formatterは、世界各国で使われ、高い評価を得ています。最近では、「米国国税庁でAH Formatter 案件が進む」にあるように、アメリカの国税庁(IRS)でも採用されました。
このように大変優秀なソフトですが、レイアウトを決めるには、XSL-FOとXSLTの知識と経験が必要です。
習得すると、思い通りのレイアウトができますが、習得には時間がかかります。
そこで、登場するのが、「XSL Report Designer」です。
XSL Report Desingerを使うと、GUIの画面で、簡単に帳票のレイアウトを設計できます。
設計したレイアウトとXMLのデータを組み合わせて、XSL-FOを生成して、AH FormatterでPDFにしたり、印刷したりできるようになるのです。
どういうレポートが設計できるかは、
XSL Report Designer レポート設計サンプル
をご覧ください。
AH Formatterを活用するソフトとして、XSL Report Designerは、海外でもご好評をいただいています。
以前、通貨の出力を、ヨーロッパで使う形式、つまり、小数点を「,」、3桁の区切りを空白にできるかという質問がありました。
たとえば、「1,234.56」ではなく、「1 234,56」で出力したいという要望です。
XSL Report Designerは、国際化対応をしていますので、この要望にもお応えすることができました。
XSL Report Designerについての詳しい説明は、
XSL Report Desinger
をご覧ください。
スマートフォンでの活用 セキュリティ Server Based Converter
iPhon4S発売されましたね。銀座のアップルストアでは、先頭に並んだ人が「火曜日から」とTVで言っていました。また、EM(イー・モバイル)からは、最小のスマートフォンも発表されましたね。色々と話題に事欠かないスマートフォンですが、ビジネス向けに考えた場合には欠かすことができない「セキュリティ」に関して考えてみたいと思います。
セキュリティのアプローチとしては、「端末」側と「サーバ」側での実装が考えられます。
- 「端末」側
- ロックをかける
- 表示ファイルを残さない
- 盗難、及び紛失時の対処
- 「サーバ」側
- 接続端末の選別
- ログイン・ユーザの選別
- アクセスできるファイルの選別
それぞれ、「アプリ」で対応でき色々な方法で実現できますが、「なりすまし」を防ぐのは難しく、完全に流出を防ぐことはできないのではないかと思われます。
そこで、4番目の対応です。
Server Based Converter にて、端末側からの要求ファイルに、「透かし」を入れてみてはどうでしょうか?
「社外秘/Confidential」「アクセス日時」「所属」「氏名」等を入れることにより流出元の特定にも役立ち、且つ、透明度を指定をすることができますので、文書の視認度も損なわずに済みます。
さらに、もう一段セキュリティを設けるとすれば、
- 画像(JPEG/PNG)へ「透かし」入りで変換
- 「1.」をユーザパスワード、及びPDFの各種セキュリティ付きPDFを作成
をしてしまうことのより、より強固に保護することができます。
上記は、一例ですが、Server Based Converter を使用することにより、使用感を損なわないでセキュリティをより強固にすることができますので、是非一度ご検討の上お試しください。
最後に、Server Based Converter の機能強化の予定として、「ユーザパスワード付きのMicrosoft Officeファイルへの対応」を検討しております。まだまだ、この機能を実装したバージョンのリリース日をお伝えすることはできませんが、この機能を実装することにより、変換元ファイルと同じパスワードでPDFを作成することも可能となり、自然災害など予期せぬ自体が発生し、パスワードを知る人がいなくなった場合においても、諦めることなく文書資産を生かせることができるようになります。
・Server Based Converter
・Server Based Converter デモサイト1(PC用、サムネイル作成)
・Server Based Converter デモサイト2(透かし対応)
スマートフォンでの活用 互換性 Server Based Converter
PC並の性能を持ち始めている、と言いますか、ある種PCよりも利便性に長けているスマートフォン、欲しいですね。個人での購入であれば、仕事に打ち込み成果を得るか、何かを節約して購入することも可能ですが、大企業や中小企業でもビジネスで一括に大量購入するとなると、かなり難しいのではないかと思われます。
となると、段階的に購入することとなり、社内のシステムや利用しているサービス等は一世代前の携帯電話との互換性が求められてきます。
そこで、 Server Based Converter 及び、弊社他製品を利用してスマートフォンと一世代前の携帯電話と互換性のあるシステムを考えたいと思います。
携帯電話向けのシステムやサービスでは、接続している機種が型番までわかると思います。その情報を利用して
- 一世代前の携帯電話に関しては、低解像度のラスターを作成してブラウザ表示する。
- スマートフォンに関しては、高解像度のラスターを作成してブラウザ表示する。
- 上記2つに当てはまらない世代の携帯電話には、 TextPorter を利用しテキスト化してブラウザに表示する。
非常に簡潔に記載しましたが、ラスター(JPEG/PNG/TIFF/MTIFF)化以外にも Server Based Converter ではPDFやFlash(SWF)、SVGに変換できますので、次世代スマートフォンへの対応も視野に入れることができると思っております。
・Server Based Converter
・Server Based Converterデモサイト1(PC用、サムネイル作成)
・Server Based Converterデモサイト2(透かし対応)
スマートフォンでの活用 処理速度 Server Based Converter
普及率が年々伸びてきているスマートフォン。皆さんでもお使いになっている方がいるのではないでしょうか。
一昔前の携帯電話には、PDFやMicrosoft Officeファイルをそのまま表示できるViewerが搭載されている物もありましたが、あまりにも「遅く」、結果、「使えない」と言って使用を断念された方もいらっしゃるのではないでしょうか。
スマートフォンでもアプリとしてViewerが標準搭載されている場合があり、且つ、有償/無償共に様々なViewerアプリを使用することができます。ただ、「遅い」問題や、ネットワークを通じてのファイル転送にも限界が有るようで、ビジネスでそのまま使用することは難しい状況です。
そのような場合に、Server Based Converter を使用していただくと様々なアプローチで端末側の処理速度問題を解決する事が可能です。
- ラスター化
JPEG/PNG化して搭載しているブラウザで表示させる。
もっともお手軽に実現できる方法と思われます。
Server Based Converter では、ファイルをページ毎に出力することもできますので、サムネイル表示後、必要なページだけ端末側で表示することも可能です。
ただし、解像度を上げすぎると比例してファイル容量も大きくなりますのでネットワークの負荷も大きくなります。 - ベクター化
SVG/SVG Tiny化し、スマートフォン側でSVG/SVG Tiny用Viewerで表示する。
Viewerアプリを作成、配布する事が前提となってしまいますが、処理の速さやベクターデータならではの拡大縮小自在の見やすさは、ラスターデータにないはものです。
Viewerアプリ側でgzip圧縮対応もしている場合は、Server Based Converter でgzip圧縮したSVG/SVG Tinyファイルをページ毎に出力できますので、ネットワークへの負荷も下げることができます。
- PDF化
PDF化し、スマートフォン側でPDFViewerで表示する。
ブラウザに迫る勢いで標準搭載されてきていると思われるPDF用Viewer。
Server Based Converter でファイルをページ毎に出力もできますが、Viewer側で「リニアライズ処理(Web形式に最適化)」に対応することにより、Server Based Converter で出力したPDFを弊社別製品のPDFToolにて「リニアライズ処理(Web形式に最適化)」されたファイルを出力すれば、複数ページのPDFもページ毎に読込できるようになります。
また、様々なPDFで対応しているセキュリティオプションもServer Based Converter で指定することができますので色々なシーンで活用できるようになります。
Server Based Converter は残念ながらスマートフォン(iPhon/Android)対応していないので、端末側で動作することはできませんが、サーバ側で稼働している既存の文書管理やグループウエア等に組み込む事により、よりいっそう快適な使用感を付加することが可能です。
是非ご検討ください。
・Server Based Converter
・Server Based Converterデモサイト1(PC用、サムネイル作成)
・Server Based Converterデモサイト2(透かし対応)
スマートフォンでの活用 Server Based Converter
iPhonやAndroidで話題のスマートフォン。多機能で通常業務にて使用しているMicrosoft Officeファイルをそのまま使えるアプリもたくさん出ているようですが、ビジネスシーンでの利用はまだまだ浸透していないようです。
なぜ?と思い色々と調べてみました所、以下のキーワードが浮かんできました。
<キーワード>
1)処理速度
2)互換性
3)セキュリティ
大まかには上記の3つです。どれもネット時代にはありきたりなキーワードですが、その分根が深い問題なのだとあらためて実感しましました。
明日より3回にわたり、上記キーワードに関して、Server Based Converterでどのように解決していくかをご紹介させていただきます。
・Server Based Converter
・Server Based Converterデモサイト1(PC用、サムネイル作成)
・Server Based Converterデモサイト2(透かし対応)
第3回CAS-UB紹介セミナーを10月26日開催!
10月26日(水曜日)18:30より20:30まで、第3回クラウド型汎用書籍編集・制作サービス「CAS-UB」紹介セミナーを開催します。
CAS-UBで、実際に書籍を作るところを実演します。また、現在開発中の、EPUB3、数式編集、英語版などの新しい機能についてご紹介します。
場所は市ヶ谷健保会館 F会議室。
東京都新宿区市谷仲之町4-39
参加費は無料ですが、事前登録が必要です。
○お申し込みはこちらからどうぞ。
http://www.exism.co.jp/contact/form/seminarinq.html
○詳細ご案内
http://www.cas-ub.com/info/index.html
Antenna House Formatter V6 で floatを使った図版の最適配置
日本語組版の規格として、JIS X4051(日本語組版規則)があります。
ここにある規格書の、X4051 02 のPDFを閲覧すると、97ページあたりから 図・写真等の処理について説明があります。Antenna House Formatter V6 では、このPDFにある、図49、図50の配置を行なう機能を実装しています。
以下がそのサンプルです。解りやすくアンカー位置を赤丸印で示しています。
・アンカー(出現位置)と図が同じページに現れるパターン
・X4051 02 のPDFの図49を再現したパターン
・X4051 02 のPDFの図50を再現したパターン
データの float の指定は3つとも同じですが、その出現位置によってこのように3パターンの配置を実現しています。
どうぞ実際に、Antenna House Formatter V6 を使ってみてください。
評価版のダウンロードは、こちら から。
Antenna House Formatter での異体字の使用
本日は、度々お問い合わせのある、Antenna House Formatterでの異体字の使用についてお話しします。
異体字とは
・同じ意味/発音を持っているが、異なる表記の字体の文字
・新字と旧字による違いや、手書きによる個人差から生じたものなどもある
・人名や屋号、地名に多く使われる
JISやUnicode仕様においては、基本的に異体字ごとに異なるコードを割り振るようなことは行っていません。(ただし例外もあります)
Unicodeでは異体字セレクタという名称でタグを付けることにより、先行する一文字と組み合わせて定義付けされた字体を選択する方法をとります。
2006年1月13日に漢字で異体字セレクタを使うための漢字字形データベース(Ideographic Variation Database)への登録手続きが定められ、2007年12月14日に最初の異体字コレクションとしてAdobe-Japan1が登録されました。
Antenna House Formatterはこの異体字に対応しています。
異体字選択機能を持っているCIDフォント(OpenTypeフォント)と組み合わせて使うことで、Antenna House Formatter から、PDFへの異体字出力が可能です。(PDF出力のみ、他の出力オプションは未対応)
Antenna House Formatter での使用方法
Antenna House Formatterで、これらを使うには次のようにします。
例えば、葛飾区と葛城市の「葛」には、二つの字形があります。
どちらの文字も、U+845Bという符号位置に統合されています。
異体字セレクタを使って、次のように区別することができます。
1. U+845B U+E0100
2. U+845B U+E0101
XSL-FOでは、次のように書きます。
<fo:block>葛󠄀</fo:block>
<fo:block>葛󠄁</fo:block>
これを小塚明朝 Pr6N フォントを使用した場合、出力は次のようになります。
皆さんも試してみてください。