« AH Formatterの強い味方「XSL Report Designer」 | メイン | PDFからのテキスト抽出で困っていること »
2011年10月18日
サーバ組込用テキスト抽出エンジンTextPorter
TextPorterは、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
何ができるかを一言でいうと、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出してくるソフトです。
「ファイルから文字列を抜き出してくるだけなのに、そんなに大変なことなの?」と思われるかもしれませんが、世の中には、実に数多くの種類のファイルがあり、そこから文字列を抜き出すだけでも、けっこう大変な仕事です。
ファイルの解析から始め、テキスト部分がどこかを探り当て、それを抽出するプログラムを書いて、いろんなケースをテストして製品の完成度を高めないといけません。
TextPorterが対応しているファイル形式の一覧「抽出対象ファイル形式」をご覧いただくとおわかりのように、これだけのファイルに対応するのは、一朝一夕ではできません。アンテナハウスが長年にわたって開発を続け、蓄積してきた成果なのです。
「大変なのはわかった。でも、テキストが抽出できると何がうれしいの?」と思われるかもしれませんが、この技術は、検索エンジン、ウィルス対策ソフト、ドキュメント管理システムなど、さまざまな用途に使うことができるのです。
システム開発をする人が、サーバに組み込んで使うソフトなので、直接、一般の人たちの目には触れませんが、縁の下の力持ちとして、大いに役立っているソフトなのです。
採用事例は数多くあり、世界的なソフトウェアやサービスにも組み込まれていますが、契約の関係上、採用事例をご紹介できるのは、次の事例です。
採用事例(ケーススタディ)
のあるように、エヌ・ティ・ティ アイティ株式会社(NTT-IT)様のInfoBeeにご採用いただいております。
ほかにも、
スマートフォンでの活用 互換性 Server Based Converter
にあるような活用法も考えられます。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。
最近、PDFからテキスト抽出をするときに困っていることが起きているので、明日は、それについて書いてみます。
投稿者 taishii : 2011年10月18日 10:01
トラックバック
このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/1760
コメント
コメントしてください
サイン・インを確認しました、 さん。コメントしてください。 ( サイン・アウト)
(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)