« AH Formatterの強い味方「XSL Report Designer」 | メイン | PDFからのテキスト抽出で困っていること »

2011年10月18日

サーバ組込用テキスト抽出エンジンTextPorter

 TextPorterは、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
 何ができるかを一言でいうと、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出してくるソフトです。
 「ファイルから文字列を抜き出してくるだけなのに、そんなに大変なことなの?」と思われるかもしれませんが、世の中には、実に数多くの種類のファイルがあり、そこから文字列を抜き出すだけでも、けっこう大変な仕事です。
 ファイルの解析から始め、テキスト部分がどこかを探り当て、それを抽出するプログラムを書いて、いろんなケースをテストして製品の完成度を高めないといけません。
 TextPorterが対応しているファイル形式の一覧「抽出対象ファイル形式」をご覧いただくとおわかりのように、これだけのファイルに対応するのは、一朝一夕ではできません。アンテナハウスが長年にわたって開発を続け、蓄積してきた成果なのです。

 「大変なのはわかった。でも、テキストが抽出できると何がうれしいの?」と思われるかもしれませんが、この技術は、検索エンジン、ウィルス対策ソフト、ドキュメント管理システムなど、さまざまな用途に使うことができるのです。
 システム開発をする人が、サーバに組み込んで使うソフトなので、直接、一般の人たちの目には触れませんが、縁の下の力持ちとして、大いに役立っているソフトなのです。

 採用事例は数多くあり、世界的なソフトウェアやサービスにも組み込まれていますが、契約の関係上、採用事例をご紹介できるのは、次の事例です。

採用事例(ケーススタディ)

のあるように、エヌ・ティ・ティ アイティ株式会社(NTT-IT)様InfoBeeにご採用いただいております。
 ほかにも、
スマートフォンでの活用 互換性 Server Based Converter
にあるような活用法も考えられます。

 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。

 最近、PDFからテキスト抽出をするときに困っていることが起きているので、明日は、それについて書いてみます。

投稿者 taishii : 2011年10月18日 10:01

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/1760

コメント

コメントしてください

サイン・インを確認しました、 さん。コメントしてください。 ( サイン・アウト)

(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)


情報を登録する?