日別アーカイブ: 2011年10月18日

サーバ組込用テキスト抽出エンジンTextPorter

 TextPorterは、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
 何ができるかを一言でいうと、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出してくるソフトです。
 「ファイルから文字列を抜き出してくるだけなのに、そんなに大変なことなの?」と思われるかもしれませんが、世の中には、実に数多くの種類のファイルがあり、そこから文字列を抜き出すだけでも、けっこう大変な仕事です。
 ファイルの解析から始め、テキスト部分がどこかを探り当て、それを抽出するプログラムを書いて、いろんなケースをテストして製品の完成度を高めないといけません。
 TextPorterが対応しているファイル形式の一覧「抽出対象ファイル形式」をご覧いただくとおわかりのように、これだけのファイルに対応するのは、一朝一夕ではできません。アンテナハウスが長年にわたって開発を続け、蓄積してきた成果なのです。
 「大変なのはわかった。でも、テキストが抽出できると何がうれしいの?」と思われるかもしれませんが、この技術は、検索エンジン、ウィルス対策ソフト、ドキュメント管理システムなど、さまざまな用途に使うことができるのです。
 システム開発をする人が、サーバに組み込んで使うソフトなので、直接、一般の人たちの目には触れませんが、縁の下の力持ちとして、大いに役立っているソフトなのです。
 採用事例は数多くあり、世界的なソフトウェアやサービスにも組み込まれていますが、契約の関係上、採用事例をご紹介できるのは、次の事例です。

採用事例(ケーススタディ)

のあるように、エヌ・ティ・ティ アイティ株式会社(NTT-IT)様InfoBeeにご採用いただいております。
 ほかにも、
スマートフォンでの活用 互換性 Server Based Converter
にあるような活用法も考えられます。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。
 最近、PDFからテキスト抽出をするときに困っていることが起きているので、明日は、それについて書いてみます。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成