« TextPorterのテキストファイルからのテキスト抽出について | メイン | AH Formatter V6.0 改訂6版を公開しました。 »

2013年01月10日

TextPorterのファイル種別の判別機能について

 TextPorterは、Word、Excel、PowerPoint、PDFなどのファイルからテキストを抜き出します。
 このときに、与えられたファイルに対して、Word、Excel、PowerPoint、PDFなどのどれかがわからないと、テキストを抜き出すことができません。
 そのため、TextPorterには、ファイル種別の判別機能が備わっています。

 TextPorterのファイル種別の判別機能は、原則として、拡張子に依存しません。ファイルの内容を調べて、何のファイルかを判別しています。極端な例では、拡張子が、.docであっても、中身がExcelなら、Excelとして正しく判別します。
 TextPorterのファイル種別の判別機能は、正しく判別できることがほとんどですが、絶対ではありません。ファイルの内容から、確率的、統計的に判断する場合もあるからです。
 この場合、ファイルが大きくて、中身のデータが多ければ、正しくファイルを判別できる確率は上がりますが、ファイルの中身が少ない場合には、間違った判別をすることがあります。
 アンテナハウスには、文書コンバータの開発などで長年培ったノウハウがありますが、それでも、ファイルの中身が少ないと手がかりになる情報がなく、失敗することがあるのです。

 ファイル種別の判別は、100%正しい、絶対的なものではない。しかし、十分、信頼に値するものであることを知って、お使いいただきたいと思います。

 TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office、PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
 TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

 TextPorterについての詳しい情報は、
TextPorter製品ページ
をご覧ください。
 評価版もご用意しております。
 TextPorter 評価版のお申し込み
から、お申し込みください。

 アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。

投稿者 AHEntry : 2013年01月10日 09:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/2027

コメント

コメントしてください

サイン・インを確認しました、 さん。コメントしてください。 ( サイン・アウト)

(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)


情報を登録する?