I love software!: TextPorterのテキストファイルからのテキスト抽出について　個別　アーカイブ

« TextPorterのMicrosoft Office 2013対応について | メイン | TextPorterのファイル種別の判別機能について »

2013年01月09日

TextPorterのテキストファイルからのテキスト抽出について

　TextPorterは、Word、 Excel、 PowerPoint、 PDFなどのファイルからテキストを抜き出すのですが、なぜか、テキストファイルからテキストを抽出する機能もあります。

　元がテキストファイルなら、わざわざテキストを抽出する必要はないだろうと、普通は思うのですが、お客様によっては、そうではないのです。
　テキストファイル以外に、Word、 Excel、 PowerPoint、 PDFのファイルが混在しているディレクトリから、一気に抽出したいというお客様がいらっしゃって、だったら、ファイルの拡張子でテキストファイルだけ除外して、TextPorterに処理させればいいのにと思いますが、それも面倒だというお客様もいらっしゃるのです。
　さらに欲張りなお客様は、テキストファイルの文字コード変換もやってくれと、おっしゃいます。

　というわけで、TextPorterは、テキストファイルからテキスト抽出する機能に加えて、テキストファイルの文字コード変換機能も備えています。
　テキストファイルの文字コード変換機能を有効にするには、DMC_GETTEXT_OPT1_TXCONVというオプションを指定してください。もちろん、変換先の文字コードの指定も必要です。

　さらに、DMC_GETTEXT_OPT1_TXCONV2というオプションもあって、これは、
「テキストをコード変換する際に、元のエンコードが判別できない場合は、テキストを書き出さない」
というオプションです。
　これもお客様の要望です。
　ややこしいですね。

　TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office、 PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
　TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

　TextPorterについての詳しい情報は、
TextPorter 製品ページ
をご覧ください。
　評価版もご用意しております。
　TextPorter 評価版のお申し込みから、お申し込みください。

　アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
　詳しくは、
アンテナハウス　システム製品技術相談会
をご覧の上、お申し込みください。

投稿者 AHEntry : 2013年01月09日 09:00

トラックバック

このエントリーのトラックバックURL:
http://blog.antenna.co.jp/PDFTool/mt-tbng2.cgi/2026

コメントしてください

サイン・インを確認しました、さん。コメントしてください。 ( サイン・アウト)

(いままで、ここでコメントしたとがないときは、コメントを表示する前にこのウェブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)

I love software!

ソフトウェアに愛を込めて by アンテナハウス株式会社

2013年01月09日

TextPorterのテキストファイルからのテキスト抽出について

トラックバック

コメント

コメントしてください