TextPorterのV5.3をリリースしました。
主な強化ポイントは、以下の通りです。
・Microsoft Office 2013対応
以前のブログ
TextPorterのMicrosoft Office 2013対応について
で、お約束したとおり、TextPorterは、今回リリースしたV5.3から、Microsoft Office 2013に対応いたしました。
Microsoft Office 2013で作成される、docx/xlsx/pptxファイルが変換対象となります。
・Microsoft Officeのパスワードで保護された暗号化ファイルに対応
PDFに関しては、すでに、パスワードで保護された暗号化ファイルからのテキスト抽出に対応していましたが、V5.3からは、Microsoft Office 97から2013までの、パスワードで保護された暗号化ファイルからのテキスト抽出にも対応しました。
・一太郎2012に対応
一太郎2012にも、対応しました。
抽出対象ファイル形式は、こちらをご覧ください。
抽出対象ファイル形式
テキスト抽出仕様は、こちらをご覧ください。
テキスト抽出仕様
ニュースリリースは、こちらです。
クラウド時代のテキスト抽出エンジン。様々なアプリケーションからテキスト抽出! TextPorter V5.3 サーバ版 2013年04月08日 リリース開始のお知らせ
TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。
TextPorterについての詳しい情報は、
TextPorter
をご覧ください。
評価版もご用意しております。
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
カテゴリー別アーカイブ: Text Porter
TextPorterのファイル種別の判別機能について
TextPorterは、Word、Excel、PowerPoint、PDFなどのファイルからテキストを抜き出します。
このときに、与えられたファイルに対して、Word、Excel、PowerPoint、PDFなどのどれかがわからないと、テキストを抜き出すことができません。
そのため、TextPorterには、ファイル種別の判別機能が備わっています。
TextPorterのファイル種別の判別機能は、原則として、拡張子に依存しません。ファイルの内容を調べて、何のファイルかを判別しています。極端な例では、拡張子が、.docであっても、中身がExcelなら、Excelとして正しく判別します。
TextPorterのファイル種別の判別機能は、正しく判別できることがほとんどですが、絶対ではありません。ファイルの内容から、確率的、統計的に判断する場合もあるからです。
この場合、ファイルが大きくて、中身のデータが多ければ、正しくファイルを判別できる確率は上がりますが、ファイルの中身が少ない場合には、間違った判別をすることがあります。
アンテナハウスには、文書コンバータの開発などで長年培ったノウハウがありますが、それでも、ファイルの中身が少ないと手がかりになる情報がなく、失敗することがあるのです。
ファイル種別の判別は、100%正しい、絶対的なものではない。しかし、十分、信頼に値するものであることを知って、お使いいただきたいと思います。
TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office、PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。
TextPorterについての詳しい情報は、
TextPorter製品ページ
をご覧ください。
評価版もご用意しております。
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorterのテキストファイルからのテキスト抽出について
TextPorterは、Word、 Excel、 PowerPoint、 PDFなどのファイルからテキストを抜き出すのですが、なぜか、テキストファイルからテキストを抽出する機能もあります。
元がテキストファイルなら、わざわざテキストを抽出する必要はないだろうと、普通は思うのですが、お客様によっては、そうではないのです。
テキストファイル以外に、Word、 Excel、 PowerPoint、 PDFのファイルが混在しているディレクトリから、一気に抽出したいというお客様がいらっしゃって、だったら、ファイルの拡張子でテキストファイルだけ除外して、TextPorterに処理させればいいのにと思いますが、それも面倒だというお客様もいらっしゃるのです。
さらに欲張りなお客様は、テキストファイルの文字コード変換もやってくれと、おっしゃいます。
というわけで、TextPorterは、テキストファイルからテキスト抽出する機能に加えて、テキストファイルの文字コード変換機能も備えています。
テキストファイルの文字コード変換機能を有効にするには、DMC_GETTEXT_OPT1_TXCONVというオプションを指定してください。もちろん、変換先の文字コードの指定も必要です。
さらに、DMC_GETTEXT_OPT1_TXCONV2というオプションもあって、これは、
「テキストをコード変換する際に、元のエンコードが判別できない場合は、テキストを書き出さない」
というオプションです。
これもお客様の要望です。
ややこしいですね。
TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office、 PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。
TextPorterについての詳しい情報は、
TextPorter 製品ページ
をご覧ください。
評価版もご用意しております。
TextPorter 評価版のお申し込みから、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorterのMicrosoft Office 2013対応について
TextPorterは、Microsoft Office 2013に対応するかというお問い合わせを頂戴しています。
TextPorterは、Microsoft Office 2013に対応いたします。
Microsoft Office 2013の正式出荷後に、動作検証を終えて、出荷したいと考えております。
TextPorterの現在の最新版は、V5.2 MR3ですが、Microsoft Office 2013正式対応版は、今年の春に出荷を予定しているV5.2 MR4からになる予定です。
これ以前のバージョンにつきましては、まことに勝手ながら、動作保証の対象外とさせていただきたく存じます。
どうしても、という場合は、弊社にお問い合わせ下されば、善後策を協議することができると考えております。
どうぞよろしくお願いいたします。
TextPorterは、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDFなど様々なアプリケーションのファイルから文字列を抜き出します。
TextPorterは、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。
TextPorterについての詳しい情報は、
TextPorter
をご覧ください。
評価版もご用意しております。
TextPorter 評価版のお申し込み から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorterのWindows Server 2012対応について
TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
TextPorterは、Windows Server 2012に対応するかというお問い合わせを頂戴しています。
TextPorterは、Windows Server 2012に対応いたします。
現在、動作検証を進めている状況です。
現在の最新版は、V5.2 MR2ですが、これで動作確認を行います。動作に問題がなければ、その旨、ウェブなどでお知らせいたします。
もし、動作に問題が起きたときは、改良を加えて、V5.2 MR3としてリリースすることになります。
いずれにしましても、最新バージョンの最新MRで、Windows Server 2012に対応することになります。
それ以前のバージョンにつきましては、まことに勝手ながら動作保証の対象外とさせていただきたく存じます。
どうしてもという場合は、弊社にお問い合わせいただければ、善後策を協議することができると考えております。
よろしくお願いいたします。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
TextPorter V5.2 MR1, V5.1 MR4, 5.0 MR6について
TextPorterは、サーバ組込用のテキスト抽出エンジンで、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出します。
前回のブログ担当日から今日までの間に、改訂版として、V5.2 MR1, V5.1 MR4, V5.0 MR6を出荷しましたので、それを紹介します。
TextPorter V5.2 MR1の改訂内容については、
TextPorter V5.2 MR1
をご覧ください。
TextPorter V5.1 MR4の改訂内容については、
TextPorter V5.1 MR4
をご覧ください。
TextPorter V5.0 MR6の改訂内容については、
TextPorter V5.0 MR6
をご覧ください。
今回の改訂は、主に、Microsoft Office 2007/Office 2010に関するものです。
一見するとたくさんあるようですが、実は、同じ修正です。Word, Excel, PowerPointの2007と2010に対して行われているので、多く修正されているようにみえるだけです。
「ストリーム出力で、添付ファイルを処理するとき、入力ファイルのディレクトリを使って一時ファイルを生成する問題」というのは、DMC_GETTEXT_OPT1_TEMPという、ややこしいオプションに関するものです。
TextPorterは、処理の都合上、一時ファイルが必要な場合は、通常、システムのデフォルトのディレクトリを使います。しかし、システムのデフォルトではなく、出力先と同じディレクトリを使ってくれというお客様の要望があって、このオプションができました。
しかし、ストリーム出力では、出力先ディレクトリという概念そのものがありません。といって、このオプションは、システムのデフォルトのディレクトリは使わないという意図で設けられたオプションです。仕方がないので、ストリーム主力でこのオプションが指定された場合は、TextPorterは、入力ファイルと同じディレクトリに一時ファイルを作ります。
さて、セキュリティ意識の高まりに伴って、運用者は、サーバ上で、ファイルを書き込めるディレクトリを、厳しく制限するようになってきました。入力ファイルは、入力なので書き込むことはないという仮定で、入力ファイルがあるディレクトリを書込み禁止に、TextPorterの出力をストリーム、かつ、このオプションを付けるとどうなるでしょうか。
TextPorterの動作は、不定。すなわち、どうなるかわからないというのが仕様です。
入力ファイルがある場所に一時ファイルを作ろうと思っても、書込み禁止なので、処理できないのです。
一番簡単な対処法は、DMC_GETTEXT_OPT1_TEMPを使わないことです。そうすれば、誰でも書き込みが保証されているシステムのデフォルトに一時ファイルを作ります。
もし、DMC_GETTEXT_OPT1_TEMPを使い、かつ、ストリーム出力を使うときは、入力ファイルのあるディレクトリを書込み禁止にしないように、運用側で、注意してください。
TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
評価版もご用意しております。
https://www.antenna.co.jp/axx/trial.html
TextPorter 評価版のお申し込み
から、お申し込みください。
アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
詳しくは、
アンテナハウス システム製品技術相談会
をご覧の上、お申し込みください。
「自在眼11SDK」「TextPorter」のご紹介
「自在眼11SDK」を紹介させて頂きます。
「MultiViewer SDK for 自在眼11 (自在眼11 SDK)」は、弊社パッケージ製品「マルチ・ファイルユーティリティ自在眼」のビューア機能を、様々なWindowsアプリケーションに組み込んでご利用いただくための開発キットです。
様々な形式のファイルや画像を、アプリケーションを必要とせず、表示・印刷することができます。セキュリティの面から広く利用されております。
また、各種ファイルを画像に変換することが出来ます。
表示対応フォーマット形式および画像に変換時の指定できる画像フォーマットにつきましては、下記をご参照下さい。
https://www.antenna.co.jp/oem/JanSDK/JanSDKFormat.html
シンクライアント環境: VMware、Hyper-Vにも対応しております。
評価版を用意しておりますので、その旨ご連絡、頂きますようお願い致します。
お待ちしております。
「TextPorter」を紹介させて頂きます。
「TextPorter」は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
テキストマイニング、全文検索などを行うシステムで、インデックス作成などに利用されております。
言語対応は、日本語、英語、中国語(繁体語、簡体語)、国際標準(UTF8、UTF-16、UCS-2、UCS-4)をサポートしております。
64bitネイティブライブラリの対応
TextPorterは64bitのライブラリも用意しております。TextPorterの64bit版は、2006年からWindows64bit版の販売を開始しております。
32bitのライブラリでも64bit環境で使用できますが、TextPorterを組み込む上位アプリケーションが64bit化する場合は、ライブラリも64bit版を使用しないと動作できません。
CPU版、OEMライセンス(再配布可能ライセンス)版共に、プラットフォーム追加のご契約で64bit版を追加することができます。
下記をご参照下さい。
https://www.antenna.co.jp/axx/
評価版は以下よりダウンロードが出来ます。
https://www.antenna.co.jp/axx/trial.html
お問合せは、oem@antenna.co.jpにて承ります。