タグ別アーカイブ: テキスト抽出

「TextPorter V5.4」にて「DocuWorks V9」の抽出について

テキスト抽出ライブラリ「TextPorter V5.4」にて「DocuWorks V9」のファイルが抽出できるか検証しました。

以下の「DocuWorks V9」の新機能にある「フォントの埋め込み」を除く、 その他テキスト抽出に関連する機能に関して抽出できることを確認しました。

■テキスト抽出に関連する「DocuWorks V9」の新機能

  • ハイライト
  • ページの回転
  • フォントの埋め込み

■「TextPorter V5.4」の「DocuWorks V9」抽出時の制限

  • フォントの埋め込みされたデータをテキスト抽出すると、ERR0R 3003 “抽出可能な文字がありません。”となります。
    ※次期バージョンで対応を検討とさせていただきます。
  • 「DocuWorks V9」ファイルの判別は、”DocuWorks v7″ と判別されます。

TextPorterトップページ


『PDF Tool API V6.0』の機能紹介

PDF Tool API V6.0 では、コマンドライン版と、ライブラリ版の2タイプがあります。

PDFの分割、結合、セキュリティ設定など基本的な機能は、コマンドライン版で行うことができますが、より高度な操作をさせたい場合は、ライブラリ版にて実現可能です。

ライブラリ版は、C++、.NET、Java の各言語に対応しています。

V6.0では、テキストの検索、任意の範囲内のテキストを抽出することが可能です。
また、フォントが埋め込まれていないPDFにフォントを埋め込むことや、結合したPDFの重複したフォント情報をまとめる機能があります。

ライブラリの特徴

用途別にPDF Tool API を使った PDF CookBook を公開中。
企業向けシステムの企画・営業担当者から開発者まで幅広い層にPDFの活用法を知っていただけるような構成になっています。
PDFの加工にご興味がありましたら、是非ご参照ください。


PDF の編集・加工・再利用に使える『PDF Tool API 』

『PDF Tool API』は、PDF の加工・編集に特化したライブラリです。
最新バージョンでは、PDF 内にある文字列の位置情報を取得することにより、特定の文字列の位置でページを分割したり、特定の文字列が含まれているページのみ抜き出したりすることが可能です。
10月29日に開催する『アンテナハウス PDF活用レシピ ~PDFの美味しいクッキング教室~ 』の第一部で『PDF Tool API』の活用テクニックと、実際に導入頂いている事例をご紹介をさせていただきます。

◆◆『アンテナハウス PDF活用レシピ ~PDFの美味しいクッキング教室~ 』10/29開催!!◆◆

◆ 開催概要
―――――――――――――――――――――――――――――――――――
■ 開催日時: 2018年10月29日(月)13:00~17:00
■ 会場: 東京都新宿区百人町2-27-6 関東ITソフトウェア健保会館
■ アクセス: https://www.its-kenpo.or.jp/fuzoku/kaigi/ookubo.html#syozai
■ 詳細・お申込URL: https://www.kokuchpro.com/event/pdf_full/

◆ 講演内容
―――――――――――――――――――――――――――――――――――
■ 第一部
□ 13:20~15:00 PDFの編集・加工・再利用について、今後注目のノウハウを伝授
■ 第二部
□ 15:15~16:05 サーバーサイドのOffice文書変換にMS-Officeは必要なし!な、ライブラリの決定版「Office Server Document Converter」のご紹介
■ 第三部
□ 16:10~16:30 世界的に高評価を頂いている自動組版エンジンの最高峰!「AH Formatter」 サーバー上で大量のPDFを自動一括印刷する方法をご紹介!

まだお席に余裕がございますので、PDF の加工にご興味のある方は、是非この機会にご参加ください。


『PDF Tool API V6.0』 の機能紹介

PDF Tool API V6.0 では、コマンドライン版と、ライブラリ版の 2 タイプをご用意致します。

PDF の分割、結合、セキュリティ設定など基本的な機能は、コマンドライン版で行うことができますが、より高度な操作をさせたい場合は、ライブラリ版にて実現可能です。

ライブラリ版では、テキスト取得機能が強化されます。
矩形内の文字列を取得する機能、文字列検索機能など、これまで同様の処理を行う場合は、PDF Viewer SDK を使用しなければできませんでしたが、PDF Tool API V6.0 のみで可能になります。
文字列検索機能の実装により、PDF に書かれている文字列にて PDF を自動仕訳するような用途にご利用頂けます。

その他、フォントの埋め込み機能など、これまで出来なかった機能を『PDF Tool API V6.0』で対応致します。

ライブラリの概要

PDF の活用に関しては、製品ナビゲータ  を公開しております。
こちらに掲載が無い活用方法などございましたら弊社までお気軽にご相談ください。


TextPorter におまかせ その3

■ 全文検索の結果はテキスト情報だけではなく、元の文書も閲覧したいのですが、ファイル形式がバラバラでして。

『TextPorter』 は、さまざまなアプリケーションのファイルから、作成したアプリケーションがなくてもテキストを抽出することができます。
その抽出したテキストを、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せるのです。

と、ドヤ顔で言ってはみましたが、確かに作成されている文書はテキスト情報だけではありません。挿絵の画像やグラフ・表は、文書の附帯情報として必須のものです。
やはり元の情報を過不足無く閲覧できるのがベストですね。
(次第に声が小さくなっていく)

テキスト以外の情報を切り出して再配置する。できないことはありませんが、手間が掛かる。
元ファイルをそのままリンクしても、各アプリケーションが無いと開けません。
ファイルを丸ごと画像や PDF に変換するにしても、やはり作成元のアプリケーションが必要。
アプリケーションに依存せずにテキストを抽出したのだから、閲覧ファイルも同じように作れたら・・・

「となると、やっぱり あれ の出番ですね」

『Office Server Document Converter(OSDC) にお任せください!』

Office Server Document Converter は、作成元のアプリケーションもプリンタドライバも必要とせずにドキュメントを変換できます。

Office Server Document Converter によって、文書からサムネイル画像を生成することで、全文検索システムで検索した文書の見分けも簡単にできるようになります。
目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。
また、検索結果と PDF をリンクすることで、元の文書の情報を過不足無く閲覧することができます。

システムのイメージは、
Office Server Document Converter 活用例にある
サムネイルサーバ
を発展させたものです。

『アンテナハウス にお任せください!』

Office Server Document Converter に関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。

<< TextPorter におまかせ その2


TextPorter におまかせ その2

■ 社内の文書ファイルをアーカイブとして利用したいのですが、どうすればよいでしょうか?

とある展示会場で、弊社ブース前でチラシを手に取る来場客に「お声掛け」をした際の返答でした。

「検索システムを作成してはどうですか。うちでは扱っていませんが・・・・」
えーっと、これでは話が終わってしまう。無理矢理こちらの土俵に引き込まなくては。

「データを XML 化すればですね、検索結果を web で閲覧できるし、任意のレイアウトで組版して再配布も・・・・」
いかん、「XML」と「組版」の時点で遠い目になってしまっている。

「XML 構造の設計と XSLT の開発は当方で請負いますが、タグ付けの作業は・・・」
逆効果じゃないか、非日常空間から呼び戻さなくては。

「そのためには、テキストの抽出が必要になります。」
お、やっと言葉が通じたか。

「文書ファイルからテキスト情報を抽出する機能は,検索システムや文書管理システムには必須機能です。TextPorter は、さまざまなアプリケーションのファイルからテキストを抽出する、サーバ組込用テキスト抽出エンジンです。」
突然、カタログ的説明口調になっている。

「TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せます。」
XML の件は無かったことにしました。

『TextPorter にお任せください!!』

その後、この話がどう展開したか。それは、また別のお話し。

「TextPorter」 は、次のようなシステム、または汎用製品に組み込まれており採用実績があります。

  • 文書管理ソフトウェア製品に組み込み
  • 全文検索エンジンと共にグループウェアに組み込み
  • 企業内文書管理システムに組み込み
  • 電子メール・サーバ製品に組み込み
  • インターネット情報検索アプリケーションに組み込み
  • イントラネット・テキスト・マイニング・サーバに組み込み
  • セキュリティ管理製品に組み込み

Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。

対応しているファイル形式は、 「抽出対象ファイル形式」https://www.antenna.co.jp/axx/function02.html
をご覧ください。

「TextPorter」に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

<< TextPorter におまかせ その1           TextPorter におまかせ その3 >>


TextPorter におまかせ その1

■ 様々な文書ファイルからテキスト部分を抽出できる製品はありますか?

重要文書が突然消えたかと思うとひょっこり現れたりと、ドキュメントの「神隠し」が横行しているからというわけではないでしょうが、紙文書の電子化で業務の効率化と省スペース化するサービス、まだまだ需要は尽きないようです。

「今頃紙の電子化なんて」と思われた方、文書が全て電子化できているからと安心してはいませんか。
では、過去に作成された大量のドキュメント・ファイル、どのように活用していますか。
多種多様なアプリケーション、異なるバージョンでファイル形式の百花繚乱!
いざドキュメントを開こうとしてもアプリが見つからず、サーバの中で塩漬けになっていては、紙文書を倉庫に積み上げているのと変わりません。

~ドキュメント、役に立たなきゃただのゴミ~

  1. 各種アプリケーションのデータを、編集可能な形式にコンバート
  2. 各種アプリケーションのデータを、一括でPDFや画像に変換
  3. PDFから各種アプリケーションソフトのデータにコンバート

レガシーデータの再利用には様々な方法があります。
いずれの場合も、アンテナハウスの製品を利用すれば簡単に実現できますが、今回は書面の再現・再利用ではなく、ドキュメントからテキストを抽出する方法をご提案します。

体裁ではなく中身(テキスト)が重要!
データベース化し、手軽に検索して閲覧するのが目的ならば、大量のファイルから高速にテキストを抽出できる方法が鍵になりますね。
しかし、多種多様なファイル形式とバージョンが混在していて、ファイル形式別に仕分けするのは至難の業・・・

『TextPorter にお任せください!!』

「TextPorter」 は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。
対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。昔懐かしい(年代が知れます)各種ワープロ文書にも対応しています。

「TextPorter」 は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

「TextPorter」 に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

TextPorter におまかせ その2 >>


Office Server Document Converter(Server Based Converter含む) 及び TextPorter のメンテナンスリリースについて

Office Server Document Converter(Server Based Converter 含む)及び TextPorter のメンテナンスリリースについて紹介させていただきます。
各製品をお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース (MR) を配布しております。

ご提供間隔としては、

  •  最新版につきましては、おおよそ4ヵ月に1回、年3回を目安とした配布
  •  最新版以外のバージョンにつきましては、バグ修正の状況に合わせ、おおよそ半年または1年に1回を目安とした配布

としております。何卒、ご活用ください。

<Office Server Document Converter(Server Based Converter 含む)>

2018/3/12 に Office Server Document Converter V6.1 MR2 と Server Based Converter V6.0 MR5 をリリースいたしました。旧バージョン(SBC5.2MR10、V5.0MR11、V4.0MR12)は、3/19から3/27順次リリースいたしました。
なお、V4.0はMR12が最終版となります。

改定情報は、以下をご参照ください。

■ 次回改訂版リリース予定
2018/7/10にOffice Server Document Converter V6.1 MR3 と Server Based Converter V6.0 MR6をリリースいたします。
旧バージョンの改訂版は、年末リリースを予定しています。

各バージョンの保守期限に関しては、保守期限のページ にてご確認ください。

Office Server Document Converter(Server Based Converter 含む)は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter(Server Based Converter含む)は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

OSDCに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/sbc/trial.html
から、お申し込みください。

<TextPorter>

■ 次回改訂版リリース予定
2018年6月中に V5.4MR4 のリリースを予定しております。
前回(V5.4MR3)までの改訂内容に関しては、こちら をご参照ください。TextPorter は、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDF など様々なアプリケーションのファイルから文字列を抜き出します。
TextPorter は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

TextPorterに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

◎「製品ナビゲータ」好評公開中!
お客様が「やりたいこと」「したいこと」から弊社のシステムコンポーネント製品を探していただく「製品ナビゲータ」を設置しました。計画中のプロジェクトにマッチした製品をお探しならば、是非ともページ上部のバナーをクリックして下さい。
もし該当する製品が無かった場合は、お気軽に弊社システム 営業グループ宛 (sis@antenna.co.jp) にお問い合わせ下さい。


PDF Viewer SDK V3.5 をリリースしました。

『Antenna House PDF Viewer SDK V3.5』をリリース。
PDF ページのテキストやパス情報の取得、PDF ページの SVG ファイルへの変換などさまざまな機能を追加しました。

『Antenna House PDF Viewer SDK V3.5』では以下の新機能を追加しております。

  • PDFViewerAPI
    PDF ページの指定範囲について、

⦁  パス情報を取得( 直線やベジェ曲線の座標、ストローク/フィル等描画の種類 )
⦁  文字情報を取得( 文字の矩形領域・フォントサイズ・フォント名等 )

  • PDFViewerCtrl

⦁  PDF ページの指定範囲を SVG ファイルに変換
⦁  PDF ページの指定範囲の文字情報を取得( 文字の矩形領域・フォントサイズ・フォント名等 )
⦁  PDF 表示において綴じ方の指定
⦁  ユーザーが指定したテキストをハイライト。ハイライト色の変更も可能
⦁  PDFPageViewCtrl のカーソル制御を抑止して、独自のカーソルの設定が可能
⦁  サムネイルコントロールで右クリックメニューのカスタマイズが可能

ここでは、新機能の一部についてご紹介します。他の新機能について下記のページで詳しく説明しておりますので、ぜひこちらもご覧ください。
https://www.antenna.co.jp/oem/ViewerSDK/function_V35.html

文字情報の取得


文字の情報を取得する例です。文字の矩形を取得して赤い枠で表示しています。

PDFViewrAPI

PDF ページの指定範囲を SVG ファイルへ変換


指定した範囲を SVG ファイルに変換する例です。見開きにわたって範囲指定します。

PDFViewrCtrl

 

指定範囲を SVG 出力した結果を Edge で表示しています。

PDFViewerCtrl Edge

『Antenna House PDF Viewer SDK V3.5』は、独自の PDF リーダーの開発に利用できる Windows 向けの SDK です。PDF の表示や画像ファイルへの変換に加えて、プログラムからの自動印刷や、テキスト抽出にも利用できます。

また、注釈やページ移動など PDF 編集ができる GUI コントロールを提供しております。コントロールを組み込むことで簡単に PDF の表示・編集機能をお客様のアプリケーションに追加できます。開発には、アクロバットやアドビリーダーは必要ありません!

詳しい機能についてぜひ製品ページをご覧ください。
製品ページ:
https://www.antenna.co.jp/oem/ViewerSDK/

評価版をご用意しております。ぜひこの機会にお試しください!
評価版のお申し込み:
https://www.antenna.co.jp/oem/ViewerSDK/trial.html

お問い合わせ:
SDKは OEM販売 となります。OEMご相談窓口 へお問い合わせください。


高速なPDF表示を実現!『Antenna House PDF Viewer SDK SP版』

11月20日より 『 Antenna House PDF Viewer SDK SP版 』 V1.1 の評価版の配布を開始いたしました。

『 Antenna House PDF Viewer SDK SP版 』 は、Windows 上の .Net Framework  に対応したアプリケーションへの PDF 表示機能を組み込みや、PDF ファイルの画像ファイルへの変換や印刷に利用することができます。高速な PDF レンダリングにより、スムーズな画面表示や、画像出力や印刷時間の短縮が見込めます。

今回のV1.1 版では、下記の機能を含む多数の API を追加しております。

  • テキスト検索
  • テキスト抽出
  • しおり、リンク注釈、アクション

また、添付しているサンプルビューアーにて実際の動作や、そのソースコードで API の利用方法をご確認いただくことができます。

テキスト検索
PDFViewer kensaku

テキスト抽出
PDFViewer tyusyutu

しおり

PDFViewer shiori
今後も、機能も充実していく予定のですので、ぜひご期待ください。

詳しい製品情報や評価版の申し込みについて、下記のページをご覧ください。

製品ページ:
https://www.antenna.co.jp/oem/ViewerSDK/sp_edition.html
評価版のお申し込み、お問合せ:
https://www.antenna.co.jp/oem/ViewerSDK/sp_edition.html#pagelink04


Pages: 1 2 Next