タグ別アーカイブ: PDF再利用

『Antenna House AHPDFXML 変換ライブラリ』のコマンドライン

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

『Antenna House AHPDFXML 変換ライブラリ』には、コマンドライン版アプリケーションが付属しています。
今回は”AHPDFXMLCmd.exe”について書いてみたいと思います。

標準の引数は次の通りです。

  • -i PDFファイル
    入力PDFファイルのパスを指定します。(必須)
  • -password パスワード
    入力PDFにパスワードが設定されている場合、この引数で指定します。
  • -o 出力先フォルダ
    AHPDFXML形式を出力するフォルダのパスを指定します。(必須)
    保存するしおり外部ファイルの形式を指定します。

      このフォルダには、カタログXML, ドキュメントXML, スタイルXML, アウトラインXML, 画像ファイルなどが出力されます。
  • -p 接頭子
    AHPDFXML形式ファイルの接頭子を指定します。(必須)
  • -start 開始ページ
    変換対象とする、開始ページを指定します。
    省略された場合や 0以下の場合は、先頭ページからとみなされます。
  • -end 終了ページ
    変換対象とする、終了ページを指定します。
    省略された場合や実際のページ数より大きい場合は最終ページまでとみなされます。

変換オプションの引数(一部)は次の通りです。

  • -piece
    文字情報(ahp:run)を、1文字単位で出力します。
    文字単位でレイアウト座標を得たい場合などで使用します。
  • -cid
    文字情報(ahp:run)の要素に、PDFのキャラクタIDを出力します。
  • -notable
    表の解析を行いません。表情報(ahp:table)も出力されません。
  • -emf
    線画をEMFに変換します。
    複数の線画をまとめられる場合は、まとめてPNGに変換します。
    PDFのページ中に表が存在する場合などは、まとめてPNGに変換することはしません。
    この条件が設定されていない場合は、線画はSVG形式に変換されます。

呼び出し例は次の通りです。

  • AHPDFXMLCmd.exe -i input.pdf -o output -p pdfxml -piece
    • -i input.pdf : input.pdf を読み込みます。
    • -o output : AHPDFXML形式を output フォルダ下へ書き出します。
    • -p hoge : 書き出されるファイルの接頭子です。
    • -piece : 文字情報を1文字単位で出力します。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


『Antenna House AHPDFXML 変換ライブラリ』のご紹介

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。

  • セクション要素
    セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
    セクション要素は、フレーム要素を含みます。
    段組み数は、テキストフレーム要素の配置から判断します。
  • フレーム要素
    フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
    フレーム種別には、テキスト、表、画像、テキストボックスがあります。
    テキストフレームは段落要素を含みます。
    画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。
  • 段落要素
    段落要素の属性は矩形範囲、段落スタイルIDです。
    段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
    段落要素は、行要素を含みます。
    包含する行要素の開始位置、終了位置から、段落要素を生成しています。
  • 行要素
    行要素の属性は矩形範囲です。
    行要素はテキスト要素を含みます。
    包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。
  • テキスト要素
    テキスト要素の属性は、矩形範囲と文字スタイルIDです。
    文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。
  • 表要素
    表要素の属性は、矩形情報です。
    表要素は、表の行要素を含みます。
  • 表の行要素
    表の行要素の属性は、矩形情報です。
    表の行要素は、セル要素を含みます。
  • セル要素
    セル要素の属性は、矩形情報とスタイルIDです。
    セル要素は、段落要素を含みます。
    PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


PDFの組み込み用SDK『Antenna House PDF Viewer SDK V4.0』

弊社では、独自のPDFリーダーの開発に利用できる Windows 向けの SDK を販売しております。

V4.0では、お客様のご質問の多い、印刷、画像化、多言語からの呼び出し、特定の領域の取得についてサンプルを追加しました。

追加サンプル
PDF Viewer API

  • PDF ファイル印刷のサンプル
  • PDF ファイル画像化のサンプル
  • PDF Viewer API を C#言語から利用するサンプル
  • PDF Viewer API を VB.Net 言語から利用するサンプル
  • 指定文字列を検索し矩形位置を取得するサンプル
  • 指定した矩形領域内のテキストを取得するサンプル

PDF Viewer Ctrl

  • PDF Viewer Ctrl をVB.Net 言語から利用するサンプル
  • PDF Viewer Ctrl を WPF 上で利用するC#言語のサンプル

指定した矩形領域内のテキストを取得する機能は、 PDFすべてのテキスト抽出と異なり、ピンポイントで指定した特定領域 のテキストを抜き出すことができます。
この機能を使うと、フォーマットが決まっているPDFデータをバッチ処理で自動仕分けすることができます。(例:書類ナンバーで仕分けを行う等)

PDF Viewer SDK は、PDFを表示する目的以外にも幅広くご利用頂いております。

評価版のお申込
評価版のお申込ページ


Antenna House PDFXML ライブラリ V3.0』鋭意開発中

『Antenna House PDFXML ライブラリ』は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

公開バージョンは『Antenna House PDFXML ライブラリ V2.0 MR2』2018年6月28日リリースです。
次期バージョンは『Antenna House PDFXML ライブラリ V3.0』です。リリース時期は2019年2月中となっております。
旧バージョンと比較して、表などの解析精度が大幅に改善しています。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


PDFを再利用する。

PDFが登場してからほぼ4半世紀経過しました。PDFはもともと紙に印刷していたレイアウトのデジタル版として電子的に共有・閲覧するために開発されたものです。しかし、4半世紀経過し、PDFが日常的に使われるようになるとともに、PDFとして作成されたデータを再利用したいというニーズがどんどん増えています。

本日はPDFのデータ再利用の形態別に、弊社でご提供しておりますツール類をご紹介致します。

テキストを再利用
PDFの再利用の基本は、文字をテキストファイルとして取り出したいという用途でしょう。シンプルなレイアウトのものとしては契約書などの文字だけの文書があります。複雑なレイアウトのものとしては新聞の紙面、雑誌の誌面として作成されたPDFから文字を取り出したいというニーズがあります。

PDFの閲覧ソフトは画面に表示された文字を選択してコピーする機能がありますので、これを使うと簡単にできそうです。しかし、実際にやってみますとなかなか思い通りにはなりません。

これについては、なぜ思い通りにはならないかを整理してPDF資料室に用意しております。

簡単そうで簡単ではないPDFのテキスト抽出

HTMLにして再利用
また、ときどきお問い合わせをいただくのはPDFの内容をWebページ(HTML)にしたい、というニーズです。この場合の難易度はWebページの仕組みをどうするかに掛かってきます。この仕組みを大きく分類しますと、Webページの内容をHTMLで直接マークアップするか、それとも、コンテンツ管理システム(CMS)にデータを登録して、WebページをCMSで生成するかになりそうです。CMSを使う場合は、PDFからテキストと画像を取り出すことになります。PDFの内容をHTMLにして利用したいというときはPDFの内容をどのように構造化するか、という課題が付け加えられます。なお、HTMLはWebページだけではなく、社内でのデータ蓄積・分析のために使われることも多いようです。

PDFをHTML変換するツールは世の中に幾つかあります。しかし、HTMLファイルとしてからの利用形態や利用目的が多様なため、市販のツールは帯に短し襷に長しという状態になってしまうことがあるようです。

アンテナハウスでは、残念ながら、現在PDFからHTML変換ツールは用意しておりません。但し、PDFをXML形式に変換するツールとしてAHPDFXMLを提供しています。

AHPDFXML:PDFの内部のテキスト、表、図をXML形式に変換!

AHPDFXMLの特長はPDFの表を認識して、表としてマークアップして出力できることです。こうした特長を評価して採用していただいているケースがあります。

PDFの画像を取り出して再利用
PDFに入っている画像を再利用するのは簡単です。

例えば、『瞬簡PDF変換』では、PDFの中にある画像をファイルとして取り出せます(次の図)。

『瞬簡PDF変換』

PDFから画像を取り出す機能をシステムに組み込んで利用するのはPDF Tool APIをお使いいただけます。

PDF Tool API
PDF CookBook V3:2.1 画像抽出

PDFの一部を線画で切り出して再利用
PDFの一部を線画(SVG)の形式で切り出して再利用もできます。

PDF Viewer SDKには、画面で選択した範囲を線画として切り出す機能があります。

PDF Viewer SDK

PDF Viewer SDKの線画切り出し機能と同じですが、PDF加工画像化ツールもあります。こちらはもう少し高機能で数式などを選択してSVG画像化もできます。

PDFからSVGを切り取りできる PDF加工画像化ツール

お問い合わせは
こうしたツール類の他に、お客様のご要望に応じてカスタム開発なども承っております。なにかお困りのことがございましたら、ぜひご相談ください。

お問い合わせ


PDFの組み込み用SDK『Antenna House PDF Viewer SDK V3.5』

弊社では、独自のPDFリーダーの開発に利用できる Windows 向けの SDK を販売しております。

PDFの表示以外にも PDFの表示イメージから指定した矩形範囲内をSVG保存すること や、画像保存、テキスト抽出など、PDFデータの再利用にもご使用いただけます。
その他、Acrobatを使用せずにPDFを印刷したい場合にもご利用いただけます。

是非、評価版にてお試しください。

評価版のお申込
評価版のお申込ページ


『瞬簡PDF 編集 8』が第31回Vectorプロレジ大賞 PDF 部門賞にノミネート!

第31回ベクタープロレジ大賞投票スタート

プロレジ大賞ノミネートのお知らせ

昨年の『瞬簡PDF 変換 10』に引き続き、ご好評いただいておりますPDF編集ソフト『瞬簡PDF 編集 8』が、「第31回 Vector プロレジ大賞」の「PDF 部門」にノミネートされました。
皆様からのご愛顧の賜物と、心より感謝を申し上げます。
投票は1月31日(木)15:00 まで受け付けしております。ぜひ『瞬簡PDF 編集 8』にご投票いただければ幸いです。
投票はこちらから

なお、1月17日(木)15:00~2月7日(木)15:00の期間、Vectorにてダウンロード製品の特価販売も実施していますので、この機会をお見逃しなく!

『瞬簡PDF 編集 8』について

『瞬簡PDF 編集 8』はページのイメージを確認しながら簡単にPDFの結合やページ組み換えができる、PDF編集ソフトウェアです。また、PDFの本文テキストや画像の直接編集、しおりや注釈の追加・編集、PDFのトリミング、墨消し機能など、本格的なPDF編集ができます。

新バージョンでは複数のファイルの一括編集や、PDFに閲覧制限を設定できるようになりました。

⇒ 『瞬簡PDF 編集 8』の製品ページ


『瞬簡PDF 変換 10 改訂版』のお知らせ

朝晩の冷え込みが戻ってきました。
先週は気持ち悪いくらい気温が高くて、北海道では初雪もまだ観測されていないと聞きました。
今年は異例ずくめの天候ばかりですが、これでようやく?通常の季節感になりホッとしています。

さて、弊社のPDF変換ユーティリティ『瞬簡PDF 変換 10』は現在、改訂版を製品のWebサイトで公開しております。

『瞬簡PDF 変換 10』(Ver.10.0.2)

今回の改訂版は、先週トレンドマイクロ社の「ウイルスバスター クラウド」で『瞬簡PDF 変換 10』がランサムウェアと誤認識される現象が報告されたことに対応し、急遽準備したものです。

ランサムウェアと誤認識される

ウィルスチェックプログラムでアプリケーションの動作がウィルスと誤認識されたり、インストール時にファイルが誤検知されて削除されるといった現象はこれまでもいくつか弊社サポートに報告がされています。
その都度、ウィルスチェックプログラムを一時的に止めてもらうなどでお客様に対応をお願いしてきましたが、今回はアプリケーション側でも回避可能なことが判明したため、改訂版として公開しました。

「ウイルスバスター クラウド」に関しては、弊社「Antenna House PDF Driver」が出力したPDFファイルのウイルスチェックに時間がかかり、当該PDFファイルの処理に時間がかかる現象も報告されております。

緊急のお知らせ

こちらは「ウイルスバスター クラウド」の機能不具合に起因するものと判明し、現在トレンドマイクロ社からの修正版公開を待っている状況です。該当するお客様にはご迷惑をおかけして恐縮に存じますが、今しばらくお待ちいただけますようお願いいたします。

インターネットを通じて悪意あるウィルスが蔓延する昨今の事情を見ますと、ウィルスチェックプログラムは常備せざるを得ない生命保険のようなものですが、ソフトウェアである以上100%完全ということはなく、期待されるべきアプリケーションの使い勝手を阻害してしまう場合もあるのは悩ましいところです。
ソフトウェアの利用にはメリットもデメリットもあることを理解して、うまく折り合いをつけていくしかないのでしょうね。


「瞬簡PDF 変換 10」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつのPDFについて、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 10 体験版のお申し込み』をご参照ください。


『Antenna House PDF to Office 変換ライブラリ』 改訂版のお知らせ

本日は、コンバータ製品グループからの投稿です。

Antenna House PDF to Office 変換ライブラリ』は、弊社パッケージ製品『瞬簡PDF 変換 シリーズ』の高精度変換エンジン(PDF→Word/PDF→Excel/PDF→PowerPoint)を各種アプリケーションから利用するための組み込み専用ライブラリです。
今回、新たに改訂版(1.4.0)を公開しました。

改訂の主な目玉は、OCR機能(オプション)に使用するOCRエンジンの刷新です。
まったく新しいOCRエンジンの採用により、日本語・英語を含む約40の言語で使用される文字を認識できるようになりました。
OCR処理の対象データに使用されている言語種別を指定することで、日中韓はもちろん、ラテン系文字、ギリシャ文字、キリル文字をそれぞれ識別します。
文字を正しく識別することで、表組みや段組みなどの書式もより高精度に変換できるようになります。

対応する言語やライブラリの詳細は ライブラリの概要 から確認することができます。

本ライブラリの活用をご検討いただければ幸いです。


『Antenna House PDF to Office 変換ライブラリ』は、ソフトウェアの開発会社等が開発するPDFソリューション、ISV(独立系ソフトウェア・ベンダ)が開発するPDFアプリケーションに組み込んで再配布するためのOEMライセンスのみ販売しております。

価格は、組み込み条件等により異なります。
詳しくは、oem@antenna.co.jp までお問い合わせください。


アンテナハウス PDF活用レシピ ~PDF の美味しいクッキング教室~ 

PDFの活用方法を実際の利用例を参考にして セミナー を開催いたします。

セミナーでご紹介する製品は、以下の予定です。

PDF Tool API V6

「Antenna House PDF Tool API」(PDF Tool API)は、PDFファイルの情報取得やPDFファイルの加工・編集を行うライブラリです。

PDF Tool APIに関する詳しい情報は、PDF Tool APIページ を御覧ください。

PDF CookBookに関する詳しい情報は、PDF CookBookのご紹介 を御覧ください。

PDF Tool APIを組み込んだブラウザベースでPDFを編集するデモサイトをお公開しております。詳しくは、PDF Tool API デモ を御覧ください。

Office Server Document Converter

「Office Server Document Converterを」(OSDC)は、Microsoft Officeを使わずに、サーバー上でWord/Excel/PowerPoint/RTF/PDFを様々な形式にダイレクト変換するライブラリです。Windows環境のみならず、Linux環境でも高速に処理できます。

Office Server Document Converterに関する詳しい情報は、Office Server Document Converterページ を御覧ください。

AH Formatter

「AH Formatter」は、大容量・多言語データに最適な自動組版ソフトです。独自開発した PDF出力エンジンで、アクセシブルなタグ付きPDF や印刷用の PDF/X、長期保存用の PDF/A などさまざまな PDF形式の出力ができます。

AH Formatterに関する詳しい情報は、AH Formatterページ を御覧ください。

セミナー当日には、各製品担当者も会場入りしておりますので、別室で個別にご相談いただくことも可能です。
是非、ご参加ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : https://www.antenna.co.jp/


Pages: 1 2 3 Next