タグ別アーカイブ: 変換

『Antenna House AHPDFXML 変換ライブラリ』のコマンドライン

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

『Antenna House AHPDFXML 変換ライブラリ』には、コマンドライン版アプリケーションが付属しています。
今回は”AHPDFXMLCmd.exe”について書いてみたいと思います。

標準の引数は次の通りです。

  • -i PDFファイル
    入力PDFファイルのパスを指定します。(必須)
  • -password パスワード
    入力PDFにパスワードが設定されている場合、この引数で指定します。
  • -o 出力先フォルダ
    AHPDFXML形式を出力するフォルダのパスを指定します。(必須)
    保存するしおり外部ファイルの形式を指定します。

      このフォルダには、カタログXML, ドキュメントXML, スタイルXML, アウトラインXML, 画像ファイルなどが出力されます。
  • -p 接頭子
    AHPDFXML形式ファイルの接頭子を指定します。(必須)
  • -start 開始ページ
    変換対象とする、開始ページを指定します。
    省略された場合や 0以下の場合は、先頭ページからとみなされます。
  • -end 終了ページ
    変換対象とする、終了ページを指定します。
    省略された場合や実際のページ数より大きい場合は最終ページまでとみなされます。

変換オプションの引数(一部)は次の通りです。

  • -piece
    文字情報(ahp:run)を、1文字単位で出力します。
    文字単位でレイアウト座標を得たい場合などで使用します。
  • -cid
    文字情報(ahp:run)の要素に、PDFのキャラクタIDを出力します。
  • -notable
    表の解析を行いません。表情報(ahp:table)も出力されません。
  • -emf
    線画をEMFに変換します。
    複数の線画をまとめられる場合は、まとめてPNGに変換します。
    PDFのページ中に表が存在する場合などは、まとめてPNGに変換することはしません。
    この条件が設定されていない場合は、線画はSVG形式に変換されます。

呼び出し例は次の通りです。

  • AHPDFXMLCmd.exe -i input.pdf -o output -p pdfxml -piece
    • -i input.pdf : input.pdf を読み込みます。
    • -o output : AHPDFXML形式を output フォルダ下へ書き出します。
    • -p hoge : 書き出されるファイルの接頭子です。
    • -piece : 文字情報を1文字単位で出力します。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/



『Antenna House AHPDFXML 変換ライブラリ』のご紹介

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。

  • セクション要素
    セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
    セクション要素は、フレーム要素を含みます。
    段組み数は、テキストフレーム要素の配置から判断します。
  • フレーム要素
    フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
    フレーム種別には、テキスト、表、画像、テキストボックスがあります。
    テキストフレームは段落要素を含みます。
    画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。
  • 段落要素
    段落要素の属性は矩形範囲、段落スタイルIDです。
    段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
    段落要素は、行要素を含みます。
    包含する行要素の開始位置、終了位置から、段落要素を生成しています。
  • 行要素
    行要素の属性は矩形範囲です。
    行要素はテキスト要素を含みます。
    包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。
  • テキスト要素
    テキスト要素の属性は、矩形範囲と文字スタイルIDです。
    文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。
  • 表要素
    表要素の属性は、矩形情報です。
    表要素は、表の行要素を含みます。
  • 表の行要素
    表の行要素の属性は、矩形情報です。
    表の行要素は、セル要素を含みます。
  • セル要素
    セル要素の属性は、矩形情報とスタイルIDです。
    セル要素は、段落要素を含みます。
    PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/



Antenna House PDFXML ライブラリ V3.0』鋭意開発中

『Antenna House PDFXML ライブラリ』は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

公開バージョンは『Antenna House PDFXML ライブラリ V2.0 MR2』2018年6月28日リリースです。
次期バージョンは『Antenna House PDFXML ライブラリ V3.0』です。リリース時期は2019年2月中となっております。
旧バージョンと比較して、表などの解析精度が大幅に改善しています。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


『Antenna House PDF Tool API』(PDF Tool API)をブラウザから呼び出して利用するデモ (2)

『Antenna House PDF Tool API』(PDF Tool API)は、PDFファイルの情報取得やPDFファイルの加工・編集を行うライブラリです。
PDFに関するさまざまな処理機能を搭載しています。
文書情報やページ数などの情報取得、ページの挿入や削除、透かしの挿入、セキュリティ設定などのファイル加工、ページコンテンツのテキストや画像の削除、画像の最適化(ダウンサンプリング)といったページ編集処理が可能です。

2018年 5月 9日から 3日間の日程で開催される「第 27 回ソフトウェア&アプリ開発展」(通称 SODEC ) にアンテナハウスは今年も出展致します。
この中で、『Antenna House PDF Tool API』(PDF Tool API)をブラウザから呼び出して利用するデモを展示しております。
サーバ側には、サーブレット・コンテナ(Tomcat)、PDF Tool API の Linux(64bit)版一式をインストールしてあります。
クライアント側は、ブラウザとなります。

処理モード

テキスト取得、テキスト追加、イメージ追加、墨消し追加の4つのモードから選択できます。
マウスをドラッグして、矩形を設定します。処理モード応じた領域が画面上に追加されます。
追加された領域は、拡大・縮小や移動が可能です。
追加された領域は、フォーカスを与えると、ツールバーが表示されます。ツールバーを使って設定が変更できます。

テキスト追加

テキスト追加で配置した領域は、テキスト、注釈、透かしとして設定できます。
配置した領域にフォーカスを設定すると、ツールバーが表示されます。このツールバーの左から2番目のコンボボックスで変更します。
設定画面のスクリーンショットと、設定を反映したPDFのスクリーンショットです。

  • テキストとして設定

    pdftoolt11PDF Tool API PtlParamWriteString, PtlContent.writeString を使用します。

    保存したPDFのプレビュー

    pdftoolt12

  • 注釈として設定

    pdftoolt21PDF Tool API PtlAnnotText, PtlAnnotPopup, PtlAnnots.append を使用します。

    保存したPDFのプレビュー

    pdftoolt22

  • 透かしとして設定

    pdftoolt31
    PDF Tool API PtlParamWaterMarkText, PtlPDFDocument.appendWaterMark を使用します。

    保存したPDFのプレビュー

    pdftoolt32

イメージ追加

イメージ追加で配置した領域は、イメージ、注釈、透かしとして設定できます。
配置した領域にフォーカスを設定すると、ツールバーが表示されます。このツールバーの左から2番目のコンボボックスで変更します。
設定画面のスクリーンショットと、設定を反映したPDFのスクリーンショットです。

  • イメージとして設定

    pdftooli11
    PDF Tool API PtlParamDrawImage, PtlContent.drawImage を使用します。

    保存したPDFのプレビュー

    pdftooli12

  • 注釈として設定

    pdftooli21

    PDF Tool API PtlParamDrawImage, PtlAnnotStamp, PtlAnnots.append を使用します。

    保存したPDFのプレビュー

    pdftooli22

  • 透かしとして設定

    pdftooli31
    PDF Tool API PtlParamWaterMarkImage, PtlPDFDocument.appendWaterMark を使用します。

    保存したPDFのプレビュー

    pdftooli32

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/ptl/


『Antenna House PDF Tool API』(PDF Tool API)をブラウザから呼び出して利用するデモ (1)

『Antenna House PDF Tool API』(PDF Tool API)は、PDFファイルの情報取得やPDFファイルの加工・編集を行うライブラリです。PDFに関するさまざまな処理機能を搭載しています。
文書情報やページ数などの情報取得、ページの挿入や削除、透かしの挿入、セキュリティ設定などのファイル加工、ページコンテンツのテキストや画像の削除、画像の最適化(ダウンサンプリング)といったページ編集処理が可能です。

2018年 5月 9日から 3日間の日程で開催される「第 27 回ソフトウェア&アプリ開発展」(通称 SODEC ) にアンテナハウスは今年も出展致します。
この中で、『Antenna House PDF Tool API』(PDF Tool API)をブラウザから呼び出して利用するデモを展示しております。
サーバ側には、サーブレット・コンテナ(Tomcat)、PDF Tool API の Linux(64bit)版一式をインストールしてあります。
クライアント側は、ブラウザとなります。

トップ画面

pdftool

サイドバー

  • [PDFを選択]

    PDFファイルをサーバへアップロードした後、ページの内容を表示します。

  • [out] [in]

    表示倍率を変更します。

  • [prev] [next]

    表示ページを変更します。

  • 処理モード

    テキスト取得、テキスト追加、イメージ追加、墨消し追加の4つのモードから選択できます。

  • [PDFを保存]

    アップロードしたPDFと、編集内容から、PDF Tool API を使用して、新しくPDFを生成します。生成後にPDFのダウンロードとなります。

処理モード

テキスト取得、テキスト追加、イメージ追加、墨消し追加の4つのモードから選択できます。
マウスをドラッグして、矩形を設定します。処理モード応じた領域が画面上に追加されます。
追加された領域は、拡大・縮小や移動が可能です。
追加された領域は、フォーカスを与えると、ツールバーが表示されます。ツールバーを使って設定が変更できます。

  • テキスト取得

    選択した矩形内のテキストを取得します。

  • テキスト追加

  • 矩形内にテキストを追加します。
    フォントサイズ、文字色を変更できます。
    領域は、テキスト、注釈、透かしとして設定できます。
  • イメージ追加

  • 矩形内にイメージを追加します。
    イメージファイルとして、BMP、JPG、PNG が選択できます。
    領域は、イメージ、注釈、透かしとして設定できます。
  • 墨消し追加

  • 墨消しを設定した領域は、PDF内から文字データなどが消去され、代わりに塗りつぶしを書き込みます。

使用例

pdftool002

3つの領域を追加しています。上から順番に次のように設定しました。

  • テキスト領域

    テキストとして追加する。フォントサイズは24pt、文字色は赤。

  • イメージ領域

    イメージとして追加する。設定した画像はアンテナハウスのロゴ(PNG)。

  • 墨消し追加

    塗りつぶし色は青。

PDFを保存

PDF Tool API により、アップロードされているPDFと、3つの領域の内容を使って、新しくPDFを生成します。
ダウンロードされた PDF のスクリーンショットです。
文字列「あいうえお」(少しわかりにくいですが)、イメージ「アンテナハウスのロゴ」、「墨消し領域」が反映されています。
墨消しの設定により、領域内にある文字列「じゃがいも」から「好みで」までの文字情報はPDFから削除されます。

pdftool003

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/ptl/


日本語ワープロのFDDデータ変換サービスのご紹介

日本語ワープロ専用機のデータを変換することができる弊社ソフトウェア『リッチテキスト・コンバータ20』『同 パーソナル』(以下、本製品)は 2016年12月20日をもって販売を終了させていただきました。長い間、開発・販売をしてきましたので、いまだに問い合わせをいただくことがあります。

様々な事情から、残された日本語ワープロのFDDデータを見る必要があるのだろうと思われますが、FDDの入手が年を追うごとに難しくなると同時に、Windows OSがFDDをサポートしなくなり、既存のユーザー様が本製品を継続してご利用いただくこと自体、厳しくなってきております。

本製品の販売は終了いたしましたが、変換サービスは現在も行っております。もし、お手元のPCで本製品が動作しなくなった、あるいは急に日本語ワープロのデータを変換したいといった場合、ぜひ変換サービスの利用をご検討ください。

なお、本サービスに使用しております機器の状況によっては、サービスの継続が困難になることも予想されます。その節はどうぞご容赦ください。


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (フォント情報)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”フォント情報”がAHPDFXMLに出力される例を見てみます。
変換元PDFファイルのスクリーンショットです。
サンプルは、文字列”材料(3人分)”です。

ahpdfxml_pdf_0205

上記のPDFをAHPDFXML形式に変換したXMLの内容は次の通りです。

ドキュメントXMLの内容です。

文字は複数の ahp:run に分割されています。これは元の PDF 内で、文字の配置が分かれているためです。
どの文字も、スタイルXMLを参照するIDは ahp:s-id=s5 となっています。

スタイルXMLの内容です。

ahpdfxml_xml_0205b

  • フォント名 ahp:name=MS-Mincho
  • フォントサイズ ahp:size=18.000000
  • 強調表示 ahp:bold=true
  • 文字色は赤 ahp:color ahp:rgb=#f00000
  • 強調表示 ahp:bold=true
  • 下線は1本線の赤 ahp:border-b ahp:border-type=single ahp:width=1.000000 ahp:color ahp:rgb=#f00000

PDFファイルの中に含まれる文字やフォント情報を取り出すことができます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (画像情報)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”画像情報”がAHPDFXMLに出力される例を見てみます。
変換元PDFファイルのスクリーンショットです。
サンプルは、画像”野菜のかご盛り”です。

ahpdfxml_pdf_0202

上記のPDFをAHPDFXML形式に変換したXMLの内容は次の通りです。

ドキュメントXMLの内容です。

ahpdfxml_xml_0202a

  • イメージフレーム ahp:frame-type=image
  • 領域の座標 ahp:l ahp:r ahp:t ahp:b
  • カタログXMLを参照するID ahp:file-id=f1

カタログXMLの内容です。
ahpdfxml_xml_0202b

  • 外部ファイル名 ahp:href=pdf2tmp_0.bmp
  • 画像はBMP ahp:file-type=BMP
  • 参照されるID ahp:id=f1

AHPDFXMLの出力先フォルダのスクリーンショットです。
画像ファイル pdf2tmp_0.bmp が出力されているのがわかります。

ahpdfxml_ss_0202

PDFファイルの中に含まれる画像を取り出すことができます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


「Antenna House PDFXML 変換ライブラリ V2.0」メンテナンスリリースについて

2017年11月22日に、Antenna House PDFXML 変換ライブラリ V2.0 MR1 をリリースしました。

V2.0R1a と V2.0MR1 の相違点

  • 縦書き/横書き混在の CID フォントを使用している場合に、縦書き用記号から縦書きページを判断する処理を追加しました。
  • 縦線の結合処理において、余分な結合が発生する場合が有りましたので、調整しました。
  • 縦書きページに存在する横書きの数字をページ番号と判断する処理を修正しました。
  • セルの縦横結合の解析処理を改善しました。
  • セルのデータが一部出力されない不具合を修正しました。
  • 文字データが一部消えてしまう不具合に対応しました。
  • 画像ファイルの出力オプションに EMF を追加しました。
  • Antenna House PDFXML の仕様を修正しました。
Element/Attributes/Types 名前 区分 説明
Element ahp:font 追加 アトリビュート”rotation”を追加しました。
Element ahp:style 追加 アトリビュート”line-distance”を追加しました。

「Antenna House PDFXML 変換ライブラリ V2.0」は、PDF ファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。 このライブラリが出力する XML 形式を「Antenna House PDFXML形式」と呼びます。
PDF 解析技術により文書構造を生成して、再利用に適した XML データを出力します。 XML で表現することによって、データの扱いが容易になります。
XML のメリットを最大限に活かして PDF データを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


Pages: 1 2 Next