『Antenna House AHPDFXML 変換ライブラリ』のコマンドライン

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

『Antenna House AHPDFXML 変換ライブラリ』には、コマンドライン版アプリケーションが付属しています。
今回は”AHPDFXMLCmd.exe”について書いてみたいと思います。

標準の引数は次の通りです。

  • -i PDFファイル
    入力PDFファイルのパスを指定します。(必須)
  • -password パスワード
    入力PDFにパスワードが設定されている場合、この引数で指定します。
  • -o 出力先フォルダ
    AHPDFXML形式を出力するフォルダのパスを指定します。(必須)
    保存するしおり外部ファイルの形式を指定します。

      このフォルダには、カタログXML, ドキュメントXML, スタイルXML, アウトラインXML, 画像ファイルなどが出力されます。
  • -p 接頭子
    AHPDFXML形式ファイルの接頭子を指定します。(必須)
  • -start 開始ページ
    変換対象とする、開始ページを指定します。
    省略された場合や 0以下の場合は、先頭ページからとみなされます。
  • -end 終了ページ
    変換対象とする、終了ページを指定します。
    省略された場合や実際のページ数より大きい場合は最終ページまでとみなされます。

変換オプションの引数(一部)は次の通りです。

  • -piece
    文字情報(ahp:run)を、1文字単位で出力します。
    文字単位でレイアウト座標を得たい場合などで使用します。
  • -cid
    文字情報(ahp:run)の要素に、PDFのキャラクタIDを出力します。
  • -notable
    表の解析を行いません。表情報(ahp:table)も出力されません。
  • -emf
    線画をEMFに変換します。
    複数の線画をまとめられる場合は、まとめてPNGに変換します。
    PDFのページ中に表が存在する場合などは、まとめてPNGに変換することはしません。
    この条件が設定されていない場合は、線画はSVG形式に変換されます。

呼び出し例は次の通りです。

  • AHPDFXMLCmd.exe -i input.pdf -o output -p pdfxml -piece
    • -i input.pdf : input.pdf を読み込みます。
    • -o output : AHPDFXML形式を output フォルダ下へ書き出します。
    • -p hoge : 書き出されるファイルの接頭子です。
    • -piece : 文字情報を1文字単位で出力します。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


『Antenna House AHPDFXML 変換ライブラリ』のご紹介

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。

  • セクション要素
    セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
    セクション要素は、フレーム要素を含みます。
    段組み数は、テキストフレーム要素の配置から判断します。
  • フレーム要素
    フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
    フレーム種別には、テキスト、表、画像、テキストボックスがあります。
    テキストフレームは段落要素を含みます。
    画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。
  • 段落要素
    段落要素の属性は矩形範囲、段落スタイルIDです。
    段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
    段落要素は、行要素を含みます。
    包含する行要素の開始位置、終了位置から、段落要素を生成しています。
  • 行要素
    行要素の属性は矩形範囲です。
    行要素はテキスト要素を含みます。
    包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。
  • テキスト要素
    テキスト要素の属性は、矩形範囲と文字スタイルIDです。
    文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。
  • 表要素
    表要素の属性は、矩形情報です。
    表要素は、表の行要素を含みます。
  • 表の行要素
    表の行要素の属性は、矩形情報です。
    表の行要素は、セル要素を含みます。
  • セル要素
    セル要素の属性は、矩形情報とスタイルIDです。
    セル要素は、段落要素を含みます。
    PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


11月14日(木)Markdownセミナー開催日が迫りました。

今週の木曜日に新宿・大久保にてMarkdownのセミナーを計画しています。

セミナーのご案内はこちらより:
「Markdown + CSS/TeXで冊子本を作ってみた 」

まだ席に余裕がありますので、関心をお持ちの方はぜひご参加ください。

本セミナーでアンテナハウスからは『簡単! Markdown+CSSによる冊子本作り―理論と実践』という冊子を制作した体験を主として説明致します。

Markdownの文法については、冊子ではグルーバーの元祖Markdownを基本にしていましたが、その後、他の文法も調べたところ、現時点ではCommonMarkの方が標準として適切と判断するにいたりましたので、セミナーではCommonMarkの文法を基本にご説明いたします。

CommonMarkと元祖Markdownの違い

CommonMarkは、グルーバーのMarkdownの考え方に基づいて、これをより厳格に規定しようという提案です。

2019年9月現在、CommonMark Version 0.29が公開されています。仕様書はジョン・マクファーレン氏(カリフォルニア大学バークレー校哲学教授。汎用マークアップ変換ツールPandocの開発者でもあります。)によるものです。CommonMarkは、元祖Markdownの規定が曖昧な箇所を明確化し、規定に不備がある箇所を補っています。元祖Markdownの考え方を尊重しながらも、元祖Markdownの規定では不合理と考えられる箇所については、説明を付けた上で元祖Markdownとは異なる規定を導入している箇所があります。

MarkdownはASCII句読点文字と空白や空行の組み合わせを使ってマークアップしたテキストをタグで表現した構造化文書に変換します。その際の解釈の一元性を保つ必要があります。例えば、ASCII句読点文字がマークアップ用なのか地のテキストの一部なのか、二つの用途のどちらを優先して解釈するか、などを細かく決めなければなりません。このため、CommonMarkの規則はかなり複雑になっています。CommonMarkでは元祖Markdownのマークアップ機能を基本としながらも、マークアップの付け方や解釈を大幅に強化しています。マークアップに使用するASCII句読点文字は同じでありながら、その使用方法と解釈が大幅に変更になっているものがあります。

CommonMarkの仕様にある文法は非常に微に入り細を穿っています。そのためエンドユーザがCommonMarkの規則を覚えて使うのは困難であり、仕様書はエンドユーザ向けというよりもMarkdown処理系の開発者向けといえます。エンドユーザはリアルタイム・プレビューアを使ってマークアップを解釈した結果を、HTML表示で確認しながらマークアップしていくのが良いでしょう。

追加されたマークアップ機能

CommonMarkは、元祖Markdownの機能をいくつか拡張しています。元祖Markdownのマークアップ機能に対して、CommonMarkで追加された機能は、①コードフェンス、②番号付き箇条書きの区切り記号を元祖Markdownの ‘.’ のみに加えて ‘)’ を使用可能に、③ショートカット型の参照リンクの追加、④強制改行文字の追加です。

CommonMarkで追加されたマークアップ機能一覧
構造 HTML要素 マークアップ文字
コードフェンス pre code ```または~~~で囲まれた範囲 ```
プログラムコード行
```
番号付き箇条書きの区切り文字 ol li 数字+’)’+空白で番号付き箇条書き 1) 番号箇条項目
参照リンク(ショートカット型) a href=”” [リンクテキスト]
別の箇所に
[リンクテキスト]: /uri
[foo]
別の箇所に
[foo]: /uri “title”
強制改行 br 強制改行したい行末に ‘\’ この行末に強制改行\

第二回技術書同人誌博覧会に出店します。

毎日お疲れ様です。
本日は電子出版サービスグループが担当します。

アンテナハウスが「アンテナハウスCAS電子出版」でプリントオンデマンド出版している技術書は、10冊以上あります。製品マニュアルを含めると倍くらいでしょうか。

「技術書」に関する少部数(同人誌)即売会が定期的に開催されるようになって、はや数年。

かの「技術書典」が初めて開催されてから、もう7回目を迎え、開催するごとに規模を増しているのを見て、実は技術者開発者って、自分の知識や技術を外に出したい、新知識や新技術を取り込みたい、意見交換したいんだなと思いました。

わたしですか?
わたしはPCでテレビが見られてネットサーフィンできればオールオッケー!ストレスなく使えていればよい、根っからのコンシューマ(一般消費者)です。

それはさておき、技術書に絞った同人誌即売会に新しい会が生まれ、12月14日、第2回目が開催されることになりました。

第二回技術書同人誌博覧会

技術書典(抽選)とは違い、早い者勝ちなので、我がアンテナハウスは申し込み開始日に電光石火の勢いで応募しました!
今月の半ばから入場チケットの申し込みが出来るようになるそうなので、そろそろサイトページができるころかもしれません。

売り子の社長が面白いことを言っていました。

技術書典は最近、時間を区切り、概ね午前中(~13時まで)は有料チケット購入者だけが入れるようにし、午後の時間帯は無料開場するという方針を取っています。
(技術書同人誌博覧会も同じです)

さて、売り上げ結果はというと、チケットを購入した人が会場を回っている時間帯のほうが大きく、逆に午後の無料開放時間帯、来場者数は多いですが、驚くほど売り上げが少なかったということでした。
売り子から見る「客」の質は、チケットを購入した来場者のほうが圧倒的に高かったことがわかります。よく考えればわかることですが、面白いですよね。。

今回の会も、同じ現象が起きそうです。
第二回技術書同人誌博覧会、12月14日(土)、プラザマームで開催です。
お見逃しなく!そしてご来場・ご来店をお待ちしております!

技術書同人誌博覧会:Webページ:https://gishohaku.dev/
@技術書同人誌博覧会 運営事務局


oXygen 21.1 がリリースされています

oXygen のカレントバージョンは21.1です。古いバージョンをお使いの方はバージョンアップをご検討ください。

主な機能強化点は次のとおりです。

■ DITA 関連

  • 生成される WebHelp(日本語)の検索処理の改善
  • DITA マップやトピックから参照されるリソースの階層/依存関係の表示
  • 関連リンクとして追加できるトピックを素早く見つけられるように
  • 画像の挿入前にプレビュー確認

■ HTML 関連

  • 現在の編集場所で有効な要素、属性、および値の提案、多くの提案の注釈、およびHTML5仕様へのリンク

■ JSON 関連

  • JSON インスタンスを生成するためのさまざまなオプションを設定できるダイアログボックスを新設

その他多数の強化が行われています。詳しくは ここ をご参照ください。


「DITA Festa 2019 Tokyo」開催です

恒例の DITA Festa がやって来ます。
2019年11月27日(水)、28日(木)の二日間、場所は市ヶ谷駅のすぐ目の前です。

今回は、オムロン殿、日本電気殿、ローランド ディー.ジー.殿から DITA の導入事例発表があります。すでに受講受付が始まっていますので、興味のある方はお早めに。参加費は無料です。

詳しくは こちら をご参照ください。


海外出展情報 その2

10月14から17日にロンドンで開催された S1000D User Forum は、航空宇宙および防衛分野の技術文書を作成する多くのアンテナハウスのパートナーおよび顧客と会うことができました。アンテナハウスは卓上展示とベンダーとしてのプレゼンテーションを行いました。フォーラムには世界中から300人以上の航空宇宙および防衛分野の専門家が集まりましたが、その出席者の多くに弊社の Antenna House XSL Formatter を使用していただいています。また同じく弊社の製品である Regressions Testing System と、OSDC (Office Server Document Converter) の PDF を SVG に変換する機能に大きな関心が寄せられました。航空宇宙および防衛分野で使用される技術文書においては、依然としてページ出力が非常に重要とされていますが、現在の目標はその文書をタブレット上に表示することです。SVG になぜ関心があるのかというと、そのページを表示する速度にあります。

プレゼンテーションでは Antenna House XSL Formatter を使用してS1000D サンプル文書をフォーマットし、PDF と SVG 出力を作成しました。次に Regressions Testing System のデモンストレーションでは2つのディレクトリにある8つのペアになっている文書(合計で2,000ページ)の内容の比較を行いました。 デモンストレーションでは各ペアの文書の全ての相違点を2分以内に発見することができました。


海外出展情報 その1

10月にAntenna Houseは、Xplor Webinarとロンドンで開催された S1000D User Forum / ILS specification day に参加しました。

今回はXplor Webinarのご紹介をしたいと思います。

10月16日に開催された Xplor International が主催する教育ウェビナーで、弊社のシニアアーキテクトであるトニー・グラハムはAccessibility Mattersを発表しました。多くのアンテナハウスの顧客とパートナーがこのウェビナーに参加し、Xplorのメンバーもこの話題に興味を持っていました。このウェビナーはデジタルの世界においてアクセシビリティがいかに、またなぜ重要であるかを学ぶ絶好の機会でした。

プレゼンテーションの中で、トニーはHTML、Web Content Accessibility Guidelines(WCAG)、およびPDF / UA(Universal Accessibility)標準のアクセシビリティ機能を調査しました。アクセス可能なHTMLやPDFを作成するために必要な情報は、通常ソースXMLに含まれているか、ソースXMLから推測できるため、ユーザーの行動よりもファイル形式に重点を置いて調査しています。ただしXMLそのものをユーザーが目にすることはほとんどありません。このウェビナーでは、神経障害や失読症などの学習障害のある人がアクセスしやすいように、コンテンツのスタイリングが持ついくつかの側面についても調査しました。

プレゼンテーションはこちらのYouTubeからご覧いただくことができます。

https://www.youtube.com/watch?v=X00icPURCvw&feature=youtu.be


Office Server Document Converter のご利用目的

「Office Server Document Converter」は、MicroSoft Officeを使用せずにPDFや、画像に変換することができます。
以下のような問題を抱えているユーザ様に幅広くご利用頂いております。

  • MicorSoft Officeのライセンスの問題
    MicroSoft Office を使用しないため、MicroSoft Officeのライセンスが不要。
  • セキュリティ対策
    MicroSoft Officeを起動しないため、マクロ実行を防ぎセキュリティ上安全にPDF変換できます。
  • Windows以外のプラットフォームでも動作
    Linux環境でもPDFや画像に変換できます。

近年では、「Office Server Document Converter」を組み込み、画像保存、PDF出力の手段として不特定多数のユーザ様にネットワークを通したサービスでとしてご利用いただいているケースが増えてきております。

※「Office Server Document Converter」は、アプリケーションの印刷からPDFを生成する方式ではなく、弊社独自の変換により画像、PDFを生成するため、100%の再現性ではありません。
評価版をご用意しておりますので、変換精度をご評価ください。

評価版のお申込ページ


パソコンの引っ越しとインストールできるパソコンの台数

「瞬簡PDF」シリーズをインストールできるのは1台だけ

アンテナハウスの「瞬簡PDF」シリーズは、CD-ROMなどを含むパッケージ版と、インストーラーをWebからダウンロードしていただくダウンロード版の二つの方法で販売しています。パッケージ版やダウンロード版はパソコン1台だけにインストールしてお使いいただけます。
※ちなみに企業団体様向けのライセンス販売(10ライセンス以上)は上記と異なります。ご留意ください。

インストールされた台数でカウントしますので、例えば会社と自宅両方で1台ずつご利用される場合、2つのライセンスが必要です。

パソコンを引っ越しする場合

まず、「瞬簡PDF」シリーズのCD-ROM(もしくはDVD-ROM)やダウンロードされたインストーラーと、弊社からお送りしたシリアル番号をご用意ください。

最初に古いパソコンから「瞬簡PDF」シリーズをアンインストールします。アンインストールしても「瞬簡PDF」シリーズの設定ファイルなどはそのまま残っています。
その後、新しいパソコンに「瞬簡PDF」シリーズをインストールします。必要に応じて設定ファイルなどを新しいパソコンにコピーしてください。

「引っ越し」を支援するソフトウエアなどを使って、プログラムや設定ファイルなどを新しいパソコンに移動させることができる場合があります。残念ながら「引っ越し」を支援するソフトウエアの多くは著名なソフトウエアの引っ越ししか対応していません。弊社の「瞬簡PDF」シリーズには完全対応できず、プログラム本体の移動はできませんが、設定ファイル等が移動できる場合もあります。その場合は新しいパソコンに「瞬簡PDF」をインストールすると設定ファイルが引き継がれます。

パソコンが起動しなくなった場合

もし、引っ越し元のパソコンが起動しない、あるいは災害などでパソコン自体が失われたといった場合は、アンインストールは不要です。そのまま新しいパソコンに「瞬簡PDF」シリーズをインストールしてお使いください。

詳しくは製品に同梱されている登録カードや、マニュアルに記載されているサポート窓口にお問い合わせください。


Pages: 1 2 3 4 5 6 7 8 9 10 ... 185 186 187 Next