タグ別アーカイブ: XML

『Antenna House AHPDFXML 変換ライブラリ』のコマンドライン

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

『Antenna House AHPDFXML 変換ライブラリ』には、コマンドライン版アプリケーションが付属しています。
今回は”AHPDFXMLCmd.exe”について書いてみたいと思います。

標準の引数は次の通りです。

  • -i PDFファイル
    入力PDFファイルのパスを指定します。(必須)
  • -password パスワード
    入力PDFにパスワードが設定されている場合、この引数で指定します。
  • -o 出力先フォルダ
    AHPDFXML形式を出力するフォルダのパスを指定します。(必須)
    保存するしおり外部ファイルの形式を指定します。

      このフォルダには、カタログXML, ドキュメントXML, スタイルXML, アウトラインXML, 画像ファイルなどが出力されます。
  • -p 接頭子
    AHPDFXML形式ファイルの接頭子を指定します。(必須)
  • -start 開始ページ
    変換対象とする、開始ページを指定します。
    省略された場合や 0以下の場合は、先頭ページからとみなされます。
  • -end 終了ページ
    変換対象とする、終了ページを指定します。
    省略された場合や実際のページ数より大きい場合は最終ページまでとみなされます。

変換オプションの引数(一部)は次の通りです。

  • -piece
    文字情報(ahp:run)を、1文字単位で出力します。
    文字単位でレイアウト座標を得たい場合などで使用します。
  • -cid
    文字情報(ahp:run)の要素に、PDFのキャラクタIDを出力します。
  • -notable
    表の解析を行いません。表情報(ahp:table)も出力されません。
  • -emf
    線画をEMFに変換します。
    複数の線画をまとめられる場合は、まとめてPNGに変換します。
    PDFのページ中に表が存在する場合などは、まとめてPNGに変換することはしません。
    この条件が設定されていない場合は、線画はSVG形式に変換されます。

呼び出し例は次の通りです。

  • AHPDFXMLCmd.exe -i input.pdf -o output -p pdfxml -piece
    • -i input.pdf : input.pdf を読み込みます。
    • -o output : AHPDFXML形式を output フォルダ下へ書き出します。
    • -p hoge : 書き出されるファイルの接頭子です。
    • -piece : 文字情報を1文字単位で出力します。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


『Antenna House AHPDFXML 変換ライブラリ』のご紹介

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。

  • セクション要素
    セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
    セクション要素は、フレーム要素を含みます。
    段組み数は、テキストフレーム要素の配置から判断します。
  • フレーム要素
    フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
    フレーム種別には、テキスト、表、画像、テキストボックスがあります。
    テキストフレームは段落要素を含みます。
    画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。
  • 段落要素
    段落要素の属性は矩形範囲、段落スタイルIDです。
    段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
    段落要素は、行要素を含みます。
    包含する行要素の開始位置、終了位置から、段落要素を生成しています。
  • 行要素
    行要素の属性は矩形範囲です。
    行要素はテキスト要素を含みます。
    包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。
  • テキスト要素
    テキスト要素の属性は、矩形範囲と文字スタイルIDです。
    文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。
  • 表要素
    表要素の属性は、矩形情報です。
    表要素は、表の行要素を含みます。
  • 表の行要素
    表の行要素の属性は、矩形情報です。
    表の行要素は、セル要素を含みます。
  • セル要素
    セル要素の属性は、矩形情報とスタイルIDです。
    セル要素は、段落要素を含みます。
    PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


oXygen 21.1 がリリースされています

oXygen のカレントバージョンは21.1です。古いバージョンをお使いの方はバージョンアップをご検討ください。

主な機能強化点は次のとおりです。

■ DITA 関連

  • 生成される WebHelp(日本語)の検索処理の改善
  • DITA マップやトピックから参照されるリソースの階層/依存関係の表示
  • 関連リンクとして追加できるトピックを素早く見つけられるように
  • 画像の挿入前にプレビュー確認

■ HTML 関連

  • 現在の編集場所で有効な要素、属性、および値の提案、多くの提案の注釈、およびHTML5仕様へのリンク

■ JSON 関連

  • JSON インスタンスを生成するためのさまざまなオプションを設定できるダイアログボックスを新設

その他多数の強化が行われています。詳しくは ここ をご参照ください。


「DITA Festa 2019 Tokyo」開催です

恒例の DITA Festa がやって来ます。
2019年11月27日(水)、28日(木)の二日間、場所は市ヶ谷駅のすぐ目の前です。

今回は、オムロン殿、日本電気殿、ローランド ディー.ジー.殿から DITA の導入事例発表があります。すでに受講受付が始まっていますので、興味のある方はお早めに。参加費は無料です。

詳しくは こちら をご参照ください。


海外出展情報 その2

10月14から17日にロンドンで開催された S1000D User Forum は、航空宇宙および防衛分野の技術文書を作成する多くのアンテナハウスのパートナーおよび顧客と会うことができました。アンテナハウスは卓上展示とベンダーとしてのプレゼンテーションを行いました。フォーラムには世界中から300人以上の航空宇宙および防衛分野の専門家が集まりましたが、その出席者の多くに弊社の Antenna House XSL Formatter を使用していただいています。また同じく弊社の製品である Regressions Testing System と、OSDC (Office Server Document Converter) の PDF を SVG に変換する機能に大きな関心が寄せられました。航空宇宙および防衛分野で使用される技術文書においては、依然としてページ出力が非常に重要とされていますが、現在の目標はその文書をタブレット上に表示することです。SVG になぜ関心があるのかというと、そのページを表示する速度にあります。

プレゼンテーションでは Antenna House XSL Formatter を使用してS1000D サンプル文書をフォーマットし、PDF と SVG 出力を作成しました。次に Regressions Testing System のデモンストレーションでは2つのディレクトリにある8つのペアになっている文書(合計で2,000ページ)の内容の比較を行いました。 デモンストレーションでは各ペアの文書の全ての相違点を2分以内に発見することができました。


海外出展情報 その1

10月にAntenna Houseは、Xplor Webinarとロンドンで開催された S1000D User Forum / ILS specification day に参加しました。

今回はXplor Webinarのご紹介をしたいと思います。

10月16日に開催された Xplor International が主催する教育ウェビナーで、弊社のシニアアーキテクトであるトニー・グラハムはAccessibility Mattersを発表しました。多くのアンテナハウスの顧客とパートナーがこのウェビナーに参加し、Xplorのメンバーもこの話題に興味を持っていました。このウェビナーはデジタルの世界においてアクセシビリティがいかに、またなぜ重要であるかを学ぶ絶好の機会でした。

プレゼンテーションの中で、トニーはHTML、Web Content Accessibility Guidelines(WCAG)、およびPDF / UA(Universal Accessibility)標準のアクセシビリティ機能を調査しました。アクセス可能なHTMLやPDFを作成するために必要な情報は、通常ソースXMLに含まれているか、ソースXMLから推測できるため、ユーザーの行動よりもファイル形式に重点を置いて調査しています。ただしXMLそのものをユーザーが目にすることはほとんどありません。このウェビナーでは、神経障害や失読症などの学習障害のある人がアクセスしやすいように、コンテンツのスタイリングが持ついくつかの側面についても調査しました。

プレゼンテーションはこちらのYouTubeからご覧いただくことができます。

https://www.youtube.com/watch?v=X00icPURCvw&feature=youtu.be


『アウトライナー 2.6』の改定内容(その2)

『アウトライナー 2.6』の改定内容(その2)

『アウトライナー』の基本コンセプトは、デジタル納品・デジタル配信などのデジタル形式で利用するPDFの制作支援ツールです。
電子納品PDF制作ではPDF分割関連機能が重要です。現在開発中である次バージョンV2.6では、「PDF分割機能」を追加し、「PDF結合機能」を強化します。今回はPDF結合機能について説明します。

[一括結合]

ファイルメニュー、ツール、「一括結合」

outliner-01

  • 「ファイル」をクリック
    ファイル選択ダイアログが表示されます。結合元となるPDFを選択します。Ctrl+Click, Shift+Click で複数選択可能です。
    選択されたPDFは、結合元リストに追加されます。
  • 「フォルダ」をクリック
    フォルダ選択ダイアログが表示されます。結合元となるPDFを含むフォルダを選択します。選択されたフォルダに含まれるPDFだけ検索します。再帰的に下位フォルダの検索は行いません。
    検索されたPDFは、結合元リストに追加されます。
  • 「結合元リスト」
    リスト上ファイルを選択して、並び順の前後(上下)移動や、リストからの削除がおこなえます。表示中のリストを外部ファイルに保存「リスト保存」、外部ファイルから読み込み「リスト読込」も可能です。リストの左端のチェックボックスは、しおりの設定で使用します。


  • 「しおりを結合する」
    • すべてのしおりのトップはオリジナルのまま
      結合元PDFが持つしおり階層を維持したまま結合します。文章内ページリンクの飛び先ページは自動設定されます。
    • しおりのトップをファイル名にする
      リスト上のチェックボックスが有効になっているファイルは、レベル1のしおりとしてファイル名を追加します。結合元PDFが持つしおりは、その下位に追加されます。
  • 「先頭ファイルの文章情報を結合後のファイルに反映する」
    リスト上の先頭ファイルの文書情報を、結合後のファイルに設定します。

一括結合の「実行」を選択すると、名前を付けて保存ダイアログが表示されます。保存先ファイル名を設定して「保存」を選択します。
結合処理が開始され、経過はログに表示されます。



元々アウトライナーはPDFの結合機能を持っています。編集用に開いたPDFのページ移動、追加、削除や、外部PDFとして開いたPDFのページ挿入です。
「一括結合」は、複数のPDFを結合する機能です。これは編集中のPDFとは関連性が無く、独立して呼び出すことが可能です。

製品に関するご質問は
outliner@antenna.co.jp(アウトライナーサポート)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申し込み

Webページ
https://www.antenna.co.jp/mpd/


『アウトライナー 2.6』の改定内容(その1)

『アウトライナー 2.6』の改定内容(その1)

『アウトライナー』の基本コンセプトは、デジタル納品・デジタル配信などのデジタル形式で利用するPDFの制作支援ツールです。
電子納品PDF制作ではPDF分割関連機能が重要です。現在開発中である次バージョンV2.6では、「PDF分割機能」を追加し、「PDF結合機能」を強化します。今回はPDF分割機能について説明します。

[分割ポイントを設定]



「ページモード」の「サムネイルペイン」です。サムネイルの左上にチェックボックスが追加されています。有効状態に設定したページは「分割ポイント」となりPDF分割時に先頭ページとなります。分割ポイントの設定には4つの方法があります。

  • チェックボックスをマウスでクリック
    outliner-01
  • ファイルメニュー、ツール、分割ポイントを設定、「ファイル容量で分割ポイントを設定」
    編集中のPDFの保存時のサイズを計測して、指定したファイル容量で分割ポイントを設定します。


  • ファイルメニュー、ツール、分割ポイントを設定、「ページ単位で分割ポイントを設定」
    指定したページ単位で分割ポイントを設定します。


  • ファイルメニュー、ツール、分割ポイントを設定、「しおりの移動先ページで分割ポイントを設定」
    編集中PDFのしおりに設定された飛び先ページが変化したページに分割ポイントを設定します。


[分割してPDF出力]

ファイルメニュー、ファイル、「分割してPDF出力」または、ツールバーの「分割してPDF出力」ボタンをクリックします。

outliner-05保存先フォルダ
分割したPDFの保存先フォルダを設定します。

  • 同名ファイルが存在する場合
    「上書き」または「確認メッセージを表示する」を選択します。
  • 保存先ファイル名
    ベース名、連結文字、連番の開始番号、桁数(ゼロ詰め)を設定します。
  • 分割後のPDF、元のPDFのしおり
    分割先PDFに、しおりを「設定する」または「設定しない」を指定します。

    • ページ範囲内のしおりだけコピー
      移動先が分割先PDFのページとなるしおりをコピーします。しおりは、文章内のページリンクを設定します。
      移動先が分割先PDFのページに含まれないしおりは、コピーしません。
    • ページ範囲内(内部)と階層レベル1(外部)のしおりをけコピー
      移動先が分割先PDFのページとなるしおりをコピーします。しおりは、文章内のページリンクを設定します。
      移動先が分割先PDFのページに含まれないしおりは、階層レベル1のみコピーします。しおりは、外部PDFのページリンクを設定します。
    • すべてのしおりをコピー
      移動先が分割先PDFのページとなるしおりをコピーします。しおりは、文章内のページリンクを設定します。
      移動先が分割先PDFのページに含まれないしおりもコピーします。しおりは、外部PDFのページリンクを設定します。
  • 分割後のPDF、元のPDFの文書情報
    分割先PDFに、文書情報を「設定する」または「設定しない」を指定します。

分割の「実行」を選択すると、経過ダイアログが表示されます。



今回追加している「PDF分割機能」は、国土交通省の電子納品用PDF制作に利用することを考慮しています。ファイル容量を自動計測して、分割ポイントを設定する。分割先PDFにページが含まれる、含まれないに応じて、ページリンクを内部リンクまたは外部リンクに自動設定する。出力先PDFファイル名の自動連番を設定する。など、便利な機能を用意しております。

製品に関するご質問は
outliner@antenna.co.jp(アウトライナーサポート)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申し込み

Webページ
https://www.antenna.co.jp/mpd/


XML と oXygen の勉強会

XML 入門と oXygen を使って JATS(学術雑誌論文記述用のXMLボキャブラリー)を入力してみるという二本立てでした。
事務局さんのご意向で「エラーを体験することでより深く XML を理解する」というような内容にさせていただいたのですが、これが結構新鮮で私も楽しませてもらいました。

もう3か月くらい前の話になってしまいますが、学術情報XML推進協議会さんの主催したセミナーでスピーカーを務めさせていただきました。
https://xspa.jp/post/183836958072/jats-xml初心者セミナー2-実践編2019513

XML-1

XML-2

とは言え、oXygen は誰でもエラーのないデータが入力できることを売りとしているツールですので、無理やりエラーを発生させるのはしんどかったです(笑)

弊社ではお客様のご要望に応じた内容でセミナーを開催しておりますので、ご興味のある方はいつでもご連絡ください。


久しぶりの XSLSchool(XSLTとXSL-FOの勉強会)

XML を自動組版するには XSLT の開発と XSL-FO の知識が不可欠です。HTML と CSS で組版しようという動きもあるにはありますが、まだまだ少数派でしょう。

弊社では XSLT と FO の両方を1日で学んでしまおうという、ちょっと贅沢なセミナーを開催しています。今まで 25 回以上開催し、ご参加者の延べ人数は 100 名様を超えてます。「XSLT や FO は名前を聞いたことはあるけれど…」という方々からご好評をいただいているセミナーで、6~7時間かけて XSL-FO の基礎を学びながら XSLT をひたすら入力していただく、ちょっとしたスパルタな内容です。

セミナーで使うテキストの一部

XSLSchool-2

XSLSchool-1

先日、久しぶりに XSLSchool 開催のご依頼をいただき、静岡にあるお客様のオフィスに出向き開催させていただきました。
来月も他のお客様から開催の打診をいただいています。

詳しくは「XSLSchoolのご案内」をご参照ください


Pages: 1 2 3 4 5 Next