タグ別アーカイブ: XML

「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (フォント情報)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”フォント情報”がAHPDFXMLに出力される例を見てみます。
変換元PDFファイルのスクリーンショットです。
サンプルは、文字列”材料(3人分)”です。

ahpdfxml_pdf_0205

上記のPDFをAHPDFXML形式に変換したXMLの内容は次の通りです。

ドキュメントXMLの内容です。

文字は複数の ahp:run に分割されています。これは元の PDF 内で、文字の配置が分かれているためです。
どの文字も、スタイルXMLを参照するIDは ahp:s-id=s5 となっています。

スタイルXMLの内容です。

ahpdfxml_xml_0205b

  • フォント名 ahp:name=MS-Mincho
  • フォントサイズ ahp:size=18.000000
  • 強調表示 ahp:bold=true
  • 文字色は赤 ahp:color ahp:rgb=#f00000
  • 強調表示 ahp:bold=true
  • 下線は1本線の赤 ahp:border-b ahp:border-type=single ahp:width=1.000000 ahp:color ahp:rgb=#f00000

PDFファイルの中に含まれる文字やフォント情報を取り出すことができます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (画像情報)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”画像情報”がAHPDFXMLに出力される例を見てみます。
変換元PDFファイルのスクリーンショットです。
サンプルは、画像”野菜のかご盛り”です。

ahpdfxml_pdf_0202

上記のPDFをAHPDFXML形式に変換したXMLの内容は次の通りです。

ドキュメントXMLの内容です。

ahpdfxml_xml_0202a

  • イメージフレーム ahp:frame-type=image
  • 領域の座標 ahp:l ahp:r ahp:t ahp:b
  • カタログXMLを参照するID ahp:file-id=f1

カタログXMLの内容です。
ahpdfxml_xml_0202b

  • 外部ファイル名 ahp:href=pdf2tmp_0.bmp
  • 画像はBMP ahp:file-type=BMP
  • 参照されるID ahp:id=f1

AHPDFXMLの出力先フォルダのスクリーンショットです。
画像ファイル pdf2tmp_0.bmp が出力されているのがわかります。

ahpdfxml_ss_0202

PDFファイルの中に含まれる画像を取り出すことができます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


海外出展情報 XML Prague Czech Republic

XML Prague は、ヨーロッパ最大の XML 会議です。 チェコ共和国のプラハの経済大学で、毎年 2 月に開催されています。(寒いですが、宿泊はシーズンオフのため格安です)。

xml-prague-1

この会議の形態は、会議前の日と呼ばれる Unconference Day という日が設けてあり、本会議の前に開かれる、自由スタイルの形式から始まります。90 分のセッションが開かれ、その後は 2 日間のシングルトラック会議が行われます。 昨年は、ほぼ 30 分の講演だったと思います。 今年の公演は、30 分間または 15 分間とされています。 会議のスケジュールはまだ公表になっていないので、30 分になるのか 15 分になるのかまだはっきりしません。

アンテナハウスは数年間、この会議のスポンサーとなっています。 アンテナハウスは過去 2 年間、主催者からスポンサーに与えられる 2 名参加分のフリーパスを学生に提供しています。

xml-prague-6

XML Prague 2018 の会議前の日(Unconference day)に、アンテナハウスは、「XSL-FO、CSS、およびページメディア」セッションで Antenna House Formatter の紹介、「ページメディア向けCSSの紹介」と題したチュートリアルの両方を発表します。アンテナハウスが 会議前の日(Unconference day) にユーザーミートアップと呼ばれるものをを主催してから 4 年目で、聴講率はよく毎回好評をいただいております。弊社社員トニーグラハムは、ここで最新の「ページメディア向けCSSの紹介」と題したチュートリアル文書を組版するのに使用している CSSスタイルを紹介する予定です。 またトニーグラハムは、「スキマトロン ユーザー ミートアップ」セッションでも講演する予定です。 スキマトロン(Schematron)は、XSL-FO ファイルをチェックするための  ‘focheck’  oXygen フレームワークで使用する技術の1つです。

xml-prague-3
xml-prague-5

本会議でも、トニーグラハムが 「人生、宇宙そしてCSSテスト」を発表します。 これは、W3C CSS テストスイートの中から 17,000 件に及ぶ自動組版テストを行うために、Jenkins サーバーおよび eXist-db XML データベースとともに、Antenna House リグレッションテストシステム(AHRTS) を使用して、社内プロジェクトの開発を行った時のケーススタディです。

xml-prague-2

この会議で人気であるものの一つに、本会議の最初の日の夕方に行われるソーシャルディナーがあります。 ディナーの後には「デモジャム」というものが行われ、ボランティアで各自が XML アプリケーションのデモを5分間行うものです。 デモジャムの優勝者は、最も大きな拍手を受けるプレゼンターです。弊社社員マイケルミラーは、2013 年の XML Prague でのデモジャムで弊社製品 AHRTS のデモンストレーションで受賞しました。

xml-prague-4


セミナーのご案内:Formatter Club 2017 -冬-

今週末、2017年12月8日(金) 14:00~18:30 に、中央区月島区民館にて「Formatter Club セミナー」(無料)を開催いたします。

今回の内容も次のように盛りだくさんになっております。

・『デジタル書籍制作Webサービス CAS-UB』の新機能紹介

・『AH Formatter V6.5』の新機能紹介

『AH Formatter』の活用事例として、
・株式会社ウイング様による「ドキュメント出力管理システム(OPALUS)」のご紹介
・株式会社ニューキャスト様による「編集・制作の環境改善を実現する AH Formatter の活用事例」のご紹介

・『AH PDFXML変換ライブラリ』の利用例のご紹介

・DITA入門

まだお申し込み可能ですので、セミナーへご参加を希望される方は、http://www.kokuchpro.com/event/AH_winter/ からお申し込みください。詳細もそちらに記載しております。

 


AH Formatter 機能のご紹介:リッチメディア注釈

AH Formatter』では、V6.5 よりマルチメディアをリッチメディア注釈として埋め込み可能になりました。
リッチメディア(オンラインマニュアル)

『AH Formatter』のサンプルFO集には、本機能の動作が確認できるサンプル「リッチメディア注釈」を掲載しております。

本機能を用いて PDF を作成することで、閲覧時に外部のプレイヤなどを必要とせずにマルチメディアの再生が可能になります。そのため、配布される PDF に動画などを埋め込んだ場合に、配布先での閲覧がスムーズに行えることが期待できます。

『AH Formatter』は主にバージョンアップのたびに機能強化や新機能の追加を行っています。
“あったら便利な機能” も既に追加されていることがございますので、どうぞお気軽にサポートにお問い合わせください。
未実装の機能であれば、ご要望として承り今後の開発の参考にさせていただきます。

今回ご紹介した「リッチメディア注釈」も海外のお客様の要望を受けて開発に至りました。

『AH Formatter』の評価版は次のページよりお申し込みいただけます。ご興味のある方は是非お試しください。
AH Formatter 評価版のお申し込み

なお、弊社は AH Formatter の自動組版だけではなく、
Office文書から PDF への変換、
それとは逆に PDF から Office文書への変換、
PDF の編集や加工なども得意としております。
ご案内に向けた Webページ「製品ナビゲータ」をご用意しておりますので、こちらも是非ご覧ください。
製品ナビゲータ

 


「Antenna House PDFXML 変換ライブラリ V2.0」メンテナンスリリースについて

2017年11月22日に、Antenna House PDFXML 変換ライブラリ V2.0 MR1 をリリースしました。

V2.0R1a と V2.0MR1 の相違点

  • 縦書き/横書き混在の CID フォントを使用している場合に、縦書き用記号から縦書きページを判断する処理を追加しました。
  • 縦線の結合処理において、余分な結合が発生する場合が有りましたので、調整しました。
  • 縦書きページに存在する横書きの数字をページ番号と判断する処理を修正しました。
  • セルの縦横結合の解析処理を改善しました。
  • セルのデータが一部出力されない不具合を修正しました。
  • 文字データが一部消えてしまう不具合に対応しました。
  • 画像ファイルの出力オプションに EMF を追加しました。
  • Antenna House PDFXML の仕様を修正しました。
Element/Attributes/Types 名前 区分 説明
Element ahp:font 追加 アトリビュート”rotation”を追加しました。
Element ahp:style 追加 アトリビュート”line-distance”を追加しました。

「Antenna House PDFXML 変換ライブラリ V2.0」は、PDF ファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。 このライブラリが出力する XML 形式を「Antenna House PDFXML形式」と呼びます。
PDF 解析技術により文書構造を生成して、再利用に適した XML データを出力します。 XML で表現することによって、データの扱いが容易になります。
XML のメリットを最大限に活かして PDF データを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


『AntennaHouse AHPDFXML 変換ライブラリ』の用途は?

『AntennaHouse AHPDFXML 変換ライブラリ』は PDF を XML に変換するライブラリです。お客様から、XML に変換することでどのような用途に利用できるか?との問い合わせを度々頂きます。

そこで今回は、XML 変換することで、どのような事が出来るのか、活用方法をいくつかご紹介致します。

  • PDF コンテンツの活用
    ・PDF に入っている画像を抜き出し、画像の活用。
    ・表だけを抜き出し、データベースへ転用。
  • 位置情報の取得で、意味のあるテキストを抜き出し
    ・帳票の決まった位置にあるテキストを取得して帳票の振り分けや、データベースへ転用。
  • PDF からの変換、再構築
    弊社 AHFormatter を合わせて利用することで、
    ・PDF から HTML、EPUB、DocBook 形式等への変換に利用。
    ・元の PDF のレイアウトを変更して再度 PDF の生成に利用。
  • PDF チェッカーとして活用
    ・出力した XML を比較して改定箇所のチェックに利用。
    ・フォント(フォントタイプ・サイズ)情報、版面のサイズを取得。

評価版をご用意しております。
AntennaHouse AHPDFXML 変換ライブラリ 評価版のお申し込み

是非使ってみてください。

AntennaHouse AHPDFXML 変換ライブラリ
http://www.antenna.co.jp/pdfxml/


[XSL-FO] side-float 使ったリストの謎

こんにちは。
AH Formatterサポート担当です。
ドラクエがまだ終わりませーん。
やり込み要素は全部クリアしないと気が済まないタイプです。
最強装備全て揃えるまで頑張ります。
えと、ドラクエも FF も初代からリアルタイムでやっております。
(あっ、年がばれる)
3DS のすれ違い通信機能、田舎なんで誰にも会いません。。。車移動だし。

少し前のブログで、AH Formatter(XSL Formatter)の発売当初から携わっているというお話を
書かせていただきましたが、
xx年もやっております間に、
国内/海外のたくさんのお客様の XSL-FO を見てきました。
こちらが勉強になるようなテクニックもたくさんありました。

そんな中でひとつ、ずーーーーっと疑問に思っていることがあるのです。
それは、リストを fo:float で実装されるケースが度々あること。

簡単に書くと、こんな感じ。

 <fo:block><fo:float float=”start”><fo:block>1.</fo:block></fo:float>リスト項目の内容です。</fo:block>

実際にはもう少し複雑だったりしますが。

自分で XSL-FO(XSLTスタイルシート)を書いてもリストに fo:float を使ったことはありませんし、
念のため、弊社の XSLT開発の者に聞いてみたんですが、そういう方法は使わない、とのこと。
まぁ、リストは fo:list-block で書くもんだと思ってるからかもしれませんけど。

特定の会社のマニュアルのみとかですと、そういう方針?なのかな?と思ったりしたのですが、
別々のお客様で同じような手法を使われていることがちょくちょくあったりするのです。
これって、どうしてなんでしょう。
どこかにお手本あったりしたんでしょうか?
しかも、日本国内のみで、海外ではまず見たことありません。

XSL-FO のfo:list-block、難しいですか?めんどくさいですか?

リストの構造

うん、めんどくさいかも。。。。

もしこのブログを見たお客様で、
こんな理由で float 使ってるよと教えてくださる方、
いらっしゃいませんでしょうか。

■XSL-FOの仕様紹介:『XSL-FO の基礎 第2版 – XML を組版するためのレイアウト仕様』(クリックで紹介文章へ)


Pages: 1 2 3 Next