カテゴリー別アーカイブ: 構造化文書

『Antenna House AHPDFXML 変換ライブラリ』のご紹介

『Antenna House AHPDFXML 変換ライブラリ』は、PDFファイルの内部データを、
XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”AHPDFXML形式”として出力される文書構造について書いてみたいと思います。

  • セクション要素
    セクション要素の属性は、矩形情報、段組み情報、縦書き/横書き情報です。
    セクション要素は、フレーム要素を含みます。
    段組み数は、テキストフレーム要素の配置から判断します。
  • フレーム要素
    フレーム要素の属性は、フレーム種別、矩形範囲、ファイルIDです。
    フレーム種別には、テキスト、表、画像、テキストボックスがあります。
    テキストフレームは段落要素を含みます。
    画像フレームには、カタログファイルに定義されたファイルのIDが指定されています。
  • 段落要素
    段落要素の属性は矩形範囲、段落スタイルIDです。
    段落スタイルには、先頭行インデント、左インデント、右インデントの情報があります。
    段落要素は、行要素を含みます。
    包含する行要素の開始位置、終了位置から、段落要素を生成しています。
  • 行要素
    行要素の属性は矩形範囲です。
    行要素はテキスト要素を含みます。
    包含するテキスト要素からベースラインを判断して、テキスト行を生成しています。
  • テキスト要素
    テキスト要素の属性は、矩形範囲と文字スタイルIDです。
    文字スタイルには、文字の大きさ、文字の色、文字のフォント、文字修飾(bold/italic、網かけ)の情報があります。
  • 表要素
    表要素の属性は、矩形情報です。
    表要素は、表の行要素を含みます。
  • 表の行要素
    表の行要素の属性は、矩形情報です。
    表の行要素は、セル要素を含みます。
  • セル要素
    セル要素の属性は、矩形情報とスタイルIDです。
    セル要素は、段落要素を含みます。
    PDF中の線画情報から、水平/垂直の線分を抜き出して、セルを生成しています。

AHPDFXML形式の利用例として『サンプルXSLTスタイルシート』をご用意しております。
XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


第二回技術書同人誌博覧会に出店します。

毎日お疲れ様です。
本日は電子出版サービスグループが担当します。

アンテナハウスが「アンテナハウスCAS電子出版」でプリントオンデマンド出版している技術書は、10冊以上あります。製品マニュアルを含めると倍くらいでしょうか。

「技術書」に関する少部数(同人誌)即売会が定期的に開催されるようになって、はや数年。

かの「技術書典」が初めて開催されてから、もう7回目を迎え、開催するごとに規模を増しているのを見て、実は技術者開発者って、自分の知識や技術を外に出したい、新知識や新技術を取り込みたい、意見交換したいんだなと思いました。

わたしですか?
わたしはPCでテレビが見られてネットサーフィンできればオールオッケー!ストレスなく使えていればよい、根っからのコンシューマ(一般消費者)です。

それはさておき、技術書に絞った同人誌即売会に新しい会が生まれ、12月14日、第2回目が開催されることになりました。

第二回技術書同人誌博覧会

技術書典(抽選)とは違い、早い者勝ちなので、我がアンテナハウスは申し込み開始日に電光石火の勢いで応募しました!
今月の半ばから入場チケットの申し込みが出来るようになるそうなので、そろそろサイトページができるころかもしれません。

売り子の社長が面白いことを言っていました。

技術書典は最近、時間を区切り、概ね午前中(~13時まで)は有料チケット購入者だけが入れるようにし、午後の時間帯は無料開場するという方針を取っています。
(技術書同人誌博覧会も同じです)

さて、売り上げ結果はというと、チケットを購入した人が会場を回っている時間帯のほうが大きく、逆に午後の無料開放時間帯、来場者数は多いですが、驚くほど売り上げが少なかったということでした。
売り子から見る「客」の質は、チケットを購入した来場者のほうが圧倒的に高かったことがわかります。よく考えればわかることですが、面白いですよね。。

今回の会も、同じ現象が起きそうです。
第二回技術書同人誌博覧会、12月14日(土)、プラザマームで開催です。
お見逃しなく!そしてご来場・ご来店をお待ちしております!

技術書同人誌博覧会:Webページ:https://gishohaku.dev/
@技術書同人誌博覧会 運営事務局


oXygen 21.1 がリリースされています

oXygen のカレントバージョンは21.1です。古いバージョンをお使いの方はバージョンアップをご検討ください。

主な機能強化点は次のとおりです。

■ DITA 関連

  • 生成される WebHelp(日本語)の検索処理の改善
  • DITA マップやトピックから参照されるリソースの階層/依存関係の表示
  • 関連リンクとして追加できるトピックを素早く見つけられるように
  • 画像の挿入前にプレビュー確認

■ HTML 関連

  • 現在の編集場所で有効な要素、属性、および値の提案、多くの提案の注釈、およびHTML5仕様へのリンク

■ JSON 関連

  • JSON インスタンスを生成するためのさまざまなオプションを設定できるダイアログボックスを新設

その他多数の強化が行われています。詳しくは ここ をご参照ください。


「DITA Festa 2019 Tokyo」開催です

恒例の DITA Festa がやって来ます。
2019年11月27日(水)、28日(木)の二日間、場所は市ヶ谷駅のすぐ目の前です。

今回は、オムロン殿、日本電気殿、ローランド ディー.ジー.殿から DITA の導入事例発表があります。すでに受講受付が始まっていますので、興味のある方はお早めに。参加費は無料です。

詳しくは こちら をご参照ください。


海外出展情報 その2

10月14から17日にロンドンで開催された S1000D User Forum は、航空宇宙および防衛分野の技術文書を作成する多くのアンテナハウスのパートナーおよび顧客と会うことができました。アンテナハウスは卓上展示とベンダーとしてのプレゼンテーションを行いました。フォーラムには世界中から300人以上の航空宇宙および防衛分野の専門家が集まりましたが、その出席者の多くに弊社の Antenna House XSL Formatter を使用していただいています。また同じく弊社の製品である Regressions Testing System と、OSDC (Office Server Document Converter) の PDF を SVG に変換する機能に大きな関心が寄せられました。航空宇宙および防衛分野で使用される技術文書においては、依然としてページ出力が非常に重要とされていますが、現在の目標はその文書をタブレット上に表示することです。SVG になぜ関心があるのかというと、そのページを表示する速度にあります。

プレゼンテーションでは Antenna House XSL Formatter を使用してS1000D サンプル文書をフォーマットし、PDF と SVG 出力を作成しました。次に Regressions Testing System のデモンストレーションでは2つのディレクトリにある8つのペアになっている文書(合計で2,000ページ)の内容の比較を行いました。 デモンストレーションでは各ペアの文書の全ての相違点を2分以内に発見することができました。


Markdownセミナーを開催します

Markdownの活用例として「Markdown + CSS/TeXで冊子本を作ってみた ~仕組みと実践方法のレクチャー~」を開催します。

日 時: 2019年11月14日(木)
会 場: ITS健保センター大久保 1F A
住 所: 〒169-0073 東京都新宿区百人町2丁目27ー6
(関東ITソフトウェア健康保険組合)
イベント詳細: https://connpass.com/event/149490/
申込みページ: https://connpass.com/event/149490/

セミナーでご紹介する内容は、以下の予定です。

  • 第一部 書籍の原稿としてMarkdown を使う
    【LaTeXとPandoc による事例】
    LaTeX は、それ自身もドキュメントの構造化を支援する記法を備えていますが、最近ではより簡便な記法としてMarkdown を採用し、主にPDF 生成のためのエンジンとして使われることも増えています。本セミナーでは、そのような事例のひとつとして、LaTeX とPandoc を併用したMarkdown による書籍制作システムについて紹介します。
  • 第二部 簡単! Markdown+CSSによる冊子本作り―理論と実践
    【Markdownでどうやって原稿を書くか】
    Markdownで冊子本の原稿を書く方法を説明します。Markdown(CommonMarkを中心に)を使って原稿を書く方法と、冊子本を記述するのに必要な機能を検討します。Markdownでは不足する機能についてどのように対処するべきかを考えます。実際に冊子本の原稿を執筆した例を解説します。
    【Markdown原稿をPDFにするにはどうするか】
    マークダウンで作成した原稿から冊子本印刷用PDFを生成するまでの流れを解説します。コマンドラインでNode.js用のスクリプトを使用して原稿をHTMLに変換し、XSLTで目次と索引を自動生成したものをCSSでレイアウト指定してAHFormatterでPDFを出力する実践例の紹介となります。

また、「AH FormatterとCSSを使ったルーズリーフ出版」と AH Formatter に関する最新情報をお伝えします。

是非、ご参加ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : https://www.antenna.co.jp/


Balisageで『Loose-leaf publishing using Antenna House and CSS』の発表 その3

Balisageで『Loose-leaf publishing using Antenna House and CSS』の発表 その2

この記事の続きです。
8月2日(金)米国Washington DCで開催された恒例Balisage会議にて米国の高名なコンサルタントであるEliot Kimber氏より「Loose-leaf publishing using Antenna House and CSS」と題した発表がありました。
原文はこちらにあります:

Loose-leaf publishing using Antenna House and CSS(Balisage: The Markup Conference 2019 July 30 – August 2, 2019)

発表資料ではこれらの課題をどのように解決したかを具体的なサンプルコードを示し説明を行っています。原文の他に、日本語翻訳版もWeb上にご用意いたしました。ぜひご参照いただき、より理解を深めていただければ幸いです。

https://www.antenna.co.jp/AHF/ahf_jirei/pdf/201909/Loose-leafPublishingUsingAntennaHouseAndCSS-J.pdf


「ソフトウェア&アプリ開発展【秋】」(通称 SODEC ) 出展

2019年10月23日から開催される「ソフトウェア&アプリ開発展【秋】」(通称 SODEC ) にアンテナハウスは今年も出展致します。

PDFの作成から閲覧や加工・編集しPDFの再利用を目的としたツールをご紹介いたします。PDFは作って見るだけではありません。くっつけたり離したり、お望み通りに加工・編集が可能です。
こんなことが出来ないかなとか、出来たらいいなといったご要望があればご相談に乗ります。
他にもXMLなどドキュメント作成や変換などのお手伝いをいたしますので、ぜひともアンテナハウスブースへお立ち寄りください。

■ ご紹介製品

  • PDF Tool API
    ページ結合・分割、しおり・注釈編集・セキュリティ付与などのPDF 加工機能を行うAPIです。
    ブラウザからの呼び出しでの利用方法をデモします。
  • AH Formatter
    XSL-FO を忠実に実装し、日本語組版など多くの拡張機能で商品レベルの書籍組版ができます。
  • PDF Driver
    GDI 型の仮想プリンタドライバと、これを制御する付属APIのセット製品です。
  • Office Server Document Converter
    Microsoft Officeがインストールされていない環境でも、Word/Excel/PowerPoint等の文書をPDFや各種画像ファイルへダイレクト変換するライブラリです。
  •  PDF Server
    サーバ上で画像データやMSOffice文書からPDFを生成し、イントラネットで配信したり、各種グループウェアへ自動登録を行う開発不要のサーバソリューションです。
  • PDF Viewer SDK
    PDFの表示と編集、印刷のコントロールを行う専用アプリケーション開発用ライブラリです。

■ 展示会詳細とアンテナハウスブース

「ソフトウェア&アプリ開発展【秋】」
会 期:2019年10月23日(水)~2019年10月25日(金)
10:00~18:00(25日のみ17:00終了)
場 所:幕張メッセ
展示製品: https://www.antenna.co.jp/system/
★アンテナハウスブース:14-25


Balisageで『Loose-leaf publishing using Antenna House and CSS』の発表 その2

Balisageで『Loose-leaf publishing using Antenna House and CSS』の発表
この記事の続きです。

8月2日(金)米国Washington DCで開催された恒例Balisage会議にて米国の高名なコンサルタントであるEliot Kimber氏より「Loose-leaf publishing using Antenna House and CSS」と題した発表がありました。

原文はこちらにあります:

Loose-leaf publishing using Antenna House and CSS(Balisage: The Markup Conference 2019 July 30 – August 2, 2019)

ルーズリーフ出版とは、以前に印刷された文書のページ番号は変更せずに、内容の更新を行う出版方法です。文書の更新により新しいページが作成されると、それらのページには元のページ番号に修飾子を加えたページ番号、例えば「10.1」、「10.2」などが付与されます。このようなページは「ポイントページ」と呼ばれます。

Eliot Kimber氏の挑戦

ルーズリーフ出版の課題の1つは、文書の2つのバージョン間でどのページが変更されたかを判断することです。Eliot Kimber氏は次の様なパイプラインでルーズリーフ出版を行うことを考えました。

  1. 編集者は、変更されたページの開始と終了のマークを含むXMLソースを準備します。開始は常に、以前のバージョンのページの開始に対応し、終了は変更が終了する場所です。
  2. 入力XMLソースはXHTMLを生成するために前処理し、必要に応じて一般的にはCSSページ組版を可能にし、また具体的には、変更ページの生成を可能にするために拡張されます。
  3. 拡張されたXHTMLは、CSSスタイルを使用してAHFによってレンダリングされ、最初のエリアツリーが生成されます。
  4. 最初のエリアツリーが処理され、ポイントページ番号とそれらのページを参照するページのページ番号が更新されます。変更パッケージが作成されている場合、変更されていないページはすべて除外され、生成された「更新の説明」の節、目次、表紙など、変更されたページとパッケージに必要な他のページのみを反映するエリアツリーが作成されます。
  5. マスターページの履歴データベースが更新され、更新されたバージョンの文書のページの詳細が反映されます。これには開始ページと終了ページのIDを持つ要素からのマッピングが含まれます。
  6. 更新されたエリアツリーはAH FormatterによってPDFにレンダリングされます。

そのためには、変更された一連のページ内のどの場所でポイントページが必要かを知る必要があり、変更パッケージの目次を生成する必要があり、変更パッケージの「更新の説明」と「有効ページのリスト」の節を生成する事が課題となりました。

CSSページ組版の課題

加えて、CSSでページ組版を行う上で、いくつかの課題があります。
CSSページ組版を有効にするために完了しなければいけない事項としては:

  • 目次、巻末索引、および類似のナビゲーション構造の生成。
  • 構造化されたヘッダとフッタを作成するために使用される要素の生成。たとえば書式設定が異なる複数行のヘッダ、またはHTMLの個別の要素を必要とするインライン書式設定など。
  • @class値またはその他の考えられる手がかりを追加して、CSSスタイリングを可能に(先読みして)またはより便利にする。
  • ソースの順序に関係なく表示される要素の並べ替え。たとえば、図のキャプション要素を図の上部から図の下部に移動したり、メタデータ要素または属性を使用して表示されるコンテンツ(著作権ページや各記事または章の著作者など)を合成する。
  • ラッパー構造を追加して特定のフォーマット効果を有効にするか、スタイリングを簡単にする。
  • 作成されたさまざまなマークアップパターンを持つ要素のマークアップを標準化する。たとえば、リスト項目に段落要素を追加してCSSスタイルシートを単純化する。
  • CSSだけでは生成が困難または不可能なテキストを生成する。

またスタイルシートを実装する際、次の様な課題がありました。

  • 特定のレイアウト機能に関連する定義を、関連するW3C仕様の中で見つける。
  • AH Formatterが仕様で定義された特定の機能を実装しているかどうかを判断する。
  • 複雑なレイアウト要件においては、AH Formatterを使用した最適なソリューションを判断する。
  • 改ページを動的にコントロールする。

ほとんどのレイアウト要件では、CSSの開発は通常のCSS技術の範疇の単純な応用で可能でしたが、 次の複雑な要件を満たす必要がありました。

  • ページのfirst またはlast値を反映する必要がある柱 (ランニングヘッダとランニングフッタ) の要素の境界を越えたカウンターと変数の管理。
  • 改ページの管理。 改ページ制御のCSSセマンティクスは、XSL-FOほど明確ではない。特に、CSSには「keep together always」または「keep with next always」コントロールがない。 これにより、ページの下部にあるセクション見出しと、コンテンツが介在しないサブセクションの見出しの間など、残念な改ページが生じることがあった。改ページをより適切にコントロールするには、AHF拡張機能を使用する必要があった。
  • 幅の広いページ端領域のサイズとレイアウトの制御。ページ端領域のCSS設計では、単一の領域が端領域のほとんどまたはすべてを占めることを明確に許可していない。これにより、長いコンテンツ(たとえば、長いセクション見出し)を持つ右揃えまたは左揃えのヘッダを作成することが困難になっている。

Eliot Kimber氏はこれらの課題をCSSページ組版用にXMLを準備し、AH Formatterの拡張機能を用いて、クリアーしていきました。

発表資料ではこれらの課題をどのように解決したかを具体的なサンプルコードを示し説明を行っています。原文の他に、日本語翻訳版もWeb上にご用意でき次第、ここにお知らせいたしますので、ぜひご参照いただければと思います。

その3 >>


[AH Formatter] より良い欧文組版を目指して その3

[AH Formatter] より良い欧文組版を目指して
[AH Formatter] より良い欧文組版を目指して その2
上記の記事の続きです。

欧文組版で考慮すべき事柄には以下もあります。
読み手に違和感が発生しないように工夫して組版する必要があります。
適切なプロパティの値を設定したり、元文書を直すことで対処できます。

・ハイフネーションできない単語を含む行の前後で字間が空き過ぎる
ハイフネーションができない単語が行末にある場合、その行前後で空白が空きすぎる場合、表現を変えるか、固定幅の空白文字を挿入する等の対処が考えられます。

・widow や orphan を回避したことによるページ量の増加
『AH Formatter』では widowsプロパティで最低何行から次ページに送るかを設定をすることができますが、プロパティの値によってはページ数が増える可能性があります。もし、それが許容できる範囲ではない場合、widowsプロパティの値を変える、行の高さを再設定するなどで対応することが出来ます。

組版で審美的な問題が発生したとき、いちいち手で修正するのは面倒です。
『AH Formatter』では自動組版をもっと便利に利用できるよう、有用なプロパティを開発しています。

また、目視で組版結果を判定せずプログラムによって自動で判定し、上記のような審美的な問題を自動検出できれば文書作成のコストはぐっと下がるだろうと思います。対応策などもサジェストしてくれるものだとなお良いでしょう。
 
 
AH Formatter ロゴ

『AH Formatter』の評価版は以下のページよりお申し込みいただけます。是非、お試しください。
AH Formatter 評価版のお申し込み

『AH Formatter』についてお問い合わせがございましたら sis@antenna.co.jp 宛てにご連絡ください。


Pages: 1 2 3 4 5 6 7 8 9 10 ... 13 14 15 Next