作成者別アーカイブ: AHEntry

『Office Server Document Converter』OpenXMLSDKでマージしたdocx(Word)文書の対応

現在のOffice Server Document Converter(OSDC)(V7.0)はマージされたWord文書に対応していません。ユーザからの要望がありマージされた文書への対応を検討しています。

Word文書内のwordフォルダはいくつかのxml文書で構成されています。

document.xml 本文
fontTable.xml フォント
settings.xml セッティング
style.xml スタイル
footer1.xml フッタ
header1.xml ヘッダ
footnote.xml 脚注
endnote.xml 文末脚注
numbering.xml 箇条書き設定

などです。
OpenXMLSDKでマージした文書にはこのwordフォルダ内にマージされたWord文書がそのまま入っています。

afchunk1.docx

このdocxファイルの参照は本文中にある<w:altChunk>から行います。

 <w:altChunk r:id="AltChunkId0"/>

ファイル_rels/document.xml.relsからr:idに対応する文書を得ます。

 <Relationship Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/aFChunk" Target="/word/afchunk1.docx" Id="AltChunkId0" />

これで、マージされたWord文書(Target=”/word/afchunk1.docx”)を得ることができます。

このファイルはWord文書そのものです。

<w:altChunk>というエレメントはBlock要素です。

 <xsd:group name="EG_BlockLevelElts">
    <xsd:choice>
      <xsd:group ref="EG_BlockLevelChunkElts" minOccurs="0" maxOccurs="unbounded"/>
      <xsd:element name="altChunk" type="CT_AltChunk" minOccurs="0" maxOccurs="unbounded"/>
    </xsd:choice>
  </xsd:group>

Block要素としては<w:p><w:tbl>などがあります。
これらの要素と同じように処理すればマージした文書になるはずです。

<w:p/><w:p/><w:p/>
<w:altChunk/> ここにマージ文書を挿入する
<w:p/><w:p/><w:p/>

document.xml内は

<w:document>
 <w:body>
  <w:p/>
  <w:p/>
  <w:tbl/>
  ...
  <w:p/>
 </w:body>
</w:document>

のように並んでいます。
マージするとき、 <w:document><w:body>の処理を行えば、内部は外側の文書と同じBlock要素として処理できます。問題は、あくまで別文書として処理しなければいけない。外側と、内部文書では参照するファイルが異なります。style.xmlなどは独立した設定になるはずです。

OSDCでは <w:altChunk>で指定されたWordファイルから新しいdocumentクラスを作成する。
documentクラスからページ作成を継続する。
documentクラスの処理が終了したら親のdocumentの<w:altChunk>に戻り処理を継続する。
このような実装を行っています。

今後も要望などを検討しよい製品にしていきます。


Antenna House PDFXML ライブラリ V3.0』鋭意開発中

『Antenna House PDFXML ライブラリ』は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

公開バージョンは『Antenna House PDFXML ライブラリ V2.0 MR2』2018年6月28日リリースです。
次期バージョンは『Antenna House PDFXML ライブラリ V3.0』です。リリース時期は2019年2月中となっております。
旧バージョンと比較して、表などの解析精度が大幅に改善しています。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


『アウトライナー2.5』鋭意開発中

『アウトライナー』が復活します。

『アウトライナー』はPDFのしおりと目次の作成やページの移動・削除などに大変便利なプロフェッショナル向けPDF加工ツールです。しおりを作成する操作性は群を抜いて便利です。最終バージョンは『アウトライナー2』で、2018年5月15日をもって販売を終了、2018年11月2日をもってユーザーサポートを終了させていただいております。
「アウトライナー」は多くのユーザーに、長らくご愛顧いただいており、後継製品のご要望を賜りました。この度『アウトライナー2.5』として、販売を再開する運びとなりました。

『アウトライナー2』と『アウトライナー2.5』の相違点

  • Windows10 などの最新 OS に対応
    『アウトライナー2』は Windows10 では動作しません。
  • 「しおり」と「目次」の自動解析エンジンを刷新
    アウトライナー2は RTFJ(Rich Text Format Japanese)ベースの解析エンジンです。
    アウトライナー2.5 は Antenna House PDFXML ベースの解析エンジンです。
  • ベースコンポーネントを刷新
    PDF の表示は Antenna House PDF Viwer SDK を使用します。
    PDF の加工は Antenna House PDF Tool API を使用します。

『アウトライナー』はこんなことができます

  • 「しおり」と「目次」を自動生成します。
    本文を解析して、しおりを自動生成します。
    本文の目次ページを解析して、しおりを自動生成します。
    しおり情報を、しおり外部ファイルXML形式,CSV形式,JSON形式(New)として保存できます。
  • コマンドライン版があります。
    任意のPDFを、自動解析して、しおり外部ファイルを生成できます。
    任意のPDFと、しおり外部ファイルを組み合わせて、しおりを設定したPDFを生成できます。
  • 簡単な操作でPDFの「しおり」を編集できます。
  • 目次ページを自動レイアウトで生成してPDFに差し込むことができます。
  • ページの削除や移動、ページ番号の書き換えなどができます。

外観とインターフェースには、ほとんど変更はありません。見た目は同じですが、製品を構成するベースコンポーネントは、すべて最新に入れ替えられています。2019年4月リリースに向けて鋭意開発中です。

『アウトライナー』のページ

 


PDFを再利用する。

PDFが登場してからほぼ4半世紀経過しました。PDFはもともと紙に印刷していたレイアウトのデジタル版として電子的に共有・閲覧するために開発されたものです。しかし、4半世紀経過し、PDFが日常的に使われるようになるとともに、PDFとして作成されたデータを再利用したいというニーズがどんどん増えています。

本日はPDFのデータ再利用の形態別に、弊社でご提供しておりますツール類をご紹介致します。

テキストを再利用
PDFの再利用の基本は、文字をテキストファイルとして取り出したいという用途でしょう。シンプルなレイアウトのものとしては契約書などの文字だけの文書があります。複雑なレイアウトのものとしては新聞の紙面、雑誌の誌面として作成されたPDFから文字を取り出したいというニーズがあります。

PDFの閲覧ソフトは画面に表示された文字を選択してコピーする機能がありますので、これを使うと簡単にできそうです。しかし、実際にやってみますとなかなか思い通りにはなりません。

これについては、なぜ思い通りにはならないかを整理してPDF資料室に用意しております。

簡単そうで簡単ではないPDFのテキスト抽出

HTMLにして再利用
また、ときどきお問い合わせをいただくのはPDFの内容をWebページ(HTML)にしたい、というニーズです。この場合の難易度はWebページの仕組みをどうするかに掛かってきます。この仕組みを大きく分類しますと、Webページの内容をHTMLで直接マークアップするか、それとも、コンテンツ管理システム(CMS)にデータを登録して、WebページをCMSで生成するかになりそうです。CMSを使う場合は、PDFからテキストと画像を取り出すことになります。PDFの内容をHTMLにして利用したいというときはPDFの内容をどのように構造化するか、という課題が付け加えられます。なお、HTMLはWebページだけではなく、社内でのデータ蓄積・分析のために使われることも多いようです。

PDFをHTML変換するツールは世の中に幾つかあります。しかし、HTMLファイルとしてからの利用形態や利用目的が多様なため、市販のツールは帯に短し襷に長しという状態になってしまうことがあるようです。

アンテナハウスでは、残念ながら、現在PDFからHTML変換ツールは用意しておりません。但し、PDFをXML形式に変換するツールとしてAHPDFXMLを提供しています。

AHPDFXML:PDFの内部のテキスト、表、図をXML形式に変換!

AHPDFXMLの特長はPDFの表を認識して、表としてマークアップして出力できることです。こうした特長を評価して採用していただいているケースがあります。

PDFの画像を取り出して再利用
PDFに入っている画像を再利用するのは簡単です。

例えば、『瞬簡PDF変換』では、PDFの中にある画像をファイルとして取り出せます(次の図)。

『瞬簡PDF変換』

PDFから画像を取り出す機能をシステムに組み込んで利用するのはPDF Tool APIをお使いいただけます。

PDF Tool API
PDF CookBook V3:2.1 画像抽出

PDFの一部を線画で切り出して再利用
PDFの一部を線画(SVG)の形式で切り出して再利用もできます。

PDF Viewer SDKには、画面で選択した範囲を線画として切り出す機能があります。

PDF Viewer SDK

PDF Viewer SDKの線画切り出し機能と同じですが、PDF加工画像化ツールもあります。こちらはもう少し高機能で数式などを選択してSVG画像化もできます。

PDFからSVGを切り取りできる PDF加工画像化ツール

お問い合わせは
こうしたツール類の他に、お客様のご要望に応じてカスタム開発なども承っております。なにかお困りのことがございましたら、ぜひご相談ください。

お問い合わせ


『JLA図書館実践シリーズ 37・38 図書館利用に障害のある人々へのサービス アクセシブルなEPUB版』販売中です。

お久しぶりです。
電子出版サービスグループの当番がやって参りました。

2018年12月20日、アンテナハウスオンラインショップから、CAS-UBで制作されたEPUBを販売しました。

JLA図書館実践シリーズ 37・38
図書館利用に障害のある人々へのサービス アクセシブルなEPUB版
(日本図書館協会障害者サービス委員会 編)

本書は、図書館の「障害者サービス」の基本テキストです。障害者サービスを「図書館利用に障害のある人々へのサービス」という幅広い概念でとらえ、図書館を利用する際の障害を取り除き、すべての人々が図書館サービスを受けられる環境づくりのために必要な考え方、ツール、資料、サービスの実践、さらには関係する制度・法規にも言及しています。(cas-supportブログより)

書籍の詳細は、アンテナハウスオンラインショップの販売ページにてご確認いただくとして、このEPUBの特長は、一般的なEPUBの特長のほかに、視覚障害者に少しだけ優しいという点です。

  1. DRMがかかっていないので、音声読み上げがスムーズです。
  2. 各所に挿入されている図や写真には代替テキストを用意しています。
  3. Windows最新Webブラウザ「Microsoft Edge」などで閲覧できるほか、プレクストークPTR3、MyBookⅤ(2019年1月以降対応予定)、Dolphin EasyReader、など、様々な機器、ソフトで再生できます。
  4. 紙の書籍と同じ「ページ」になっています。従って、「○○ページを見て」という意思疎通が可能です。

紙の書籍では上下巻構成となっていますが、EPUB版は合本です。電子書籍にご興味をお持ちの方は、少しだけお得なのでぜひ購入してみてください。紙版と見比べてみても面白いですよ。

なお、紙版については日本図書館協会販売部他、全国の書店、オンライン書店にて販売中です。
電子書籍(EPUB)は、アンテナハウスオンラインショップで販売中です。

  • アンテナハウスオンラインショップ 販売ページ
  • 電子書籍制作Webサービス:CAS-UB

DITAをPDFに(PDF5-ML)

昨日 は DITA を docx に変換する DITA-OT プラグインのことを書きましたが、やはりいまだにマニュアル系は PDF が主流です。

DITA-OT には DITA で書かれたインスタンスを PDF にするためのスタイルシート(プラグイン)が標準で入っているのですが、残念ながら機能的にしょぼくて、あまり積極的に使いたいと思うようなものではありません。多くの人がまず「日本語が文字化けするんだけど」という問題にぶつかります。

アンテナハウスはこれに替わるプラグインを公開しました。”PDF5-ML”といいます。
https://github.com/AntennaHouse/pdf5-ml

“ML”というのは”Multiple Language”の略で、その名のとおり多言語対応を得意としています。
ひとつの DITA トピックファイルの中に複数言語が混在することがありますが、このような場合でも言語毎のフォント選択をきっちり行うことができます。
DITA 採用時にぜひお試しいただければと思います。

アンテナハウスはこのプラグインのカスタマイズ作業も請け負っております。PDF 生成でお悩みの方はご一報下されば幸いです。


DITAからWord(docx)への変換

最近「DITA から Word へ変換することはできないか」というお問い合わせをいただくようになりました。
日本で英語マニュアルを作って、それを各国の販社に送り、販社側でローカライズするには Word が便利なのでしょう。

Word へ変換する DITA OTプラグインはあるにはあります。
https://github.com/jelovirt/com.elovirta.ooxml
しかし、もう2年くらいメンテナンスがされておらず、ちょっと商用では使えないレベルのものです。docx の仕様があまりにも難しいというのが理由のひとつだと思われます。
XSL-FO の仕様は PDF にすると500ページ程度に対して、Word の Open XML File Format の仕様は PDF でなんと6700ページ。全部読み切った人はいるのでしょうか(^^;

ところがところが、昨年アンテナハウスはこの変換プラグインを開発しちゃいました。しかもオープンソースで、どなたでも自由にお使いいただくことができます。
https://github.com/AntennaHouse/ah-wml

そして、来る3月6日に DITAコンソーシアムジャパン主催の「DITA Festa 京都」の開催が計画されているようで、その中で上記のようなことをテーマにしたセッションがあるみたいです。
関西方面でご興味がある方は今のうちに予定に入れておいてください。

DITA


海外出展情報 その2

Tekom 2018

The European Association for Technical Communication  (欧州技術通信協会)は、11月13日から15日までドイツのシュトゥットガルトで開催される TCWorld aka Tekom  という年次の会議を主催しました。Tekom Europe は、世界最大のテクニカルライターの専門家向けの協会です。

Tekom では、PDF が今日使用されている最も一般的なドキュメントフォーマットであり、PDF を中心としたアンテナハウスの製品には常に大きな関心が寄せられています。 アンテナハウスは、AH Formatter V6.6Office Server Document Converter V7.0PDFXML変換ライブラリV2.0web Interface for AH FormatterWeb Interface for OSDC Regression Testing System V1.4 などの製品を紹介しました。

Tekom の参加者のあいだでは、XSL-FO は最適な組版ストラテジーとして選択されていますが、またページ組版としてのCSSにも非常に興味が持たれています。 AH Formatter V6.6 では、CSS の機能が改善されました。また、Formatter と CSS の併用に興味がある開発者のために、弊社ウェブサイトで CSS ページ組版入門 第4版 を公開しています。またプリントオンデマンド版がAmazon.co.jp から販売開始されました。

アンテナハウス(海外サイト)
http://www.antennahouse.com/

http://rainbowpdf.com/


海外出展情報 その1

DITA Europe

昨年の11月5日から6日にかけて、アンテナハウスはオランダのロッテルダムで開催された CMS/DITA Europe でスポンサーとして参加しました。 第14回目にあたる Content Management Strategies/DITA Europe であり、2日間にわたって DITA に関する貴重な情報がふんだんに提供されました。会議では、参加者は Technology Test Kitchen と呼ばれるセッションで、発表者が新しい DITA ツールまたは CMS の使用方法を説明した後に、一緒に実地経験を積むことができました。

アンテナハウスは、DITA Open Toolkit 用の Antenna House PDF5-ML プラグイン を使用して、1つの DITA 文書に複数の言語をフォーマットする方法についてのデモを Technology Test Kitchen で発表しました。 PDF5-ML プラグインは AH Formatter と連携して動作するように設計されており、DITA Open Toolkit が提供するデフォルトの PDF プラグインよりも使いやすく、変更や管理が簡単で、尚且つパワフルです。 参加者は、PDF5-ML プラグインに大きな関心を示し、多言語ドキュメントを修正して PDF 出力を生成することがどれほど迅速かつ簡単であるかを体験しました。

セッションの合間には、参加者と席者と出展会社が集い友好を深めるための休憩室が設けられていました この会議の出展会社の多くはアンテナハウスのパートナーであり、また参加者の多くは AH Formatter のユーザでしたので、彼らと再会し、ソフトウェアの新機能を紹介し、パートナーシップを強化すべく今後のプランについて話し合う絶好の機会であったと思います。

アンテナハウス(海外サイト)
http://www.antennahouse.com/

http://rainbowpdf.com/


PDFの組み込み用SDK『Antenna House PDF Viewer SDK V3.5』

弊社では、独自のPDFリーダーの開発に利用できる Windows 向けの SDK を販売しております。

PDFの表示以外にも PDFの表示イメージから指定した矩形範囲内をSVG保存すること や、画像保存、テキスト抽出など、PDFデータの再利用にもご使用いただけます。
その他、Acrobatを使用せずにPDFを印刷したい場合にもご利用いただけます。

是非、評価版にてお試しください。

評価版のお申込
評価版のお申込ページ


Pages: Prev 1 2 3 4 5 6 7 8 9 10 ... 169 170 171 Next