タグ別アーカイブ: PDF変換

Server Based Converter V6.0:PDF変換, Flash変換, イメージ変換, サムネイル作成, PDFセキュリティ, Office変換

Server Based Converter  V6.0 では Microsoft Word(.docx) 用読み込みエンジンの改定を行いました。
文書の処理部分を1から作成しなおしました。

以前の読み込みは、リッチテキストコンバータから続くOffice 文書処理技術の蓄積で作成されていました。 最初は doc(OLE) ファイルの処理から始まったプログラムは年月を重ね、プログラム、データ構造などが肥大化し新しい機能への対応も難しくなっていました。

最新の Word ファイル(.docx) の中身は XML ファイルです。
XML 文書処理においては AH Formatter という技術もあり、古い doc 形式のデータ構造から見直し、作り直すこととなりました。

Word の OOXML (Office Open XML) は文書であり、本文 (document.xml) は文字列の並びに Property が付いているだけです。文書ですから先頭からシーケンシャルに処理することが可能になります。
新しいエンジンではシーケンシャルに文書のタグをハンドリングし、処理が終わればデータのメモリは順次開放していきます。このあたりのデータ構造も新しく作り直し、使用メモリ量も抑えることができました。少ないメモリで動作するということは、大きな文書の処理でもスピードが遅くなることが少なくなります。

ページ処理は AH Formatter の Area という構造を使います(以前も使ってはいた)。文書では のパラグラフごとに BlockArea を作成し、Word の段落属性を attribute として設定します。BlockArea 内には LineArea を作成し、親の BlockArea の情報で TextArea を並べ行を作成していきます。
この Area 構造は AH Formatter と同じで、行などエリアの分割なども AH Formatter の組版エンジンプログラムを呼び出し処理します。

また、文字列以外のシェープなどの処理は、今まである Excel,PowerPoint と共通化して同じ処理を行っています。このように新しいエンジンを1から作成したといっても、AH Formatter などの既存のプログラムを使っており、安定感のあるプログラムになっています。
再現性が向上したとの評価もうけています。

興味のあるかた、以前のバージョンをお使いのかたは 評価版 をお試しください。

プログラマの疑問

Word の用紙設定 はなぜ最後にあるのだろう。
用紙設定を取得するために1度最後まで解析する必要がある。
途中にもあるので読み飛ばすわけにはいかない。

30年以上前に日本語ワープロを開発していたプログラマの疑問

[1] AH Formatter


新社会人の皆様、新年度応援キャンペーン実施中

アンテナハウスオンラインショップでは新年度応援キャンペーンセールを行っています。
4月28日15時までの特別価格です。

ぜひ、この機会に『瞬簡PDFシリーズ』をご検討・ご購入下さい。

キャンペーンのURLはこちらです。
https://web.antenna.co.jp/shop/html/products/list.php?category_id=305

「PDFって何」と思った方、まずは下記のページでPDFの基礎をささっと身につけましょう。
アンテナハウス PDF資料室


ボーナスキャンペーン実施中です!!

梅雨明けが待ち遠しいですね。
アンテナハウスオンラインショップでは景気よくボーナスキャンペーンを行っています。
期間は7月29日の17時までです。
通常の価格よりもお求めやすい価格になっていますのでぜひこの機会にご購入下さい。
ボーナスキャンペーンは、オンラインショップのトップページのキャンペーンバナーをクリックして下さい。
または、こちらをご覧ください。


Pages: Prev 1 2 3 4 5