タグ別アーカイブ: Office変換

PDF を Word や Excel に変換!PDF 変換機能をアプリケーションに簡単に組み込むライブラリのご紹介(2)

昨日 に続いて、『Antenna House PDF to Office 変換ライブラリ Ver.1.2.0』(以下、本ライブラリ)をご紹介します。

本ライブラリは、各種アプリケーションへの組み込み用ライブラリとしてご提供します。

以下は、ライブラリを使用してPDFからExcelに変換したサンプルです。

PDF to Office 変換サンプル

さまざまなアプリケーションへの組み込みに対応するため、ライブラリには C/C++、.NET、Java、コマンドラインの各インタフェースが用意されています。
標準的な変換を行うために必要なステップは非常に短いものです。

以下に、サンプルコード(C#の例:一部抜粋)を示します。

	using PtoDotNetCtl;

	public class MainApp
	{
		static public void Main(string[] args)
		{
			...
			PtoObj p_obj = null;
			p_obj = new PtoObj();
			p_obj.setDocumentPath(args[0], "");
			p_obj.setOutputFilePath(args[1]);
			p_obj.setPrinterName(args[2]);
			p_obj.setOptionFilePath(args[3]);
			p_obj.doConvert();
			...
			finally
			{
				if (p_obj != null)
					p_obj.Dispose();
			}
		}
	}

貴社アプリケーションにて PDF から Office への変換機能を活用するため、本ライブラリをご検討いただければ幸いです.

本ライブラリに関する詳細は、『Antenna House PDF to Office 変換ライブラリ』をご参照ください。
本ライブラリの価格・ライセンス条件等、詳しくは、oem@antenna.co.jp までお問い合わせください。

<< ご紹介(1)


PDF を Word や Excel に変換!PDF 変換機能をアプリケーションに簡単に組み込むライブラリのご紹介(1)

弊社のパッケージ製品 『瞬簡PDF 変換 9』 は、PDF を Microsoft Office Word、Excel、PowerPoint の各文書形式に変換することで PDF の再利用を可能とし、たいへんご好評をいただいております。

この変換機能をソフトウェアベンダー様が自社のアプリケーションに組み込んで利用できるライブラリとして提供するのが、『Antenna House PDF to Office 変換ライブラリ Ver.1.2.0』(以下、本ライブラリ)です。

本ライブラリで提供する機能は、PDF ファイル(Ver.1.3 – Ver.1.7)を入力して、Microsoft Word(doc/docx)、Excel(xls/xlsx)、PowerPoint(ppt/pptx)の各形式で別ファイルに保存するものです。

 

PDF to Office 処理概要

これまで、多くのソフトウェアベンダー様からご評価をいただき、PDF で配布されている積算資料や帳票類をExcelに変換するなど、主に土木・会計システムでご採用をいただいております。

本ライブラリに関する詳細は、『Antenna House PDF to Office 変換ライブラリ』 をご参照ください。
本ライブラリの価格・ライセンス条件等、詳しくは、oem@antenna.co.jp までお問い合わせください。

 ご紹介(2) >>


Server Based Converter V6.0:PDF変換, Flash変換, イメージ変換, サムネイル作成, PDFセキュリティ, Office変換

Server Based Converter  V6.0 では Microsoft Word(.docx) 用読み込みエンジンの改定を行いました。
文書の処理部分を1から作成しなおしました。

以前の読み込みは、リッチテキストコンバータから続くOffice 文書処理技術の蓄積で作成されていました。 最初は doc(OLE) ファイルの処理から始まったプログラムは年月を重ね、プログラム、データ構造などが肥大化し新しい機能への対応も難しくなっていました。

最新の Word ファイル(.docx) の中身は XML ファイルです。
XML 文書処理においては AH Formatter という技術もあり、古い doc 形式のデータ構造から見直し、作り直すこととなりました。

Word の OOXML (Office Open XML) は文書であり、本文 (document.xml) は文字列の並びに Property が付いているだけです。文書ですから先頭からシーケンシャルに処理することが可能になります。
新しいエンジンではシーケンシャルに文書のタグをハンドリングし、処理が終わればデータのメモリは順次開放していきます。このあたりのデータ構造も新しく作り直し、使用メモリ量も抑えることができました。少ないメモリで動作するということは、大きな文書の処理でもスピードが遅くなることが少なくなります。

ページ処理は AH Formatter の Area という構造を使います(以前も使ってはいた)。文書では のパラグラフごとに BlockArea を作成し、Word の段落属性を attribute として設定します。BlockArea 内には LineArea を作成し、親の BlockArea の情報で TextArea を並べ行を作成していきます。
この Area 構造は AH Formatter と同じで、行などエリアの分割なども AH Formatter の組版エンジンプログラムを呼び出し処理します。

また、文字列以外のシェープなどの処理は、今まである Excel,PowerPoint と共通化して同じ処理を行っています。このように新しいエンジンを1から作成したといっても、AH Formatter などの既存のプログラムを使っており、安定感のあるプログラムになっています。
再現性が向上したとの評価もうけています。

興味のあるかた、以前のバージョンをお使いのかたは 評価版 をお試しください。

プログラマの疑問

Word の用紙設定 はなぜ最後にあるのだろう。
用紙設定を取得するために1度最後まで解析する必要がある。
途中にもあるので読み飛ばすわけにはいかない。

30年以上前に日本語ワープロを開発していたプログラマの疑問

[1] AH Formatter