PDFをWordに変換!組み込み用ライブラリのご紹介

前回まで、PDFをExcelに変換する組み込み用ライブラリをご紹介しましたが、アンテナハウスでは、『PDF to Word 変換ライブラリ』についても公開を予定して、準備をしているところです。

こちらのライブラリは、読んで字の如く、PDFをWordに変換して再利用していただくための組み込み用ライブラリとなります。

ご存じのように、Wordは、Excelと並んでMicrosoft Officeの中核をなすソフトウェアであり、Windowsワープロソフトのデファクトスタンダードとして、膨大な数のユーザが存在しております。
『PDF to Word 変換ライブラリ』をお客様のシステムに組み込んでいただくことで、これまでできなかったさまざまなニーズへの対応がご検討可能となります。

弊社では長年にわたってPDFからWordへの変換精度を改善し、パッケージ製品に反映してきました。お客様のシステムに本ライブラリをご利用いただくことで、そうした成果を活かしていただければ幸いです。
どうぞ、ご期待ください。

※『PDF to Word 変換ライブラリ』はOEM専用製品となります。評価版のご希望、ライブラリの価格等、詳しくはoem@antenna.co.jpまでお問い合わせください。




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

PDFをExcelに変換!組み込み用ライブラリのご紹介(2)

『PDF to Excel 変換ライブラリ』は、Windows専用変換ライブラリです。

以下のOS上での動作を保証しています。

  • Windows 8 (32ビット/64ビット)
  • Windows 7 (32ビット/64ビット)
  • Windows Vista (32ビット/64ビット)
  • Windows XP Professional SP3(32ビット/64ビット)
  • Windows XP Home Edition SP3
  • Windows Server 2008 R2 (64ビット)
  • Windows Server 2008 (32ビット/64ビット)
  • Windows Server 2003 R2 (32ビット/64ビット)
  • Windows Server 2003 (32ビット/64ビット)

また、Microsoft Windows Server 2008 ターミナルサービスやCitrix XenApp 6.0など、シンクライアント環境での動作確認もしております。

『PDF to Excel 変換ライブラリ』の主な仕様は以下の通りです。

  • PDF(1.3~1.7)を読み込み、Microsoft Excel(97-2003:XLS)形式ファイルに変換して指定されたフォルダへ保存します。
  • PDF1ページをExcelの1シートに変換します。
  • 内部に文字情報を持つPDFからは、変換時にPDFデータを解析して書式を仮定し、Excelに変換します。
  • PDFで使用されているフォントは、最も近いフォントをパソコン上で検索してExcelに変換しますが、近似のフォントがインストールされていない場合は、元のイメージを再現できないことがあります。
  • 本ライブラリは、マルチスレッドには対応しておりません。
  • C/C++インタフェースと.NETインタフェースを備えています。
  • パスワードで保護されたPDF は変換できません。

なお、PDFはその作成方法によって、スキャナで紙媒体を読み取って作成されたPDFやフォント埋め込み処理されたPDF など、内部に文字情報が保存されていない場合があります。このようなPDF からは通常、テキスト部分の変換ができません。
『PDF to Excel 変換ライブラリ』では、OCRオプションをご用意して、上記のようなPDFからの変換をサポートしています。

※『PDF to Excel 変換ライブラリ』の詳細につきましては、製品の紹介ページをご参照ください。
※『PDF to Excel 変換ライブラリ』はOEM専用製品となります。評価版のご希望、ライブラリの価格等、詳しくはoem@antenna.co.jpまでお問い合わせください。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

PDFをExcelに変換!組み込み用ライブラリのご紹介

アンテナハウスでは、PDFを読み込んでMicrosoft Excelのファイル形式に変換する機能を各種アプリケーションへの組み込み用ライブラリとして販売しています。

このライブラリは、アンテナハウスのパッケージ製品『瞬簡PDF 変換 シリーズ』で定評のあるPDF→Excel変換エンジンをベースに、各種アプリケーションから呼び出すためのインタフェースをご用意したものです。

『PDF to Excel 変換ライブラリ』を使用すれば、お客様のシステム上でPDFに保存された申請書や表データをExcelに取り出し、業務で再利用することが可能になります。

本ライブラリの最大の特長は、その高い変換精度にあります。

本ライブラリは、PDFファイルを解析し、PDFから表部分の罫線や文字を抽出し、フォント種類やサイズ、セル内での位置なども 可能な限りExcel に再現します。
また、数値と判断できるデータはExcel上でも数値としてセルに配置しますので、そのままセル間での集計を行うことも可能になります。

pdfs.pngPDFからExcelへの変換例変換先Excel

  • 画像をクリックすると拡大します。

これまで本ライブラリをご契約いただいているお客様では、土木・建築関連の積算システムで利用されるケースが多いように見受けられます。

官公庁や自治体などの入札に関する書類がPDFで配布される場合に、本ライブラリの特長を利用してこれらのPDFを直接Excel に変換し、見積もり作成などに利用できれば、作業効率はぐんとアップします。

次回も『PDF to Excel 変換ライブラリ』について、ご紹介します。

※『PDF to Excel 変換ライブラリ』の詳細につきましては、製品の紹介ページをご参照ください。
※『PDF to Excel 変換ライブラリ』はOEM専用製品となります。評価版のご希望、ライブラリの価格等、詳しくはoem@antenna.co.jpまでお問い合わせください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


アウトライナー
PDFを解析して しおり・目次を自動生成

デスクトップ製品の機能

アンテナハウスでは、PDFの作成やPDFから他形式ファイルへの変換、PDFへの文字追記やPDFの分割・結合など、PDFを扱うソフトウェアを多く販売しておりますが、お客様より、ご希望の用途を実現するためにはどの製品を購入したら良いかわからないといったお問い合わせを頂くことがあります。
製品によっては使用できる機能、使用できない機能がありますので、ご購入の際には、用途に合わせた製品をお選び頂く必要がございます。
ご希望される機能がどの製品で使用できるかわからない時は、
アンテナハウスのWebサイト内にある『機能比較表』を
ご参照ください。
各製品で使用可能な機能を表形式で公開しております。
また、『瞬簡PDF 活用教室』のページでは、各製品について動画でわかりやすく解説していますので、こちらもご参照の上、用途に合った製品をご検討ください。
なお、ご希望の機能が複数の製品に渡る場合、
アンテナハウス デスクトップ製品をセットにした『瞬簡PDF 統合版』がお得です。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

4月1日

P1000001.jpg
4月1日です。
年度初めです。
週末に出先で桜の写真をいくらか撮ってみたのですが、あいにくの曇り空でイマイチでした。
ので、何年か前に撮った桜を引っ張り出してきました。
P1000002.jpg
いまはこの桜は切られてしまってないそうです。

続きを読む




HTML on Word
WebページをWordで作る!


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

PDF Driver API V6

3月19日にAntenna House PDF Driver API V6がリリースされました。
PDF Driver APIでは大量のファイルを変換する場合に
マルチスレッド変換で時間を大幅に短縮することができます。
C#のサンプルを用意しましたので是非お試しください。
https://www.antenna.co.jp/ptl/ptl_file/sample/pdav60/pdfconverter_demo.zip




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

けっこう世界で使われているAH Formatter(その2)オライリーの書籍の75%

コンピュータ関連本(表紙に動物の絵)の出版社として有名な米国オライリーメディア社(O’Reilly Media)で、AH Formatterが組版に使われています。現在はO’Reillyの書籍の75%がAH Formatterで組版されているそうです。

O’Reillyでの本の制作は、ひとつのソース(AsciiDocという簡易マークアップ)からXML→HTMLへと変換して、EPUB電子書籍などと同時に、HTML+CSS(印刷用)による組版でPDFが作られているということです。

たとえば、この EPUB3 Best Practices という本を見てみましょう。EBook版を購入するとDAISY、EPUB、Mobi、そしてPDF版をダウンロードすることができます。(無料のPDF版の見本を立ち読みすることもできます。)

PDF版を開いて、文書のプロパティを確認すると、この本が「アプリケーション: AH CSS Formatter V6.0 MR2 for Linux64」で組版されているということが分かります:

「本を作るための新しい仕組み」と組版エンジン AH Formatter

O’Reillyのように(それからアンテナハウスCAS-UBのように)、ワンソースから紙の書籍・PDF・EPUB等を同時に制作する、本を作るための新しい仕組みが世界中で登場しています。これについて、CAS-UBブログの次の記事をお読みください:




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

けっこう世界で使われているAH Formatter(その1)米国国税庁(IRS)

このあいだNYでの出版と電子書籍関連のイベントに行ってきた知り合いから、「“Antenna House”の名前をずいぶん聞いた、XML組版といえば“Antenna House”らしい。アンテナハウスさんが海外でそんなに有名だなんて知らなかった」と言われました。

そうです。わがAH Formatterは、けっこう世界で使われているのです!

たとえば、米国国税庁(IRS=アメリカ合衆国内国歳入庁)の組版システムに採用されて、米国の税金に関する文書の多くがAH Formatterで組版されています。これらの文書(PDF)はIRSサイトで公開されておいるので、確認することができます:

ここから、例えば “TAX GUIDE 2012: Your Federal Income Tax, For Individuals” を見てみましょう。


このような文書です。本文のレイアウトは、段組のページ上に段抜きでフロート配置される図表が多いのが特徴です。XMLデータからの自動組版で、これが実現できる組版エンジンということでAH Formatter V6が採用されたのです。

でもこの米国国税庁の出版物が本当にAH Formatterで作られているのか、どうして分かるのでしょう? それはPDFの文書のプロパティを見ればわかります。

これで、「アプリケーション: AH XSL Formatter V6.0 MR4b for Linux64」を使ってこの文書が組版され、「PDF変換: Antenna House PDF Output Library」でPDF出力されているということが分かります。自分たちが企画・開発・販売した製品が、このように役に立っているということを見ることができるということは、仕事をした甲斐があるというものです。

さて、次回はこの続きで、米国オライリーメディア社でのAH Formatterの利用について、紹介します。オライリー(O’Reilly)といえばコンピュータ関連の書籍(表紙に動物の絵)の出版社として有名です。そこで出版される書籍の多く(現在は約75%だそうです)が、AH Formatterで組版されているということ、オライリー本の読者にもあまり知られていないと思いますが…。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

PDF/UA(ISO 14289-1)について

みなさん、こんばんは。
前回に続けて、 ISO 14289-1 規格についてです。今回はこの規格の仕様書(2012年7月25日初版、2012年8月1日修正版)の内容を見てみます。
この規格に関連する仕様として、ベースとなる ISO 32000-1 のほかに、W3Cの Web Content Accessibility Guidelines(WCAG) 2.0が記載されています。
仕様書ではPDF/UAファイルのバージョンの識別方法、準拠レベル、ファイルフォーマットに関する要件が記載されます。(このあたりはPDF/A、PDF/X などのファイルと同様の構成です)。準拠レベルは PDF/A-1では Lebel A,Level Bの2種類が定義されていましたが、PDF/UAにはこのようなレベルはありません。
続けて、この規格に準拠するリーダ(Conforming Reader)に対する要件が記載されます。
ファイルフォーマットに関する要件は主にPDF/UAファイルの作成者(書き手)側に対する要件ですが、こちらは、PDF/UAファイルが持つアクセシビリティ機能を利用可能とするためにリーダ(読み手)に必要とされる要件が提示されます。
最後にATに対する要件が定義されます。ATとは、障害をもつ人によって使用され、代替えのコントロールや表示を提供したり、有効な機能の使用方法や情報を提供するソフトウェアあるいはハードウェアといった定義がされています。準拠リーダと統合可能と記載されています。
ファイルフォーマットの要件の主な規定は、ドキュメントをその構造に沿って解釈できるように、タグ付けされていることにあります。このタグの使用方法、論理構造の表現などについて、テキスト、画像、表、リストなどの各項目についての規定が説明されています(元のISO 32000-1に定義されているPDFのタグ付を理解していないとこのあたりは難しいかもしれません。稿を改めて説明してみたいと思います)。
フォントの埋め込みもPDF/A,PDF/Xと同様に必須とされています。一方、注釈やアクションについては、印刷時の再現性等を求めるための規格ではありませんので、用法に制限がありますが、完全に禁止とはなっていません。この部分はリーダ側の要件とも関係してきます。
リーダ側の要件については、後日、説明いたします。
■ご参考:アンテナハウスPDF資料室




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

PDF/UA(ISO 14289-1)について

今回、および次回は PDF/UAと呼称される ISO 14289-1 規格について記載してみます。
ISO 14289-1(以下、PDF/UA)は昨年、国際標準となった規格で、規格書初版は 2012年7月25日に初版が発行されています。
規格書のタイトルは、
Document management applications —
Electronic document file format enhancement for accessibility —
Part 1: Use of ISO 32000-1 (PDF/UA-1)

となっています。
PDF/UAも今まで説明してきた、PDF/X、PDF/Aの各規格同様に、PDFの仕様書をベースとして、それぞれの用途に沿った規則を設けたものになります。今回とりあげる ISO 14289-1という版は 、タイトルにもありますように、ISO 32000-1をベースとし、その機能のなかから、使用してはいけない機能、使用方法に制限のある機能などを定めた規格となります。
PDF/UAのタイトルに、アクセシビリティのエンハンスメントとあります。PDFにおけるアクセシビリティの向上とはどのようなものでしょうか。現在、PDFは最も広範に利用されている電子文書形式ですので、多くの人に使いやすいものであることが求められます。障害を持つ人、高齢者にも簡単に使える必要があります。
たとえば視覚に障害を持つ人が利用する場合、音声読み上げソフト等によって、確実にテキストが読み上げ可能である必要があります。
画面に文字が表示されているPDFでも、読み上げが確実に可能とは限りません。コピー&ペーストで他のアプリケーションに文字がコピーできないPDFがありますが、このようなPDFは文字コードがファイル内に格納されていないため、読み上げソフトでも文字が取得できません。また、同じ漢字でも日本語と中国語では読み方が異なりますので、そのテキストがどの言語のものなのか、といった情報も必要となります。
また、画像、図形等が使用されている場合、それがどのような意味を持つものなのか、テキストによる説明があると、利用しやすくなります。
このような点を考慮して、PDFの利用方法(作成側、読み込み側の双方)を定義したものがPDF/UAとなります。

次回、内容について説明します。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!
Pages: Prev 1 2 3 ... 148 149 150 151 152 153 154 ... 229 230 231 Next