2005年10月31日
PDFからXMLへのデータ変換(3)
PDFからXMLへのデータ変換の例として、最近、アンテナハウスが、あるお客様向けに開発したプログラムのあらましをご紹介します。
これは、固定レイアウト帳票のPDFファイルから、各ページの指定位置の項目の情報を取り出して、結果をXMLファイルにするというものです。
用途は、取引先から毎日膨大な量の帳票データがPDFで送られてくるのですが、その帳票PDFデータの中の一部の情報を取り出して、データベースに蓄積して管理したい、ということです。
①オリジナルの帳票を簡単な図で表すと次のようになります:
②やりたいことは、この中の一部の項目の情報を取り出す:
解決策は次のようになります。
①PDF Viewerで、帳票PDFファイルの雛形を画面に表示して、それを見ながら抽出したい範囲(矩形)の座標値を取得します。
②抽出範囲の指定値およびXMLへの出力方法について、出力形式設定ファイルを作成します。
③変換プログラムの動作は、実際のデータが入った帳票PDFファイルを読み、②で作成した出力形式設定ファイルを参照しながら、指定範囲内のテキストなどの情報を取り出し、XML化して出力します。
④あとは、変換プログラムを動かして、帳票PDFファイルを自動的に処理するシステムを作り、自動運転することになります。
【この開発を通じて、感じたこと】
PDFからXMLに変換にする際に、PDFのデータを解析して構造を取得すると考え勝ちです。しかし、そうではなく、外部からXML構造を与えるという方法も、実際のところは、かなり有効な、コストパーフォーマンスが良い方法でしょう。
このプログラムに関してのお問い合わせは、sis@antenna.co.jpまでお気軽にどうぞ。
投票をお願いいたします投稿者 koba : 08:00 | コメント (1) | トラックバック
2005年10月30日
PDFってどんなもの(6) – Word文書はPortable?
10月25日のお話に、Kenさんから「ExcelとかWordを読取るフリーソフトとかもあるので実質Wordとpdfは等価じゃないかと思うのですがどうなんでしょう。」というコメントをいただきました。これは、とても良い質問だと思います。
結論から言いますと、Word文書とPDFでは、可搬性において大きな差があります。このことを少し詳しく説明してみます。
マイクロソフトはWord2003のViewerを無償で配布しています。これは、こちらからダウンロードできます:
Word Viewer2003
しかし、これだけでは、Word文書が可搬であるとは言えません。次のような問題があります。
(1)Word Viewer2003がサポートするオペレーティング システムはWindows 2000 Service Pack 4, Windows Server 2003, Windows XP。
従って、これ以外のWindowsを載せたPCでは使えません。また、PCには、アップルのMacintosh、Linuxなどで動くのもありますが、これらでWord文書を見たい人は見ることができません。
○PDFには、Windows版は無論のこと、Macintosh版、Linux版もあります。
(2)Word Viewer2003で表示できるOffice製品は、Microsoft Office Word 2003、Microsoft Word 2002、Microsoft Word 2000、Microsoft Word 98、Microsoft Word 97となっています。
Microsoft Wordには、他に日本で発売されたものだけでもMicrosoft Word Ver.5、同Ver.6、同Ver.7(95)があります。これらの約10年前に発売されたWordで作成した文書を表示することができません。
○PDFで日本語が使えるようになったのは1997年です。10年程前の文書をPDFにはできないことも多いでしょう。ですので、この点、50歩100歩と言えなくもありません。恐らく将来はかなり差が出るでしょう。
(3)Wordで文書を編集する際には文字毎にフォントを指定できます。では、作者が指定したフォントが、その文書を読みたいPCにインストールされていなかったら、どうなるでしょうか?次に、簡単な例を示します。
①まず、Wordで、文字に「HGP創英角ポップ体」を指定した文書を作ります。
②次に、そのWord文書を「HGP創英角ポップ体」がないWindows上のWordで表示しますと、次のようになります。
この場合、自動的に近いフォントに置き換えて表示していることがわかります。このように指定されたフォントがないとき、勝手に別のフォントで表示するというのは、便利そうですが、トラブルの元にもなります。可搬であるというためには、フォントがなくても元と同じように表示できる仕組みが必要でしょう。
○PDFには、この問題を解決する仕組みがあります。
さて、Word文書とPDFでは可搬性において差があることを幾つか説明しましたが、お分かりいただけたでしょうか?この他にも、Word文書には可搬性について、いろいろ問題があります。これについては、また後日お話しましょう。
投票をお願いいたします投稿者 koba : 08:00 | コメント (2) | トラックバック
2005年10月29日
PDFからXMLへのデータ変換(2)
PDFからXMLへの変換を熱心にやっている会社に、カナダのExegenixという会社があります。変換ソフトウェアも作っているようですが、どちらかというと、変換サービス中心の会社のようです。特に、インドのタタグループに属するTata Infotechが出資して設立されたのが注目です。
いま、米国ではアウトソーシングが非常に盛んです。その、アウトソース先として、英語が通じる国ということでインドが選ばれることが多いようです。出版関係のサービスもインドにかなりアウトソースされてますので、Tata Infotechもそういうところに眼をつけて、米国のXMLデータ変換サービスをインドにもっていこうとしているのでしょう。
Exegenixは、毎年、秋に米国、春に欧州で開かれるXML Conferenceに、ずっと出展しています。アンテナハウスも2001年秋から、毎年、春と秋にXSL Formatterなど出展しているので、お互いに顔見知りになっています。
今年のXML2005も両社とも出展します。XML2005の出展社一覧:
http://2005.xmlconference.org/exhibits/participants
ある時、ちょっと話して見ましたが、たとえば、Microsoft Wordの文書(doc)をXMLに変換するにも、一旦、WordからPDFに変換し、PDFからXML変換するんだということを聞いてびっくり。
WordからXML変換もPDFからXML変換も、非構造化文書から構造化文書への変換という意味では近いのです。
ですが、Wordの方がどちらかというと、PDFより構造化されています。PDFというのは、最も、非構造化された文書形式。だから、WordとXMLの距離の方が、PDFとXMLの距離よりずっと近いと言えます。
なので、当然、WordからXMLに変換するのだろうと思っていたのですが、あらゆる文書を、一旦、PDFに変換してしまって、そこからXMLに変換する、つまりわざわざ遠回りする、と聞いてびっくりしたわけです。
なるほど、いろんな文書形式からXML変換を、ひとつずつ開発するのは工数が大きくなるが、PDFからXML変換に開発努力を集中すれば効率がよくなるんだな、いうところで、ちょっと眼からうろこが落ちた思いがしたものです。
構造化文書ってなに?PDFが非構造化文書の最たるもの?分からないなあ、という方に、このあたり、また、後日にお話ししたいと思います。
投票をお願いいたします投稿者 koba : 08:00 | コメント (0) | トラックバック
2005年10月28日
インターネット版の「官報」PDF
「官報」って知っていますか?(どの位の人が知っているんだろうね)。
そうして、インターネット版「官報」というのがあることを知っていますか?「官報」なんて若い人は関心ないだろうから、インターネット版「官報」を知っている人は、きっと、かなり少ないだろうね。
かなり昔のことですが、インターネット版の「官報」PDFをダウンロードして驚いた!
なにに驚いたって?
なにしろ、PDFを印刷不許可、テキストのコピー不許可になっていて、パソコンの画面で見るしか方法がなかったんだもの。しかし、「官報」をパソコン画面で読む人が本当にいるんだろうか?また、「官報」のデータを再入力している人もいるようですが、テキストコピーを許可すれば、データ入力なんてしなくて済むから、便利なのにと思った記憶があります。
で、最近は、どうなったんだろう?と思って、ちょっと見てみました。
Webページに、
「平成17年4月1日発行分より官報データ(PDF形式)の印刷、テキスト選択機能が使用可能となりました。」
とあります。そうか、ようやく官報のPDFが印刷許可設定になったのか。
PDFファイルをダウンロードしてドキュメントのプロパティを見ると:
となっていて、確かに、ドキュメントの印刷、テキストのコピー、アクセシビリティは「許可」に設定されてます。なるほど、ほんの少し使いやすくなった。その上、Webページには、「会社決算公告の官報掲載へのご案内」なんてPRまで掲載されてる!これも、昔の大蔵省印刷局から独立行政法人国立印刷局になったからなんだろうな。
しかし、まだ、PDFでは1週間しか公開されません。印刷物の「官報」を販売することが主目的でPDFは付け足しのようです。
このあたり、将来はDRMの応用分野なんでしょうね。いつになったら、全部電子化されるかな?1年に1回位ウオッチしていこう。
投票をお願いいたします投稿者 koba : 08:00 | コメント (2) | トラックバック
2005年10月27日
PDFからXMLへのデータ変換(1)
xmluserのメーリングリストで、このブログが紹介されました:
http://www2.xml.gr.jp/log.html?MLID=xmlusers&TID=9356&F=0&L=10&R=1
そこで、今日はこの機会に、PDFからXMLへの変換について少し話してみたいと思います。
昨日、DATABASE TOKYO2005に立ち寄って「PDF2XML」を見てきました。以前から、ウオッチしていた製品なので、どこまで進んだか関心があったのです。
さて、「PDF2XML」は、その名前の通り、PDFをXMLに変換するためのソフトウェアです。
アメリカのXMLCitiesというベンチャ企業で開発したもので、(株)データプレイスが日本の総代理店となって販売しています。XMLCitiesには三菱商事がかなり投資しているとのことです。商事にXMLが好きな人がいるのかもしれませんね。
以前に聞いた説明では、確か、PDFのファイルを解読し、テキストを取り出して中間形式に変換し、中間形式からターゲットXMLにパターンマッチングで変換するという2ステップ変換を取っていたと記憶しています。
製品紹介資料には、テキストだけでなくスタイルも取り出せるという説明があります。
今日のデモでは、日刊工業新聞の企業人事面(新聞記事)PDFを解読して、自動的にXMLにするところを見せてもらいましたが、結構良く出来てましたね。
価格はお安くありません。開発会社が使う開発ツールが税込み100万円。さらに、エンドユーザで使うときは、ランタイムライセンスが、例えばクライアントサーバタイプだとサーバ1CPUで税込み200万円です。
さらに、開発会社では、XMLのスキーマにあわせて、適切なルールを開発しなければなりません。この開発費がプラスされます。この開発費はバカになりません。本当に使えるようにするには、相当にかかるでしょう。かなり大きなシステムでないと投資効果がでないように思います。
私の経験では、この方式は、中間形式の仕様と、パターンマッチングとルール開発というのが難点で、なかなかうまくいかないものでした。
以下は、あくまで私が同じようなことをした時の経験です。「PDF2XML」にはあてはまらないかもしれませんが、その前提で聞いてください。
(1)原データから中間形式まで持ち込む際に情報がなくなってしまうと、後段で取り出せないので、中間形式をどう設計するかが大きな課題となります。うまく行くも行かないも、中間形式次第ということ。
(2)パターンは一般化するのが難しく、対象個別になりがち。任意のPDFとXMLの組に当てはめるのは無理なように思います。つまり汎用化困難。
(3)パターン処理プログラム開発は、XSLTのような標準技術であれば、技術者も多いので安くできるかもしれませんが、固有のマッチングルールだと、開発できる人の育成から始めなければなりません。これはコストアップの要因になります。
いづれにせよ、PDFからXMLというのはなかなか難しいテーマなんですね。というわけで、続きはまた後日。
投稿者 koba : 08:40 | コメント (2) | トラックバック
2005年10月26日
PDFってどんなもの(5) – PDFの用途は?
この「PDFってどんなもの」、というタイトルでは、PDFの全貌をいろいろな角度から概観しています。今回は用途について、ちょっとさわりを:
PDFの用途は大きく、①印刷分野での使用、②ビジネス・教育・官公庁などでの一般用途、に分けて考えると良いのではないかと思います。
【印刷分野での使用】
雑誌や書籍を初め、パンフレット・ちらし、マニュアルなどの印刷物制作に関わる、制作担当、デザイナー、校閲担当者、印刷会社、広告会社などの間で印刷物の制作・進行過程でやりとりする電子データ形式としてPDFを使用するものです。
関係する人が専門家であり、比較的限定された人達が関係しています。前に、アドビシステムズがこの20年ほどの間に印刷業界の仕事をがらりと変えてしまった、と言いましたが、これは主に同社のPostScriptというページ記述言語の力によるものです。PDFは、PostScriptをベースに生まれたものですので、その生い立ちからして印刷用途との適合性が高いといえます。PDF仕様・製品が進歩したことにより、印刷業界では、徐々にPostScriptに代わってPDFが使われるようになってきています。
【ビジネス分野での使用】
ビジネス、教育、官公庁などでのPDFの使用は、ビジネスレター、月次報告書、申告書、報告書などを電子的に配布するためのものです。例えば、アメリカの銀行には、日本と違って通帳がありません。毎月利用実績(Statement)がPDFの形で送られてきます。通信・電話・電力・ガス会社、クレジットカード、証券会社からの報告書は日本ではまだ郵便物で送られてくることが多いですが、遠からず、アメリカのようにPDFで配布されるようになるだろうと思います。
現在のところ、上に述べたような、電子文書の一方的な配布形式としての使用が中心でしょう。
将来は、申告書などの入力用の形式としても使われるようになるでしょう。現在でもこれはできますが、あまり普及していないように思います。入力用の形式として使われるには、PDFの帳票を使って、簡単にデータを入力する方法をもっと普及させる必要があります。
印刷分野のPDFとビジネス分野のPDFでは、要求される機能が相当に異なります。また、適用されるPDFソフトウェアも異なることが多くなります。このあたりはPDFを利用する上でも重要なことですので、だんだん、詳しくお話していきたいと思います。
投票をお願いいたします投稿者 koba : 09:40 | コメント (1) | トラックバック
2005年10月25日
PDFってどんなもの(4) – Portableとは
PDFは、その名を可搬な文書形式(Portable Document Format)というように、文書をお互いに交換する場合に最適な電子ファイル形式です。このことについて少し説明してみたいと思います。
下の図をご覧ください。ここではAさんが自分のパソコンで作成したファイルをBさんに渡して、Bさんが表示して内容を確認することを図式化しています。
Aさんは、自分のパソコンでMicrosoft Wordを使って、文書を作成し、それを「文書ファイル.doc」という名前をつけて保存します。すると、Aさんのパソコンのハードディスクの中には「文書ファイル.doc」というファイルが新しく作成されます。
この内容をBさんに見てもらうために、「文書ファイル.doc」を電子メールの添付ファイルとしてBさんに送ります。すると、Aさんから受け取った「文書ファイル.doc」の内容を、Bさんが、自分のパソコンで読むには、通常は、パソコンにMicrosoft Wordがインストールされていなければなりません。これは、「文書ファイル.doc」の内部が、Microsoft Word専用の形式になっていますので、他のソフトウェアでは(Word互換のリーダを持っていない限り)読めないためです。
これに対して、Aさんが、「文書ファイル.doc」の内容をPDF形式(「文書ファイル.pdf」)にしてから、Bさんに送ることもできます。そうすると、BさんはAdobe ReaderなどのPDF Viewerを使って「文書ファイル.pdf」の内容を読むことができます。
このようにPDFファイルを交換すれば、受け取った側ではオリジナル文書を作成したアプリケーションが無くてもファイルの内容を読むことができます。これが、PDFファイルが、可搬(Portable)であるということの基本的な意味です。
そういえば、昔、アドビシステムズは、AcrobatにAcrobat Exchange(交換)という製品名をつけていましたね。
投票をお願いいたします投稿者 koba : 09:00 | コメント (4) | トラックバック
2005年10月24日
PDFソフトの種類
昨日は、PDFの仕様が公開されていることによって、PDF関連製品が非常に沢山出回るようになったと言いました。では、PDF関連製品にはどのようなものがあるのでしょうか?
PDFに関心をもつ人があつまるWeb上のコミュニティのひとつにPlanetPDF(英語)があります。PlanetPDFには、PDFに関するいろいろな情報が集まっていますし、PDF関係のフォーラムも沢山あります。また、ここには、600種類を超えるPDF関連ソフトが、次のように分類して登録されています。
分類 | 説明 | 製品数 |
---|---|---|
編集と管理(Editing & Management) | PDFを管理したり、編集、更新、変更、操作する。 | 380 |
プリプレス、印刷とPDF/X(Prepress, Print & PDF/X) | 専門的な印刷用のソフト。PDF/XやRIPなどを含む。 | 154 |
組付とカラー(Imposition & Color) | カラーのチェック、分離と修正。ページの再配置。 | 64 |
抽出(Extraction) | テキスト抽出、画像やイメージを取り出す。 | 72 |
分割、合併と追加(Split, Merge & Append) | PDF文書をページ分割したり、複数のPDF文書をひとつにまとめる。 | 48 |
スタンプとウォーターマーク(Stamp & Watermark) | PDFに画像、ウォーターマークやスタンプなどの他の要素を付加する。 | 50 |
リンクとブックマーク(Links & Bookmarks) | ナビゲーション用の要素を追加、編集、付加する。 | 7 |
生成と変換(Creation & Conversion) | アプリケーションで作成したファイルなどをPDFにしたり、PDFをゼロから作成する。 | 330 |
開発(Developer) | PDFを取り扱うシステム・プログラムをつくる開発者向けのもの。 | 173 |
帳票(Forms & FDF) | PDFで帳票を作成したり、PDFを使って帳票データの入力や配信をする。 | 64 |
サーバ用(Server-side) | サーバ上でPDFを作成したり、変換するなどサーバ用途のもの。 | 100 |
セキュリティ(Security & DRM) | セキュリティ管理と電子著作権管理。 | 56 |
検索と索引付け(Searching & Indexing) | メタデータ、文書情報、検索・索引付け。 | 58 |
ビューア(Viewers) | PDFを開いたり、表示したりする。 | 45 |
(各分類の登録数は重複していると思います。)
PDFを生成したり、管理するソフトが多いのですが、それについてやはり商業印刷向けの製品の数が多いのは、PDFが生まれた背景から予想されることですね。
ここに登録されている製品は、現在、世の中に出回っているものの一部に過ぎないのでしょうが、それにしても大変な数の製品があるものです。
残念ながら、PlanetPDFは英語ですし、製品も必ずしも全て日本語で使えるとは限りません。日本でもこのようなコミュニティ・サイトができると良いですね。
投票をお願いいたします投稿者 koba : 08:00 | コメント (0) | トラックバック
2005年10月23日
PDFってどんなもの(3) – 仕様は公開
PDFの仕様で重要なことは、仕様書が文書として公開されているだけではなく、誰でも開発に使えるということです。
PDF Reference 第5版の最初の章には下記のように明記されています。
「この本はPDFのファイル形式についての説明を提供し、第一に、PDFファイルを直接生成するPDF Producerアプリケーションの開発者のためのものである。また、開発者が既存のPDFファイルを読んで、内容を解釈し、変更するPDF Consumerアプリケーションを記述するのに十分な情報を含んでいる。」
PDFを作ったり、PDFファイルを読んだりできるのは、アドビシステムズの製品のみではなく、サードパーティの開発者が自由にPDFを作ったり、読んだり、修正することができることが明瞭に意図されています。
この文章は、筆者が (10年ほど前だったと思いますが) PDF Referenceを初めて読んだときにもありましたので、ずっと一貫した姿勢と思います。
仕様書を公開したこと、そして、この文章があることにより、アドビシステムズ以外のソフトウエア会社がPDF関連製品を出すことが可能になりました。この結果、アドビシステムズ以外からも、非常に沢山のPDF関連製品が生まれました。
アドビシステムズという会社は、一番最初は、アップルコンピュータのMacintosh向けにページ・プリンタの技術を提供することから成功してきた会社で、印刷・DTPの世界の専門家向けの製品を得意としてきました。アドビシステムズによって、この20年間で出版や印刷業界の仕事のやり方ががらっと変わってしまった、といっても言い過ぎではないほどです。
しかし、一般のビジネス、教育あるいは消費者にとってアドビシステムズという会社はそれほど身近な存在ではなかったと言って良いと思います。ですので、おそらく、第三者のソフトウエア会社から多数のPDF関連製品が出なければ、印刷業界を超えて、広い分野における電子文書の標準形式として、PDFが飛躍的に普及するのにはもっと時間がかかっていると考えられます。
日本製PDF製品はまだまだ少ないですが、海外では、PDF関連製品はそれこそ星の数ほどあります。アドビシステムズを含め、すべてのソフトウェア製品の提供者にとって、PDF関連製品の分野は、競争が非常に厳しく大変なのですが、使用者・消費者にとっては、だんだん、良いものを安く手に入れることができるようになるでしょう。これも、PDFの仕様書が公開されているお陰です。
投票をお願いいたします投稿者 koba : 00:00 | コメント (0) | トラックバック
2005年10月22日
「自在眼9」 新発売!
アンテナハウスは11月下旬に、マルチ・ファイルビューア「自在眼9」を出荷開始します。「自在眼」は、ワープロ文書、表計算、プレゼンテーション、圧縮ファイルなどの内容を、それを作成したアプリケーションがなくても、画面に表示したり、他のファイル形式に変換したり、テキストをクリップボードにコピーして利用することができるツールとして人気があります。
詳しくは次のWebページでどうぞ:
ところで、「自在眼9」では、PDFの表示を根本的に新しくしました。AcrobatやAdobe Reader に依存しない独自のPDF 表示機能として、10月18日に紹介しましたPDF Viewer SDKを「自在眼9」に組み込んでいるんです。
これによって、いままでよりも高速・高精度でPDFファイルの表示、印刷、画像ファイル化ができるようになります。
また、ベクトル(線画)グラフィックスの標準仕様として普及しはじめたScalable Vector Graphics (SVG)を表示したり、SVGをPDFとして保存することもできます。
SVGは、Web関連の標準仕様を作成する団体W3Cが決めた、ベクトル(線画)グラフィックスの仕様です。最初に、これを決めるにあたって中心になったのはアドビシステムズの技術者達なんです。SVGとPDFはかなり類似の技術をベースにしていて、いわば、SVGはPDFの妹のようなものですね。
詳しい仕様は次のところにあります:
Scalable Vector Graphics (英語)
それから、話が戻りますが「自在眼9」の目玉機能として、表ビューアにMicrosoft Excel互換のグラフ機能を搭載するなど、Excelファイルの表示精度を大幅改善しています。
乞う、ご期待!
なお、 これに関連して、アンテナハウスから「自在眼9」、「リッチテキストPDF」を直販で購入した方には、抽選で20人に一人、全額キャッシュバック、という思い切ったキャンペーンを行ないます。
詳しくは、こちらをどうぞ。
全額キャッシュバック・キャンペーンは、11月1日から開始です。ぜひご参加ください!
投票をお願いいたします投稿者 koba : 10:00 | コメント (0) | トラックバック
2005年10月21日
PDFってどんなもの(2) – PDFファイルの仕様書
PDFは、電子ファイル形式の仕様と言いましたが、アドビシステムズ(Adobe)はPDFの仕様書を、PDF Referenceとして公開しています。
Acrobatのバージョンアップと同時に、PDF Referenceも改訂されていて、Acrobatのメジャー・バージョン番号とPDF Referenceの版番号は、次のような対応関係があります。
Acrobatのバージョン番号 | PDF仕様書 |
---|---|
Acrobat 7 | PDF Reference, Fifth Edition, Version 1.6 |
Acrobat 6 | PDF Reference, Fourth Edition, Version 1.5 |
Acrobat 5 | PDF Reference, Third Edition, Version 1.4 |
Acrobat 4 | PDF Reference, Second Edition, Version 1.3 |
次のリンク先から、最新のPDF1.6までのPDF Referenceを手に入れることができます。特別な手続きなしで自由にダウンロードできます。
PDF Referenceは、PDFの専門家のいわば聖書に匹敵しますので、古い版にも歴史的価値がありそうですが、残念ながら、古いのは消してしまっているようです。
PDF Referenceは、すべて英語で記述されていますが、第2版は日本語版も書籍として出版されています。
PDF1.3仕様の訳が出たきり、いまだに新版が出版されていません。どなたか訳してもらいたいものです。
仕様書を公開するというのは、ソフトウェアの開発にとっては非常に重要な意味をもちます。それだけではなく、PDFの中に記述された内容は、本来ユーザの資産ですので、仕様書が公開されていることは、ユーザにとっても大きな意味があることでしょう。
投票をお願いいたします投稿者 numata : 09:30 | コメント (0) | トラックバック
2005年10月20日
PDFってどんなもの(1)
PDF(Portable Document Format)とは、HTML、JPEGなどと同じように電子ファイルの形式名で、米国のアドビシステムズ社が発明したものです。
PDFが生まれた背景や歴史についての簡単な説明は、ここにあります。
http://www.adobe.co.jp/products/acrobat/adobepdf02.html
PDFは、よく、Acrobatと混同されることがありますが、Acrobatはアドビシステムズ社が開発・販売するPDF処理ソフトウェアの「製品名」ですので、混同しないように注意しましょう。
電子ファイルの形式としてのPDFは、大雑把にいうと紙のページを電子的に表現したものです。一枚の白紙の紙を思い浮かべてみてください。皆さんが鉛筆で紙に文字を書いたりや線を引くときは、どの位置に、どんな大きさで、どんな文字や絵を描こうかと考えます。そうして、頭の中に考えたとおりに、手を動かして、文字と絵を書きますね。
PDFのファイルの中には、皆さんが頭の中で考えた状態と同じような情報が、「命令」として記述されています。即ち、1枚の紙の左上を原点にして、下方向と右方向に座標軸をとってできる平面を定義し、その平面のどこに、どんな大きさで、なんという文字を書くか、どんな太さで、どんな種類(直線、点線...)の線を引くか、どんな画像をどこにどんな大きさで配置するか、といった命令を記述したものです。PDFファイルの中にはそういう情報が1ページずつ記述されています。
このPDFファイルを読んで、記述された命令を解釈・実行して、実際にコンピュータの画面やプリンタにページを出力するプログラムが、PDF リーダ(Reader)またはPDF ビューア(Viewer) と呼ばれるものです。
PDF ビューアのひとつがAdobe Reader (以前は、Acrobat Readerと呼ばれていました)です。実際のところ、Adobe Reader を使っている人が99%位いるのではないかと思いますが。
投票をお願いいたします投稿者 koba : 10:00 | コメント (0) | トラックバック
2005年10月19日
PDF Conference 2005
PDF Conference 2005(日本)が11月8日に開催されます。
内容は、「進化するPDF~その最前線を知る」というタイトルです、PDFの歴史から最新のAcrobat7の活用、PDF/Xの運用までの話があるようです。
ところで、PDF Conferenceといえば、欧米の方が本家ですね。
http://www.pdfconference.com/
アンテナハウスはXSL FormatterというXML(XSL-FO)をページアップしてPDFに出力するソフトを販売しています。これは、海外でかなり売れてます。その他にも、PDF分野で世界に売れる製品を作ろうと思っていて、今年9月、その第一歩として、ワシントンDCでのPDF Conference 2005に出展しました。また、会議も聴講して、そのレポートをこちらに上げておきましたので、ご覧ください。
http://www.antenna.co.jp/PDF/reference/PDFConference2005.htm
日本のカンフェレンスは、ワシントンDCのと比べると規模が小さいですが、将来日本でも、本場のPDF Conference に近い規模にしてもらいたいものです。
投票をお願いいたします投稿者 koba : 08:40 | コメント (0) | トラックバック
2005年10月18日
PDF Viewer SDK
PDFを表示するための部品として、PDF Viewer SDKを開発しました。
これは、アドビのPDF仕様に準拠するPDFファイルを読み込んで、Windowsの画面に表示する機能などをもつソフトウェア部品です。
これは、エンドユーザ向けではなく、主にPDFを電子文書の標準として使用するソリューションや、アプリケーションに組み込むためのものです。
詳しいことは、こちらでご覧ください。
http://www.antenna.co.jp/PDF/viewer/index.htm
ある場所で、この話をしましたら、「Acrobat Viewerがあるのに、なぜ、PDFを表示するソフトを開発することが必要なんですか?」と質問されました。
そこで、「PDF Viewer SDK の意義について」というWebページも作ってみました。
http://www.antenna.co.jp/PDF/reference/WhyPDFViewer.htm
PDFの表示ソフトっていうのは、完全なものを作るのは恐ろしく大変です。
アドビはすごいね。
しかし、我々にだってできるぞ!と思って挑戦したい。
投票をお願いいたします投稿者 koba : 15:32 | コメント (0) | トラックバック
2005年10月17日
PDF 千夜一夜を始めます!
その昔、インドとシナを支配するシャハリヤール王は、夜が明ける毎に、一夜を共にした妻を殺してしまったのですが、自ら志願してその王の妻となったシャハラザードは王の前で『商人と魔王の物語』を語り始めました。
話が佳境に入ったころに夜が明けましたが、話があまりに面白く、王は殺すに殺せなくなった。こうして一夜、また一夜と物語が続いたのだそうです。
【アラビアン・ナイト】
http://www.ebookjapan.jp/cpgoogle/title.asp?titleid=856
このブログ「PDF 千夜一夜」は、PDFについて関心を持つ人に、PDFの話題を千日間提供し続けようという、PDF版アラビアンナイトです。シャハラザードのような面白い話はできないかもしれませんが、連続日数だけは負けないようにしたいと思います。
投票をお願いいたします