2007年07月03日

PDF社内勉強会のパワーポイント資料

今日は、ある会社で、PDFについての社内勉強会の講師を2時間ほど勤めさせていただきました。

そのために作成したPPT資料を公開します。内容のレベルとしては、PDFを日頃からお使いになっている人が対象となると思います。そういう意味では、表題の「PDF活用のための基礎知識」の基礎知識と言う単語は適切かどうかは「?」です。

「PDF活用のための基礎知識」(PDF ファイル)
http://www.antenna.co.jp/PDF/reference/Seminar-20070702.pdf

いずれにしてもPDFは、これから、ますますユーザ層も増えていくと思いますし、使いこなす上で多少の仕組みを知っている方が何かと好都合と思います。ソフトの供給者としては、技術知識をもっていなくても使えるソフトを作らねばならないと思いますが。

PDFについて、勉強してみたいという必要がありましたら、ぜひ、気軽にお声をかけてください。どこでもお邪魔したいと思っています。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年06月25日

コンピュータによるテキスト表記とPDFのフォント埋め込みについて

PDFへのフォント埋め込みを説明しようと思いましたが、前提となる知識などを整理する必要を感じました。
そこで、過去のブログの記事を中心に、「コンピュータによるテキスト表記とPDFのフォント埋め込みについて」という文章にまとめてみました。

こちらからご覧いただくことができますので、参考にしていただければ幸いです。

コンピュータによるテキスト表記とPDFのフォント埋め込みについて

説明の不十分な点、あるいは、理解の誤り、などご指摘いただければ幸いです。

目次
・はじめに
・基礎知識
 ・字形、字体
 ・表外漢字字体表
 ・字体の違いとデザインの違い
 ・文字コード
 ・漢字のコードポイント-字体-字形の3層モデルについて
 ・フォントとグリフ
 ・アウトライン・フォントとグリフ
 ・フォント・ファイル
 ・文字コードとグリフの関係
 ・異体字
 ・文字の位置によるグリフ切り替え
 ・ リガチャ(合字)
・PDFのテキスト表示の仕組み
 ・フォントが埋め込まれていない場合の文字の表示
・PDFへのフォント埋め込みとは
 ・フォントを埋め込まないPDFの表示の問題
 ・フォントを埋め込まない日本語PDFは英語版Windows上のAdobe Readerでは表示できない
 ・フォントを埋め込まない中国語PDFの表示
 ・フォントを埋め込まないアラビア語PDFは作成できない
 ・フォントを埋め込まないラテン文字PDF
 ・プロポーショナルフォントを使用した縦書き文書
 ・フォント埋め込みについてのQ&A
・お断り

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年06月24日

PDFについてのQ&A — フォント埋め込みについて(基本の説明)

昨日と1昨日のお話を振り返ってみますと、いきなり技術的な核心をお話してしまったため、PDFについてある程度知識のある方でないと、眼が点になってしまったのではないかと思います。

そこで、反省して、PDFで文字を表示する基本について触れてみることにしました。この詳しい説明は、PDF Reference 1.7では「第5章 テキスト」(p.387~)の初めの部分に出てきます。

まず簡単に略図を示してみましょう。
20070624.PNG

この図で、「文字列」と表した部分は表示したい文字となります。ラテン・アルファベットはABCのような文字のまま保存できます。CJK文字は文字コードの並びで表現するのが一般的ですが、フォントのグリフIDの並びで表すこともできます。

文字列には、使用するフォント・オブジェクト、文字の大きさ、文字を表示する位置など様々な情報が付随しています。

フォント・オブジェクトは、ページに付随する資源辞書の中のフォント辞書に詳しい情報が定義されています。フォント辞書は、Type1、TrueType、CIDフォントなどのフォントの種類によって若干の差がありますが、フォントの種類やPostScript名、標準の幅、などを規定しているものです。

実際に文字を表示するためには、文字を表すグリフ・データ、フォントのメトリックスなどが必要ですが、これらの情報は、フォント・ファイルの中に含まれています。

フォント・ファイルは、コンピュータ上(Windows環境であれば、Windows/Fontsフォルダ内)にあったり、あるいは、アプリケーション独自のインストール・フォルダやアプリケーション内部にあります。

PDFにフォントを埋め込むと、埋め込み処理の際に、コンピュータ上のフォント・ファイルから必要最小限の情報が取り出されて、PDF内部に取り込まれます。これが、PDFへのフォント埋め込みです。

略図で示しますと次のようになります。
20070624-2.PNG

フォントを埋め込んでいないPDFでは、文字を表示するのに必要なフォント・ファイルがPDFの外側にありますが、フォントを埋め込むと必要最小限の情報がPDFに付随します。そこで、PDFを表示するViewerが埋め込んだフォントで文字を表示することができるならば文字化けなどが発生することがなくなることになります。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年06月23日

PDFについてのQ&A — フォント埋め込みについて(続き)

昨日のお話は、フォントを埋め込まないと問題がでることがある、ということでしたが、以前に、フォントを埋め込む場合とフォントを埋め込まない場合についてPDFのデータが違うことをお話したことがあります。

2007年01月22日 日本語の文字についての用語について(9) — PDFへのフォント埋め込みとは — PDFに文字を埋め込まない場合は、PDFの中のテキストは文字コードで表現されていますが、PDFに文字を埋め込んだ場合は、PDFの中のテキストはグリフのIDとグリフデータ(グリフIDに一対一対応)で表されていることを説明しています。

この違いを理解するには、文字コードとグリフ(グリフのID、グリフデータ)という言葉についての知識が必要です。これにつきましても既にお話しています。

まず、文字コードは、コンピュータで文字を取り扱うために、文字を集めて抽象的な集合を作成してその構成単位に番号をつけたものです。構成単位は抽象的な文字であって、それを可視化・具象化したものが実際に画面に表示したり紙に印刷される文字となります。

日本語の場合、ひとつの文字コード(コードポイント)に対して対応付けられる、可視化される文字の形は一つだけではありません。これについては、2007年01月17日 日本語の文字についての用語について(5) — 3階層モデルなどで説明しました。

ここで、字体とは、文字骨格であり、字形とは文字の具体的な形です。

2007年01月11日 日本語の文字についての用語について(1)

コンピュータの上で、文字を可視化する方法は幾つかありますが、現在、一般的なアウトライン・フォントの場合、字形は、フォントのグリフデータとして用意されています。これについては2006年04月24日PDFとフォント(15) アウトラインフォントなどでお話しています。

PDFにフォントが埋め込まれていない場合、PDFの中には文字コード(コードポイント)の並びがあり、その文字コードを表示するために使うフォント・ファミリーが指定されています。そこで、その文字を実際に、画面に表示する前に、次の手続きが必要です。

(1)PDF中で指定されているフォント・ファミリーを、PDFを表示する環境であるPCに存在するフォント・ファミリーに対応付けする。同一のフォント・ファミリーが存在すれば問題ないが、存在しないと別のフォント・ファミリーの中で適切なものを決定する。
(2)フォント・ファミリーの中で、コードポイント⇒グリフIDに対応つける。
(3)当該のグリフIDに対応するグリフデータを使って文字を可視化する。

上のステップで特に、(2)、(3)の点について、2007年01月21日 日本語の文字についての用語について(8) — 文字コードとフォントなどでお話しています。つまり、同じコードポイントに対応付けられるグリフデータは一つとは限らないということです。

PDFにフォントを埋め込まないときは、あるコードポイントの文字を可視化するのに、上のような過程を踏むことになりますので最終的に可視化される文字が、偶に、意図しない文字になることがありそうなことは想像が付くと思います。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年06月22日

PDFについてのQ&A — フォント埋め込みについて

1昨日はシアトルでしたが、今日は東京です。シアトルはとても涼しかったですが、東京は暑いですねえ。

シアトルの大企業としては、BoeingとMicrosoftが有名です。Boeingは昔はシアトルに本社があったそうですが、だいぶ前に本社をChicagoに移してしまったそうです。聞くところによりますと、シアトルにいるとどうしても視野が狭くなって、世界戦略上望ましくない、という理由だったとか。そのときは、シアトル市民の自尊心が大いに傷付いたそうです。Microsoftとちがって、Boeingには競争相手がいますから、世界戦略が必要なんでしょうね。

さて、PDFについて某所の勉強会の講師をさせていただくことになりました。で、事前に幾つか質問をいただいているのですが、今日からその準備を兼ねて、事前にいただいたご質問にブログでお答えしてみたいと思います。

最初は、フォント埋め込みについて、「フォント埋め込みとは何か?」というご質問をいただいています。このブログでは、これまでも、フォント埋め込みに関して何回か触れてきました。

回数が多くなるにつれて、同じことをなんども取り上げてしまいそうですので、まず、過去の話題を整理してみます。

第329話 2006年09月10日 PDFのフォント埋め込み — フォントを埋め込まないと環境によっては文字が正しく表示されないことがあります。また、フォントを埋め込みでは日本語は通常サブセット埋め込みになりますので、ファイルサイズはそれ程大きくなりません。

第330話 2006年09月11日フォントを埋め込まないPDFの表示について第360話 2006年10月11日フォントを埋め込まないPDFの表示(6) — ここでは、Adobe Readerで、フォントを埋め込まないPDFで、文字を表示するのに、どうやらWindowsのシステムフォントをすなおに使っているわけではなくて、なにか特殊なことをしているようだ、ということを説明しています。

なお、この中の実験で、2006年09月25日 フォントを埋め込まないPDFの表示(4)では、アラビア文字をPDF化すると、PDFDriverで「フォントを埋め込まない」と指定しても、必ずフォントが埋め込まれてしまう、ことを示しました。

第423話 2006年12月13日プロポーショナルフォントを使用した縦書き文書  — ここでは、プロポーショナルフォントで縦書きする場合、フォントを埋め込まないと、文字の表示が乱れてしまうことがある、という例を挙げています。

このように、フォントを埋め込まないと、いろいろと問題が生じるケースがあることを何回か取り上げています。しかし、フォント埋め込みとはなにか、を正面から取り上げたことはなかったようです。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年03月07日

日本人一人あたりの紙消費量

日経BPのニュース配信の中で、宋文洲の傍目八目という記事は楽しみに読んでいます。先日(2月22日)、「日本は本当に「環境先進国」なのでしょうか 」という話があり、これは結構いろいろ反発があるのでは?と思っていましたが、3月1日は、「中国人を理由に僕を非難する方々へ 」という話でした。

やはり。。と思いましたが、その中で、日本人の紙の消費量について、「日本製紙連合会の資料では、日本人1人あたりの紙及び板紙の消費量は2004年時点で247キログラムです。世界の平均は56キログラムで、参考までに中国は42キログラム、インドは7キログラムです。」という一節があります。

これを見ての感想なのですが、昔、30数年前には、紙の消費量は国の文化度のバロメータというような説があり、紙の消費量が多い国の文化度が高い、という風に思っていたものです。いまや、時代が変わり、環境保護、CO2排出量を減らすために、紙の消費量を減らさなければならない時代になっています。

私も、実際のところ、頭の中では、紙の消費を減らしていかないといけないんだな、ということは気にしているのですが、なかなか、気が付かないところで無駄に紙を使っています。

最近は、電子メールで連絡することが多くなり、紙を郵送する代わりにPDF添付のメールをやりとりして済ませることが増えています。しかし、つい、紙を郵送してしまうこともあります。先日も、アンテナハウスの株主総会の開催通知を送りましたが、その際、PDFで作成した営業報告書などの資料をわざわざ紙に印刷して株主全員に郵送してしまいました。後で、そういえば半分くらいの人は、メールアドレスが分かっているのだからPDFで送れば良かった、と反省しています。

毎年習慣的にやっていることなのですが、どうも習慣を換えるのは難しいものです。しかし、やはりこれからは、紙の無駄な消費を減らすことにもっと留意していかないといけないのでしょう。ひとり一人が少しでも減らせば、全体ではかなりの量になるでしょう、経済活動とはそういうもの。

と言うわけで、最後に、我田引水ですが、PDFをもっと簡単に活用できるようにするソフトを多くの人に提供することは、社会全体のためにもなることだ、と重要な使命を再認識しました。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2007年01月01日

PDFをとりまく環境とPDF製品の2007年展望 (4)

明けましておめでとうございます。

PDF千夜一夜は、暮れも正月も無くPDFに邁進ですが、1年の計は元旦にあり、ということで、今年1年の抱負をまとめてみました。

ご承知のように2005年、2006年とPDF作成ソフト、PDFの簡単な編集をするソフトは廉価になって来ました。既にお話しましたように2007年にはこの傾向が一挙に進むことでしょう。Macintosh上では、既にPDF作成・表示は、OSの標準機能になっていますが、Windows上でもPDF作成は無償・標準的な機能として考えられるようになっていくことは間違いありません。

これに伴い、Webや仕事を含めて、情報を交換するメディアとしてPDFの重要度が一段と高り、PDFがより多くの人々にとって身近なものになっていくことでしょう。

また、PDFをもっと便利に使いたいという需要が増大することも間違いのないところでしょう。

弊社では、これまで、6年以上にわたって、PDFの作成、加工、解読、表示などの基盤技術に投資してきました。これにより、Adobeにまったく依存しない独自技術をもって、かなりの部分までPDF様々な処理ができるようになってきました。しかし、まだまだ道の半ばにも到達していません。2007年は、まず、基盤技術への投資をもっと積極化していかなければならないと考えています。

また、これらの基盤技術を、様々な会社でソフトウエア製品のためのコンポーネントとして、また、社内システム構築のためのコンポーネントとして使っていただけるように提供します。コンピュータのOSと同じように、PDF技術を廉価なプラット・フォームとして提供していきたいと考えています。

デスクトップ分野では、他の会社にはできないようなPDF製品を提供していきます。PDFが普及し、身近になることで、ユーザの間には、PDFに関連して新しい様々なニーズが生まれるでしょう。PDFが紙に代わって、紙のように使われるようになるまでには、その需要を満たすために、まだまだ、新しい製品が必要と考えます。

アンテナハウスでは、今年の目標のひとつに、「ソフトウエアの無限の可能性を追求し、いままでできなかったことを実現する商品を世の中に出す。」ということを掲げています。PDF分野でも、新しい商品と市場を創出することを目標に汗を流していきたいと考えています。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2006年12月31日

PDFをとりまく環境とPDF製品の2007年展望 (3)

Office 2007のSave as PDFほどではありませんが、最近、少しびっくりしましたのが、クセロが「瞬間PDF」を無償配布するというニュースです。

クセロ、PDF作成ソフト『瞬簡PDF』を無償化

無償版は『瞬簡PDF ZERO』と言うそうですが、PDFを作成するほか、PDFの結合・分割もできるようですので、大体、ソースネクストの『いきなりPDF Professional 2』に相当すると思います。

このニュースを見ますと、森社長は、月25万本、年間200万本はいけると豪語しているようです。ですので、森社長の予想通りに進むと、2007年には廉価版のPDF作成ソフトをわざわざ購入して使う人はいなくなってしまいそうです。

しかし、そういう風に物事が進むのでしょうか?大いに疑問がありますね。

まず、『瞬簡PDF ZERO』(無償版)は、使う都度に、インターネットに接続して広告を表示するとのことですので、その煩わしさを我慢して使う人がどの位いるのでしょうか?もの珍しさにダウンロードして使い始めても、皆、煩わしくなって、すぐに使わなくなるであろうことは眼に見えているように思います。

私の経験では、お客様が最終的に使用するソフトウエア製品を選択するのは、無償か、有償かではなく、お客様がやりたいことができるかどうかです。また、お客様の気に入ってもらえるかどうか、ということが大きな要因になっているように思います。

つまり、世の中が貧しくてソフトウエアを買うお金がないならともかく、今の世の中では、一般人の大多数は、数千円のソフトを購入する余裕はあるのだろうと思います。そして、他に同じような、あるいはもっと良い製品があるわけです。そうなりますと、毎回広告が掲載されるのを我慢してまで使い続ける人が、それほど大勢いるとは思えませんね。使い続けてもらってこそ意味があるというものですが、皆、他のソフトに移ってしまうのではないでしょうか。

それに、ソフトウエアというものは、無限に改良すべき点が出てくるものですし、お客様の要望もだんだんに高度化していくものです。製品を無料でばらまいてそれで良しとするような発想からは、ソフトウエアをより良いものにしていこうという志が感じられません。

いづれにせよ、『瞬簡PDF ZERO』の2007年の行方を興味深く観察したいと思います。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2006年12月30日

PDFをとりまく環境とPDF製品の2007年展望 (2)

さて、2007年でPDFの世界にもっとも大きな影響を与えるのは、Office 2007の「Save as PDF」機能でしょう。

Microsoft Office 2007を使用している人は、Save as PDFアドインをダウンロードしてインストールすれば、従来のようにAcrobatやあるいはPDF出力ドライバを使って、印刷メニューからPDF保存をしなくても、文書をPDF形式で保存できるようになります。

このアドインは、既に次の所からダウンロードできるようになっています。
2007 Microsoft Office プログラム用 Microsoft PDF 保存アドイン

日本語のWebページでは、「2007 Microsoft Office system のベータ版ソフトウェアの機能を補完するもの」となっていて、正式版についてはなにも書いてありませんが、正式版でもサポートされることは間違いありません。

このアドインを使えば、Microsoft OfficeからPDFを作成するのに、Acrobatを初めとしてPDF生成するソフトウエアは不要となります。

Microsoft Office 2007は、今までのOffice製品と比べて、ユーザ・インターフェイスにあまりにも大きな変更を加えています。このため、既存のOffice ユーザが、Office 2007 に移行するには多少の時間が掛かるものと思います。従って、多少の時間がかかるかもしれませんが、Office 2007の普及に伴い、Office用のPDF作成ソフト(PDF ドライバ等)の市場が縮小していくのは間違いのないところです。

これは、PDF作成ソフトのメーカにとってはつらいところですが、一方、ユーザにとっては朗報でしょう。

Microsoft Officeで誰でも、簡単にPDFを作成できるようになれば、その結果として予想されることとして、次のようなことがあります。

(1) 一般のビジネス文書などがPDFとして交換される割合が急激に増えるでしょう。例えば、見積書、会議のメモ、契約書のような簡単な文書などもPDFとして取引先などに渡すケースが増えるでしょう。この結果、PDFの存在感がぐっと高まり、大勢の人がPDFを紙の代わりに使うようになるでしょう。

(2) Officeで作成したPDFが増えていくことから、PDF=Adobe=Acrobatという図式が崩れるでしょう。特に、日本ではこの図式が強く、Acrobatでなければ正しいPDFができないと思い込んでいる人が多いようです。Officeで作成したPDFの普及で、この図式が崩れ、PDFが独立したファイル形式として認められるようになるでしょう。

このあたりまでは、自然な展開と思いますが、その後、どういう展開になっていくか?これは、いくつかのシナリオが考えられますが、それは今後のお楽しみ。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2006年12月29日

PDFをとりまく環境とPDF製品の2007年展望 (1)

速いもので、2006年も残り2日と少しになってしまいました。もうすぐ2007年ですね。

年末にあたり、過ぎた1年を振り返り、来る年を展望して、PDFをとりまく環境やPDF製品の行方を占ってみたいと思います。

1.パソコンでは、まず、Windows Vistaの登場が2007年のもっとも大きなでき事ということになるでしょう。

(1) Windows Vista登場に伴う、緊急の課題としては、PDFを作成したり、処理したりするプログラムをWindows Vistaで動作するようにするということがあります。これは、各アプリケーション・メーカの確認作業、必要ならば修正版の提供次第です。アンテナハウス製品につきましては、後述しましたので、参照してください。

(2)Windows Vistaでは、文字がいくつか追加になります。そうしますと、PDFを作成したり、処理するアプリケーションが、単にVista上で動くのみでなく、新しく追加された文字を正しくPDFに出せること、あるいは、PDF編集などで、そういう新しい文字を取り扱いできることが必要です。この問題は、現在、いろいろなところで取り上げられています。

2.少しロングレンジになりますが、Vistaの登場とともにXPS (XML Paper Specification) というXMLベースのPDF類似のファイル形式が登場します。これが普及するかどうかが2007年の注目点です。XPSが、文書配布形式としてすぐに普及するとは思いませんが、普及した場合にPDFとXPSの使い分け、共存または競合という状態が生まれてくる可能性があります。

また、アプリケーションからの印刷パスにGDIのほかXPSが追加になりますので、アプリケーションによっては、PDF作成に影響があるかもしれません。ただし、いまのところPDF作成で大きな影響があるとは聞いていませんので、これは単なる杞憂に終わる可能性もあります。

【アンテナハウス製品のVista対応】
PDF関連ソフトをお使いのユーザの方に、あるいは購入をご検討の方は、お使いになっているソフトのVista対応、および、その予定などは気になるところでしょう。そこで、弊社の製品についての計画について、お話しします。

弊社の現行製品はインストールにあたり、Windowsのバージョンをチェックしており、原則として、ユーザの皆様がVistaにインストールすることはできません。

弊社では、現在、Windows Vista対応版を開発を行っており、OEM様向けのライブラリー類は2007年1月中にVista対応版のご提供開始の予定です。Antenna House PDF Driver V3.1はVista上で動かす分には、特に問題ありませんので、年明け早々にはOEMの皆様にはご提供可能と考えています。

エンドユーザ様向け自社デスクトップ製品につきましては、2007年3月末までにVista対応版としてリリースの予定です。ただし、一部、3月までに対応が間に合わない製品もあります。

Vista対応版のリリース時期につきましては、追って、正式にご案内したいと考えています。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2006年10月04日

「いまさら聞けないPDF」セミナー 終了しました

PDFセミナーいまさら聞けないPDF 「PDF活用のいろは」編を、7月末から4回開催しました。

この間、大勢の方にご参加いただきありがとうございました。

いろいろな業種からご参加いただいたのですが、全体として感じましたのは、PDFはかなり普及しているように思えますが、実際にはPDFのメリットを生かした使い方がなされていないようだ、ということです。

一般の人たちは、PDFをドキュメントを紙に出す代わりに印刷して配布する形式として使っているだけで、PDFのもつポテンシャルはほとんど理解されていないといっても過言ではないようです。

いままで、また、今でも、PDFというと印刷関連業界の人が、恐らく業務上でしょうが、一番関心をもっているようです。

しかし、2004年に1980円のPDF作成ソフトが日本に登場して以来、恐らく、廉価なPDF作成ソフトはあわせて200万本程度は市場に出回っているのではないかと思います。200万人というのは、パソコンユーザ全体から考えますと、まだ小さな数字です。

しかし、無償のPDF作成ソフトもありますし、さらに高価なAcrobat Professionalのユーザまで含めますとPDF作成ソフトのユーザは、その数倍はいるでしょう。

ユーザ数の増加に加えて、層の広がりも非常に幅広くなっています。

さらに、来年は、Office2007のPDF作成機能も登場して、PDF作成ソフトのユーザはさらに爆発的に増えていくものと予想されます。そうしますと、来年には爆発的な数の、また、様々な種類のPDFファイルが流通するようになると思います。

そういう中で、PDFツールのベンダとして、社会のお役にたつためにどういうことを行っていくべきか、もう一度良く考えねばならないと思います。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2005年12月09日

透明テキスト付きPDF

紙に印刷された書類をスキャンして、スキャナーが生成したイメージからPDFファイルを作成した場合、次の問題があります:もともと文字で表されている情報なのに、PDFファイルでは文字情報として扱えないことです。

すなわち、コンピュータで文字情報を取り扱うためには、文字をコード化されたデータとして扱わなければならないのに、スキャンした結果は画像だからです。この問題を解決するのが透明テキスト付きPDFです。

透明テキスト付PDFとは、スキャナーで読み取った画像をOCR機能をつかって文字を認識し、コード化した情報(テキスト)として、PDFの画像の上に透明属性を持たせて重ねたもの。PDFファイルの内容である文字情報を利用したいときは、テキストを取り出して利用できます。また、PDFファイルの中を検索してヒットした文字列の該当部分を反転表示することもできます。

透明テキスト付きPDFのアイデアは、恐らくOCR関係者が考えたものと思います。仕組みを聞いてみれば、特に驚くほどのことはないですが、こういうアイデアを初めて考え出した人は、なかなかすごいものですね。

一昔前のスキャナソフトは、OCRで文字認識した結果を、MicrosoftWord、Excelあるいは一太郎に変換できるのが売りだったと思います。いまのOCRソフトはすでにそのレベルは超えて、多くのものは、透明テキスト付きPDFまで作ることができるようです。

OCRソフトの一通りの紹介は、例えばこちら: 
OCRソフトの紹介

ところでOCRで文字認識した結果を、もとの画像に重ねるというアイデアはすごいものですが、実は、完全には重ならないようです。

次の例を見てください。これは、透明テキスト付きPDFをAcrobat6で表示して、「消費電力」という文字列を検索したものです。検索対象は、透明な文字で、ヒットした文字列に相当する部分が白黒反転されています。地の「消費電力」という文字と検索でヒットした文字の位置(白黒反転されている範囲)がずれていますね。

AcrobatS.png

次の図は、同じファイルを「自在眼9」のPDF表示機能を使って、同じ「消費電力」という文字列を検索したものです。Acrobatと同じようにずれていますね。

Jan9S.PNG

というわけで、二つのPDF表示ソフトで同じようにずれてしまうのですが、これはPDFを作る際に透明文字の位置がずれているためです。このように画像と文字がずれてしまうこともあることは知っていると良いと思います。

画像と認識した文字をぴったり重ねるのは技術的には可能と思います。可能であるからには、完全に重なるようなOCRソフトもあるかもしれません。おそらく、このあたりはOCRソフト次第なのでしょう。

投稿者 koba : 08:00 | コメント (1) | トラックバック

2005年11月20日

PDFの作成方法(13) – PDFの対話的機能

さて、実際のプリンタには接続しない仮想的なプリンタ・ドライバでPDFファイルを作成する、という方式には、次のような制限ができます。

ワープロソフトなどのアプリケーションの印刷機能は、プリンタを使って紙に印刷することを想定しています。このため、印刷機能を経由するだけでは、紙にはないけれども、PDFには用意されているいくつかの便利な機能を設定できないのです。

では、PDFにあって紙にない便利な機能とはなんでしょうか?主なものを簡単に紹介しましょう。

まず、しおり(BookMark)があります。文書のアウトラインをPDFファイルに設定しておきますと、Adobe Readerは、アウトラインを次の図のようにウィンドウに表示します。アウトラインの項目をクリックすると、その項目に設定されたリンク先にジャンプします。

BookMark.jpg

一般的には、文書の見出しを階層化してアウトラインを作ります。項目に設定するジャンプ先は、表示しているPDFファイル内でも外部でも構いません。書籍、操作説明書、仕様書などページ数の多いPDFファイルを作成する場合、しおりを設定することで、読み手が文書全体をナビゲーションし易くなります。

第二に、リンクがあります。PDFファイルの中にリンク先のアドレスを埋め込んでおき、ファイルをAdobe Readerなどで表示したとき、そのホットスポットをクリックすることで、埋め込まれたアドレスへジャンプするものです。使い方としては、目次から本文へのリンク、索引から本文へのリンク、本文内で別の箇所を参照、などが主なものです。PDFファイル内のみではなく、外部のPDFファイル(の特定の箇所)や外部のWebページへのリンクも設定できます。ユーザがホットスポットをクリックしたとき、その動作をするのはもちろんPDFビューアの役割です。

第三は、コメントです。PDFでは沢山の種類のコメント機能が使えます。PDF Referenceでは8.4 Annotationという項に定義されています。テキストで注釈を書く以外に、線、矩形、円、多角形、折れ線、ハイライト、アンダーライン、取り消し線、スタンプなどを使うことができます。本文とは別になっていて、既存のPDFファイルにコメントを追加したり、削除したりといった編集ができるように配慮されている訳です。Microsoft WordやExcelなどのOffice文書でも、本文と別にコメントをつけることができます。このコメントをPDFファイルを作成するとき、PDF内のコメントにできると便利でしょう。

第四に、アクセシビリティ機能があります。これは、また、別途、お話しましょう。

PDFには、これ以外にも、紙にはない、いろいろな機能がありますが、Officeソフトで作成するPDFファイルを想定すると、このあたりが主なものです。

PDFプリンタ・ドライバは、アプリケーションが紙に印刷するつもりでプリンタ・ドライバに対して出力したデータを取り込んでPDFファイルを作ります。このとき、しおり、リンク、注釈などは、データとして出力されないわけですから、PDFファイルに設定できません。何らかの工夫が必要になります。

投稿者 koba : 08:00 | コメント (0) | トラックバック

2005年10月30日

PDFってどんなもの(6) – Word文書はPortable?

10月25日のお話に、Kenさんから「ExcelとかWordを読取るフリーソフトとかもあるので実質Wordとpdfは等価じゃないかと思うのですがどうなんでしょう。」というコメントをいただきました。これは、とても良い質問だと思います。

結論から言いますと、Word文書とPDFでは、可搬性において大きな差があります。このことを少し詳しく説明してみます。

マイクロソフトはWord2003のViewerを無償で配布しています。これは、こちらからダウンロードできます:
Word Viewer2003

しかし、これだけでは、Word文書が可搬であるとは言えません。次のような問題があります。

(1)Word Viewer2003がサポートするオペレーティング システムはWindows 2000 Service Pack 4, Windows Server 2003, Windows XP。

従って、これ以外のWindowsを載せたPCでは使えません。また、PCには、アップルのMacintosh、Linuxなどで動くのもありますが、これらでWord文書を見たい人は見ることができません。

○PDFには、Windows版は無論のこと、Macintosh版、Linux版もあります。

(2)Word Viewer2003で表示できるOffice製品は、Microsoft Office Word 2003、Microsoft Word 2002、Microsoft Word 2000、Microsoft Word 98、Microsoft Word 97となっています。

Microsoft Wordには、他に日本で発売されたものだけでもMicrosoft Word Ver.5、同Ver.6、同Ver.7(95)があります。これらの約10年前に発売されたWordで作成した文書を表示することができません。

○PDFで日本語が使えるようになったのは1997年です。10年程前の文書をPDFにはできないことも多いでしょう。ですので、この点、50歩100歩と言えなくもありません。恐らく将来はかなり差が出るでしょう。

(3)Wordで文書を編集する際には文字毎にフォントを指定できます。では、作者が指定したフォントが、その文書を読みたいPCにインストールされていなかったら、どうなるでしょうか?次に、簡単な例を示します。
①まず、Wordで、文字に「HGP創英角ポップ体」を指定した文書を作ります。
Soei-org.jpg
②次に、そのWord文書を「HGP創英角ポップ体」がないWindows上のWordで表示しますと、次のようになります。
Soei-dest.jpg
この場合、自動的に近いフォントに置き換えて表示していることがわかります。このように指定されたフォントがないとき、勝手に別のフォントで表示するというのは、便利そうですが、トラブルの元にもなります。可搬であるというためには、フォントがなくても元と同じように表示できる仕組みが必要でしょう。

○PDFには、この問題を解決する仕組みがあります。

さて、Word文書とPDFでは可搬性において差があることを幾つか説明しましたが、お分かりいただけたでしょうか?この他にも、Word文書には可搬性について、いろいろ問題があります。これについては、また後日お話しましょう。

投稿者 koba : 08:00 | コメント (2) | トラックバック

2005年10月26日

PDFってどんなもの(5) – PDFの用途は?

この「PDFってどんなもの」、というタイトルでは、PDFの全貌をいろいろな角度から概観しています。今回は用途について、ちょっとさわりを:

PDFの用途は大きく、①印刷分野での使用、②ビジネス・教育・官公庁などでの一般用途、に分けて考えると良いのではないかと思います。

【印刷分野での使用】
雑誌や書籍を初め、パンフレット・ちらし、マニュアルなどの印刷物制作に関わる、制作担当、デザイナー、校閲担当者、印刷会社、広告会社などの間で印刷物の制作・進行過程でやりとりする電子データ形式としてPDFを使用するものです。

関係する人が専門家であり、比較的限定された人達が関係しています。前に、アドビシステムズがこの20年ほどの間に印刷業界の仕事をがらりと変えてしまった、と言いましたが、これは主に同社のPostScriptというページ記述言語の力によるものです。PDFは、PostScriptをベースに生まれたものですので、その生い立ちからして印刷用途との適合性が高いといえます。PDF仕様・製品が進歩したことにより、印刷業界では、徐々にPostScriptに代わってPDFが使われるようになってきています。

【ビジネス分野での使用】
ビジネス、教育、官公庁などでのPDFの使用は、ビジネスレター、月次報告書、申告書、報告書などを電子的に配布するためのものです。例えば、アメリカの銀行には、日本と違って通帳がありません。毎月利用実績(Statement)がPDFの形で送られてきます。通信・電話・電力・ガス会社、クレジットカード、証券会社からの報告書は日本ではまだ郵便物で送られてくることが多いですが、遠からず、アメリカのようにPDFで配布されるようになるだろうと思います。

現在のところ、上に述べたような、電子文書の一方的な配布形式としての使用が中心でしょう。

将来は、申告書などの入力用の形式としても使われるようになるでしょう。現在でもこれはできますが、あまり普及していないように思います。入力用の形式として使われるには、PDFの帳票を使って、簡単にデータを入力する方法をもっと普及させる必要があります。

印刷分野のPDFとビジネス分野のPDFでは、要求される機能が相当に異なります。また、適用されるPDFソフトウェアも異なることが多くなります。このあたりはPDFを利用する上でも重要なことですので、だんだん、詳しくお話していきたいと思います。

投稿者 koba : 09:40 | コメント (1) | トラックバック

2005年10月25日

PDFってどんなもの(4) – Portableとは

PDFは、その名を可搬な文書形式(Portable Document Format)というように、文書をお互いに交換する場合に最適な電子ファイル形式です。このことについて少し説明してみたいと思います。

下の図をご覧ください。ここではAさんが自分のパソコンで作成したファイルをBさんに渡して、Bさんが表示して内容を確認することを図式化しています。

original.png

Aさんは、自分のパソコンでMicrosoft Wordを使って、文書を作成し、それを「文書ファイル.doc」という名前をつけて保存します。すると、Aさんのパソコンのハードディスクの中には「文書ファイル.doc」というファイルが新しく作成されます。

この内容をBさんに見てもらうために、「文書ファイル.doc」を電子メールの添付ファイルとしてBさんに送ります。すると、Aさんから受け取った「文書ファイル.doc」の内容を、Bさんが、自分のパソコンで読むには、通常は、パソコンにMicrosoft Wordがインストールされていなければなりません。これは、「文書ファイル.doc」の内部が、Microsoft Word専用の形式になっていますので、他のソフトウェアでは(Word互換のリーダを持っていない限り)読めないためです。

これに対して、Aさんが、「文書ファイル.doc」の内容をPDF形式(「文書ファイル.pdf」)にしてから、Bさんに送ることもできます。そうすると、BさんはAdobe ReaderなどのPDF Viewerを使って「文書ファイル.pdf」の内容を読むことができます。

このようにPDFファイルを交換すれば、受け取った側ではオリジナル文書を作成したアプリケーションが無くてもファイルの内容を読むことができます。これが、PDFファイルが、可搬(Portable)であるということの基本的な意味です。

そういえば、昔、アドビシステムズは、AcrobatにAcrobat Exchange(交換)という製品名をつけていましたね。

投稿者 koba : 09:00 | コメント (4) | トラックバック

2005年10月23日

PDFってどんなもの(3) – 仕様は公開

PDFの仕様で重要なことは、仕様書が文書として公開されているだけではなく、誰でも開発に使えるということです。

PDF Reference 第5版の最初の章には下記のように明記されています。

「この本はPDFのファイル形式についての説明を提供し、第一に、PDFファイルを直接生成するPDF Producerアプリケーションの開発者のためのものである。また、開発者が既存のPDFファイルを読んで、内容を解釈し、変更するPDF Consumerアプリケーションを記述するのに十分な情報を含んでいる。」

PDFを作ったり、PDFファイルを読んだりできるのは、アドビシステムズの製品のみではなく、サードパーティの開発者が自由にPDFを作ったり、読んだり、修正することができることが明瞭に意図されています。

この文章は、筆者が (10年ほど前だったと思いますが) PDF Referenceを初めて読んだときにもありましたので、ずっと一貫した姿勢と思います。

仕様書を公開したこと、そして、この文章があることにより、アドビシステムズ以外のソフトウエア会社がPDF関連製品を出すことが可能になりました。この結果、アドビシステムズ以外からも、非常に沢山のPDF関連製品が生まれました。

アドビシステムズという会社は、一番最初は、アップルコンピュータのMacintosh向けにページ・プリンタの技術を提供することから成功してきた会社で、印刷・DTPの世界の専門家向けの製品を得意としてきました。アドビシステムズによって、この20年間で出版や印刷業界の仕事のやり方ががらっと変わってしまった、といっても言い過ぎではないほどです。

しかし、一般のビジネス、教育あるいは消費者にとってアドビシステムズという会社はそれほど身近な存在ではなかったと言って良いと思います。ですので、おそらく、第三者のソフトウエア会社から多数のPDF関連製品が出なければ、印刷業界を超えて、広い分野における電子文書の標準形式として、PDFが飛躍的に普及するのにはもっと時間がかかっていると考えられます。

日本製PDF製品はまだまだ少ないですが、海外では、PDF関連製品はそれこそ星の数ほどあります。アドビシステムズを含め、すべてのソフトウェア製品の提供者にとって、PDF関連製品の分野は、競争が非常に厳しく大変なのですが、使用者・消費者にとっては、だんだん、良いものを安く手に入れることができるようになるでしょう。これも、PDFの仕様書が公開されているお陰です。

【参照】
アクロバットでなくてもPDFができるのはなぜ?

投稿者 koba : 00:00 | コメント (0) | トラックバック

2005年10月21日

PDFってどんなもの(2) – PDFファイルの仕様書

PDFは、電子ファイル形式の仕様と言いましたが、アドビシステムズ(Adobe)はPDFの仕様書を、PDF Referenceとして公開しています。

Acrobatのバージョンアップと同時に、PDF Referenceも改訂されていて、Acrobatのメジャー・バージョン番号とPDF Referenceの版番号は、次のような対応関係があります。

Acrobatのバージョン番号 PDF仕様書
Acrobat 7 PDF Reference, Fifth Edition, Version 1.6
Acrobat 6 PDF Reference, Fourth Edition, Version 1.5
Acrobat 5 PDF Reference, Third Edition, Version 1.4
Acrobat 4 PDF Reference, Second Edition, Version 1.3

次のリンク先から、最新のPDF1.6までのPDF Referenceを手に入れることができます。特別な手続きなしで自由にダウンロードできます。

PDF Reference

PDF Referenceは、PDFの専門家のいわば聖書に匹敵しますので、古い版にも歴史的価値がありそうですが、残念ながら、古いのは消してしまっているようです。

PDF Referenceは、すべて英語で記述されていますが、第2版は日本語版も書籍として出版されています。

PDFリファレンス第2版

PDF1.3仕様の訳が出たきり、いまだに新版が出版されていません。どなたか訳してもらいたいものです。

仕様書を公開するというのは、ソフトウェアの開発にとっては非常に重要な意味をもちます。それだけではなく、PDFの中に記述された内容は、本来ユーザの資産ですので、仕様書が公開されていることは、ユーザにとっても大きな意味があることでしょう。

投稿者 numata : 09:30 | コメント (0) | トラックバック

2005年10月20日

PDFってどんなもの(1)

PDF(Portable Document Format)とは、HTML、JPEGなどと同じように電子ファイルの形式名で、米国のアドビシステムズ社が発明したものです。


PDFが生まれた背景や歴史についての簡単な説明は、ここにあります。

http://www.adobe.co.jp/products/acrobat/adobepdf02.html

PDFは、よく、Acrobatと混同されることがありますが、Acrobatはアドビシステムズ社が開発・販売するPDF処理ソフトウェアの「製品名」ですので、混同しないように注意しましょう。

電子ファイルの形式としてのPDFは、大雑把にいうと紙のページを電子的に表現したものです。一枚の白紙の紙を思い浮かべてみてください。皆さんが鉛筆で紙に文字を書いたりや線を引くときは、どの位置に、どんな大きさで、どんな文字や絵を描こうかと考えます。そうして、頭の中に考えたとおりに、手を動かして、文字と絵を書きますね。

PDFのファイルの中には、皆さんが頭の中で考えた状態と同じような情報が、「命令」として記述されています。即ち、1枚の紙の左上を原点にして、下方向と右方向に座標軸をとってできる平面を定義し、その平面のどこに、どんな大きさで、なんという文字を書くか、どんな太さで、どんな種類(直線、点線...)の線を引くか、どんな画像をどこにどんな大きさで配置するか、といった命令を記述したものです。PDFファイルの中にはそういう情報が1ページずつ記述されています。

このPDFファイルを読んで、記述された命令を解釈・実行して、実際にコンピュータの画面やプリンタにページを出力するプログラムが、PDF リーダ(Reader)またはPDF ビューア(Viewer) と呼ばれるものです。

PDF ビューアのひとつがAdobe Reader (以前は、Acrobat Readerと呼ばれていました)です。実際のところ、Adobe Reader を使っている人が99%位いるのではないかと思いますが。

投稿者 koba : 10:00 | コメント (0) | トラックバック