カテゴリー別アーカイブ: PDF のあれこれ

OCRのよもやま話

先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。

さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。

これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。

デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。

前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。


PDF/A-3 PDFの新しい目的

PDF/A-3(DIS、以下単にPDF/A-3とします)仕様のIntroductionに、PDFを他のファイルフォーマットのコンテナとして機能できるようにすることが新しい目的である、との記載があります。この部分について、今回は見ていきます。
PDFファイル内にPDFやその他のファイルを格納する埋め込みファイル(Embedded Fil)と呼ばれる機能があります。Acrobat 8で「PDFパッケージ」、Acrobat 9以降で「PDF ポートフォリオ」呼ばれるようになった機能なども、これを用いて実装されています。PDF/A-2の仕様では、埋め込み可能なファイルをPDF/A-1あるいはPDF/A-2形式のファイルに限定していました。
PDF/A-3では、この制限がなくなり、任意の形式のファイルを埋め込むことを認めるように変更されています。
ただし、いくつかの要件が追加されています。
まず、埋め込みファイルがどのようなものであるかを説明するテキストを記載する必要があります。次に埋め込みファイルを記述するデータ内にAFRelaitionshipという、新しいキーを追加しています(PDF/A-1,2 ではベースとなるPDFの仕様に対して使用可能なキーを制限するような形で仕様を定めていましたが、PDF/A-3では、ベースのPDFの仕様では定義されていないキーが使われるようになっています)。
このAFRelationshipは、埋め込みファイルとPDF本文(全体であったり、PDF内の一部であったりします)との関係を指定するもです。
PDF/A-3の仕様で、AFRelationshipに設定する値の例がいくつか記載されています。
・ワープロファイルからPDFを作成し、元のワープロファイルをPDF内に埋め込む場合は”Source”と記載し、PDFのオリジナルデータ(Source File)であることを示す。
・PDF内に数式部分があり、この数式を補足するためにMathMLのデータをPDFに埋め込む場合は”Supplement”と記載し、PDF内のデータの補足データであることを示します。
・PDF内のチャートが存在し、このチャートのデータをCSVで埋め込んでおく場合、”Data”と記載し、チャートの元データであることを示します。
(”Source”,”Data”,”Supplement”の他に、代替え表現用の”Alternative”,それら以外の場合の”Undefined”が定義されています)
また、このほかに、上記の説明で、埋め込みファイルがPDFファイル全体に対するものであったり(上記のワープロの例)、PDF内の一部に対するものであったり(上記の数式の例)することを示すために、PDF内の各種データに埋め込みデータと対応付けをするためのキー(AF)が追加されています。
PDF/A-3は、このような機能の追加により、PDF/A-2を各種ファイルのコンテナとして使用できるように拡張したものとなります。


続・PDF/Aとは― PDF/A-3について

以前、国際標準化機構(ISO)が制定している国際標準 ISO 19005 のパート1、パート2 である PDF/A-1、PDF/A-2についてその概要を記載しました。
今回(および次回)はその続編である PDF/A-3についてまとめてみたいと思います。
PDF/A-1 はISO 19005 パート1として2005年に、PDF/A-2は ISO 19005パート2として2011年に制定されています。これに対して、パート3は、現時点ではDIS(Draft International Standard/国際規格案)というステータスで、まだ審議中のものです。審議中ではありますが、ISO ストアで 仕様書が販売されていますので、このレベルで記載してみたいと思います。
まず、タイトルからですが、PDF/A-2は、「Use of ISO 32000-1(PDF/A-2)」 でしたが、PDF/A-3(DIS)では、「Use of ISO 32000-1 with support for embedded files(PDF/A-3)」となっています。
前回記載しましたように、PDF/Aは PDFの特定のバージョンをベースとして、その機能に対して、使用範囲を制限し、長期保存に適した形(視覚的な外観、およびドキュメントの論理構造、意味などを継続して維持すること)にするものでした。PDF/A-1、PDF/A-2がベースとするPDF仕様はそれぞれ、PDF 1.4、ISO 32000-1 となっていました。PDF/A-3はタイトルからもわかりますように、PDF/A-2同様にISO 32000-1をベースとしています。変更点は埋め込みファイル関連のようです。
PDF/A-2とPDF/A-3の仕様書をざっと比較してみますと、どちらにも、Embedded filesという項がありますが、この項の記載内容が変更され、PDF/A-3では補遺部分に PDF/A-2には無かったAnnex E(informative) Associate Filesという項目が追加されています。この部分を除くと、ISO 32000-1をベースとして、 a,b,およびuの3種類の準拠レベルを定めている点など、PDF/A-3はPDF/A-2とほぼ同様です。
次回は、この変更部分についてまとめてみます。


Pages: Prev 1 2 3 4 5