今日はPDF/A-2について説明します。
昨日、説明しましたようにISO 19005はマルチパートで構成される規格となりますが、そのパート1(PDF/A-1:ISO 19005-1)とパート2(PDF/A-2:ISO 19005-2)の違いはどのようなものかを記載してみます。
ベースとするPDFの仕様が PDF/A-1は PDF 1.4、PDF/A-2は PDF 1.7となります。PDF 1.7は ISO の規格 ISO 32000-1としても設定されております。
PDF 1.4から PDF 1.7の間で、仕様に追加された主なものをまとめます。
- PDF 1.4 -> PDF 1.5
-
JPEG2000圧縮によるイメージ
-
オブジェクトストリーム、Xrefストリーム(圧縮率の向上)
-
オプショナルコンテント
-
XFA Form
-
PDF 1.5 -> PDF 1.6
-
暗号化機能の強化(AES暗号化の追加)
-
カラースペース追加(DeviceN、NChannel)
-
PDF 1.6 -> PDF 1.7(ISO 32000-1)
PDF/A-1は PDF 1.4をベースに、昨日説明した各種制限等を加えたものでしたが、PDF/A-2はほほ同じような制限を、ベースとなるPDF 1.7(ISO 32000-1)に課したものとなります。ほぼ同じと記載しましたが、大きく異なる点として、PDF/A-1では使用禁止となっていた PDF 1.4の透明機能が、PDF/A-2では、使用可能となっています。また、PDF 1.4からPDF 1.7で追加された機能のなかでも、たとえばJPEG2000圧縮によるイメージは使用可能ですが、XFA Formなどは使用禁止となっています。
次に準拠レベルの定義ですが、PDF/A-1では準拠レベルとして、レベルAおよびレベルBの2種類が定義されていました。PDF/A-2では以下の3種類となっています。
- PDF/A-2a(レベルA:ISO 19005-2完全準拠)
- PDF/A-2b(レベルB:ISO 19005-2一部準拠)
- PDF/A-2u(レベルU)
レベルA,レベルBの区分については昨日説明したPDF/A-1(ISO 19005-1)の場合と同等です。レベルUはPDF/A-1には無かった区分ですが、レベルAとレベルBの中間に位置するものとなります。具体的には、レベルAの論理構造などの情報は含まれませんが、レベルBの見た目の維持に加えて、PDF内のテキストのUnicode値が取得できることを保証できるレベルとなります。
テキストのUnicode値の取得ですが、PDFにはAdobe Readerなどで問題なく表示できても、文字コードが格納されていないため、たとえばコピー&ペーストで他のアプリケーションに持ち込んだ場合に文字化けしてしまう、というようなものが存在します。これはレベルBの見た目の保証という条件は満たしていますが、レベルUのUnicode値の取得という条件は満たしていないという状態に該当します。データの再利用という観点から見た場合に、レベルBを満たしていてもテキストのコピー&ペーストもできない、というのでは不安が残るということで追加されたものでしょう。
(Antenna House PDF Driver では、PDF/A-1b:2005を含めて、出力するPDFのバージョンにかかわらず、PDF内のテキストにUnicode値の格納を行っています)
以上、簡単ではありますが、PDF/A-2PDF/A-2についてまとめてみました。
ISO 19005-3(PDF/A-3)はまだ正式ではなくDISですがISO Storeでは販売されています。こちらについてもまた機会を見てまとめてみたいと思います。