カテゴリー別アーカイブ: PDF活用
PDF/A-1aのタグの見方
今回は PDF/Aの作成方法(準拠レベルA) でAcrobat/Wordが出力したPDF/A-1aの内容、主にタグ部分について少し見てみたいと思います。
レベルAではレベルBが持たない情報である文書の論理構造、言語などの情報を持つ必要がありました。PDFでは、文書の論理構造を表現するためにタグと呼ばれる仕組みを用意しています。
このあたりをつかって元文書がどのように表現されているか、Wordで簡単なサンプル文書を作成して、PDF/A-1aに変換したものを見てみます。
章、節、項の部分はWordの組み込みスタイルである「見出し1」~「見出し3」を使用し、
リスト番号を付加したものです。他に、箇条書き、表、画像 などを入れてみました。
Acrobat XIでは 「表示メニュー」の「表示切り替え」-「ナビゲーションパネル」-「タグ」とすることで、ドキュメント内につけられているタグの様子を見ることができます。左側にタグが階層表示され、ここをクリックすると本文内の対応する箇所がハイライト表示されます。
Word 2013で「PDF/A」および「アクセシビリティ用のドキュメント構造タグ」を指定して作成したPDFの場合

このように表示されます。
一方、Word 2013から Acrobat XIのWord用PDFMakerでPDF/A-1aを指定して作成したPDFの場合

となりました。
主なところだけ展開したキャプチャです。似たような構造ですが、タグの名前をはじめとして、細部では若干タグのつけ方も異なっていることがわかります。
PDFMakerでは「見出し1」など、Wordのスタイル名をそのままタグ名に使用しています。これら独自のタグ名をPDF仕様が用意している標準的なタグ名に割り当てる「ロールマップ」という仕組みがPDFに用意されていて、Acrobatでも表示させることができます。

これを参照すると、スタイル名の「見出し1」を標準タグの「H1」に対応づけていることがわかります。
このような形でタグを使用して元文書の論理構造をPDFで表現します。
また、比較のために、Wordの「見出し1」などのスタイルを使わずに、表示だけ似たような形の文書を作成してPDF/A-1a出力してみます。

ここの 章番号 1. 、1.1.1 などはWordのリスト番号ではなく、通常のテキスト入力したものです。
PDF/A-1aに変換した結果のタグを見てみます。

これはWordのPDF保存の場合ですが、このように、こちらでは文書構造を取得するヒントとなるものが存在しないため、単純に〈P〉タグだけで出力されていることがわかります。
以上、簡単なタグ付け内容の参照方法となります。
『瞬簡PDF 作成 7』の便利な新機能

先週発表した『瞬簡PDF 作成 7』は新しい機能として次の実装をしました。
- TWAIN対応のイメージスキャナーからの取り込みに対応
- 画像ファイルを回転してPDF作成
- IE用のアドインボタンからPDF作成
- PDFの一括回転
これらは日ごろお客様から寄せられた、お問い合わせやご要望などを参考にさせていただき追加した機能です。一見地味な機能のように思われるかもしれませんが、実際にご利用いただいているなかから出てきた貴重なご意見は、あると便利なものも多いと思います。
「画像ファイルを回転してPDF作成」「PDFの一括回転」についてはそれぞれ「画像ファイルのPDF変換時のオプション」、「各処理後の出力PDFへの出力オプション」といったオプションとして設定するものとなります。メインの機能としての実装ではないため若干設定箇所がわかりにくいかもしれません。
新機能について利用方法や設定方法についてまとめたページを用意しましたので、ご参考になれば幸いです。
『瞬簡PDF 作成 7』 新発売!スキャナー読み込み対応とIE用アドオン機能の追加でPDF作成をより簡単に!

先週10月22日に、PDF作成ソフトの新バージョン『瞬簡PDF 作成 7』を発表しました。
今回のバージョンアップでは、イメージスキャナーからの読み込み機能で紙文書をスキャンして一括でPDF作成できるようになりました。また、IE(Internet Explorer)用のアドオン機能を追加し、見ているWebページをボタンクリックで簡単にPDF作成できます。
⇒ ニュースリリース:スキャナー読み込み対応とIE用アドオン機能の追加でPDF作成をより簡単に!『瞬簡PDF 作成 7』新発売
アンテナハウス直販のオンラインショップでは、ダウンロード版、パッケージ(CD-ROM)版ともに先行発売を開始しています。
量販店などでは11月下旬から店頭販売される予定です。
⇒ アンテナハウスオンラインショップ『瞬簡PDF 作成 7』
新しくなったポイント
- Windows 8.1 に対応
- TWAIN対応のイメージスキャナーからの取り込みに対応しました。スキャン画像から簡単にPDFへ変換します。
- 画像ファイルを回転してPDF作成。取り込んだスキャン画像の向きを回転してPDFを作成します。
- PDFの一括回転。PDFが横向きだったり、上下が逆の場合に一括で回転して修正できます。
- Microsoft Internet Explorer用のアドインボタン機能を追加。見ているWebページをボタンクリックですぐさまPDFに出力します。
『瞬簡PDF 作成 7』はおかげさまで、企業や官公庁、教育機関などで、多くのライセンスをご導入いただいています。シンクライアント環境での動作も確認していおりますので、安心してシンクライアント環境へご導入いただけます。
また、ライセンス数を気にすることなくご利用いただける事業所規模に応じたライセンス「AH-ULL」(エーエイチ-ユーエルエル:Antenna House-Unlimited License)は大変お得になっております。
⇒ 企業や自治体、官公庁向けのお得なライセンス『AH-ULL』
続・OCRのよもやま話
先日、JR東海から2027年度に開業が予定されるリニア新幹線の概要が発表されました。多くのメディアで取り上げられましたので興味を持って見られた方も多かったのではないでしょうか?
弊社の伊那支店がある長野県南部にもリニア新幹線の新駅ができる計画で、地元紙でも大々的に記事が掲載されました。これまで夢としてしか語られなかったことがにわかに現実味を帯びてきたことで、谷あいののどかな地方にこれからどのような風が吹きこむのか、住人としても目が離せない気がします。
閑話休題。
昨年の7月頃に『OCRのよもやま話』という記事を書きました。
今回はその続きということで、OCRにまつわる話題をいくつか追加したいと思います。
OCRと解像度
OCRとは、Optical Character Recognition(あるいはReader)の略で、紙に印刷された文字をイメージスキャナなどで読み取り、画像化された情報から文字情報を抽出する技術であることを以前の記事でご紹介しました。
OCRで文字を正確に取り出すために必要な要素を考えると、おおよそ以下の点が挙げられると思います。
- 元になる原稿の状態が良好であること(文字が鮮明で、紙に汚れや皺がないなど)
- 適切な解像度でスキャンされていること
- OCRソフトが適切な性能であること
このうち、2)の「解像度」について取り上げます。
OCRで使う解像度はスキャナなどで取り込む画像の品質を表すもので、dpi(ディーピーアイ)という単位を使います。これは、1インチ(2.54cm)の間隔にどれだけ物理的な点(画素)が配置されているかを示すもので、同じ大きさの画像で比べた場合は、解像度の値が大きいほど高精細な画像が得られます。
解像度は別の言い方をすると、1インチあたりの画素の密度を表すということができます。密度が濃ければそれだけ細かい描写が可能になります。以下はそれを模式図にしたものですが、文字のサンプルにあるように解像度が小さいと曲線などで滑らかな表現ができなくなります。
では、実際に異なる解像度でスキャナから取り込んで比較してみましょう。
以下は、スキャナの設定でそれぞれ 200dpi/400dpi に解像度を変更してJPEG形式に保存したデータの一部を示しています。
ちょっと分かりづらいかも知れませんが、ブラウザの表示倍率をあげて見ていただくと両者の違いが分かります。
以下は、この二つの画像を弊社のOCR変換製品『瞬簡PDF OCR』でテキストファイルに変換した結果です。
解像度が200dpiだと文字化けしてしまう箇所が、400dpiでは(完全ではないですが)おおむね正しく認識できていることが確認できます。
そうすると、もっと解像度を高くしてスキャンすれば更に良い結果が出せそうに思えます。ところが、これがさにあらず、なのです。
以下は、スキャナの設定を600dpiにして変換を行った結果です。
解像度を上げても、あまり変換結果に影響がないことが確認できるかと思います。
一般にOCR処理では、300~400dpiの範囲が適切なOCR結果を得る解像度だと言われています。それ以上解像度を上げてもファイルサイズが大きくなるばかりで、OCRの変換精度はあまり変わらないか、逆に悪くなってしまう場合もあります。ちなみに今回使用したJPEGデータの場合、400dpiのときのファイルサイズは約1.4MBですが、600dpiでは約2.7MBでした。
OCR処理を使って文字の取り出しを行う際には、スキャンの段階から適切な解像度を設定していただくことでより良い結果が得られます。ご参考にしていただければ幸いです。
※『瞬簡PDF 変換8』、『瞬簡PDF OCR』は製品の体験版を公開しております。是非、お試しください。
PDF/UA(ISO 14289-1)について(終)
PDF/UAの紹介の最後になります。
ここまで、ファイルフォーマットの要件、リーダの要件を記載しましたが、最後はAT(Assistive Technology:支援技術)の要件になります。
このATにはPDF/UAを使用するスクリーンリーダや、音声入力をサポートするデバイス、キーボード入力を容易にする装置、点字に変換して印刷するソフトウェアなど広範なソフトウェア、ハードウェアが含まれます。
ATに求めら得る要件とは、大きくは下記となります。
- この仕様に定められた構造型、属性、値をユーザが好む方法で利用、表示できること、論理構造ツリーに属さないアーティファクトを処理する機能があること。
- 準拠リーダが複数の表現方法で表示する場合、ATはユーザの選択する方法でその表現にアクセスすることを可能としなければならない。
(この複数の表現方法とは、PDFのオプショナルコンテントあるいはレイヤーなどと呼ばれる機能を使用した表現方法のことです) - ナビゲーション機能として、以下をサポートする必要があります。
- PageLabel数値ツリーを用いてナビゲーションする機能
- 構造階層を用いてナビゲーションする機能
- ドキュメントのアウトライン(Adobe Readerのしおり)を用いてナビゲーションする機能
- ユーザ指定に応じたズーム機能
PageLabelとは、たとえば、目次部分は小文字のアラビア数字、本文はローマ数字といったページ番号を持つ文書がありますが、PDFでそのような表現をする機能です。ナビゲーションに、このPageLabelや、文書の章・項といった論理構造の階層情報を使用する機能が必要とされます。
ATの要件については、あまり詳細なことは定められていません。
以上、PDF/UAの紹介となりますが、フォーマットの要件部分で、関連仕様に W3Cの Web Content Accessibility Guidelines(WCAG) 2.0 があることを記載しました。
これまで説明したPDF/UAファイルの作成、使用の双方に必要とされる要件は、PDFファイルをW3Cの勧告であるWCAGに沿って利用するために必要とされるPDFの機能の使用方法となります。
PDF/UAの理解には、WCAG 2.0 (およびその関連ドキュメント)で解説される内容を理解する必要があります。
WCAGのW3Cの勧告は下記にありますので、興味のある方は参照ください。
http://www.w3.org/TR/2008/REC-WCAG20-20081211/
(日本語訳)
http://www.jsa.or.jp/stdz/instac/commitee-acc/W3C-WCAG/WCAG20/
PDF/UA(ISO 14289-1)について(3)
間があいてしまいましたが、以前のPDF/UAの紹介の続きになります。
PDF/UA(ISO 14289-1)について
PDF/UA(ISO 14289-1)について(2)
今回は、PDF/UAのリーダ側の要件をまとめてみます。
全体としては、ISO 32000-1:2008で定義されているドキュメントの論理構造とアーティファクトを処理する能力を持つこと、および、ATとのインターフェース機能を持つこと、とあります。
AT(Assistive Technologies:W3CのWCAG2.0の邦訳では「支援技術」という用語が使用されていました。)とのインターフェース機能とは、
- 構造タグのタイプ、属性、およびキーの値に対するアクセスの提供およびオプショナルコンテントグループの可視状態を考慮した表示能力
- アーティファクトをATが利用できるようにすること
- ユーザインタフェースが存在する場合、それをATが利用できるようにすること
とあります。
(ここの「アーティファクト」ですが、PDFではドキュメントの著者によるオリジナルのコンテント(リアルコンテント)以外の、ページ付けやレイアウトのために生成されたオブジェクトをアーティファクトと呼んでいます)
以下、PDFの各オブジェクトに対して個別に記載されている要件となります。
- テキスト
-
・論理的な読み込み順番をATデバイスが利用可能であること
・文字コードを適切に処理する能力があること
・自然言語、およびその変更をATデバイスが利用可能であること - 表
- 表のセルが空である場合、その情報をATデバイスが利用可能であること
- オプショナルコンテント
-
オプショナルコンテントを含む場合、複数の表現が選択可能となることがあるが、すべてのオプショナルコンテントを表示する手段を提供し、オプショナルコンテントコンフィギュレーション辞書の階層を表示する手段を提供すること
(このようなドキュメントの例として、多言語ドキュメントで、オプショナルコンテントを使用して、各言語別の表現をサポートしているようなドキュメントがあります) - 添付ファイルと埋め込みファイル
-
- 構造ツリーに存在していない添付ファイルを利用可能とすること
- 埋め込みファイルの名称を表示するためにメカニズムを提供すること
- デジタル署名
- デジタル署名されていることをユーザに報告し、デジタル署名の証明書属性と有効性の状態を提示できること
- アクション
- アクションがドキュメントの可視状態を変更する場合、ATがその変更を利用できること
- メタデータ
- ドキュメントのCatalog辞書のMetadataストリームにおけるすべての要素をATが利用できること
- ナビゲーション
- 論理階層構造やしおりを使用してナビゲートする機能を持つこと
- 注釈
- 各注釈の代替え記述をATデバイスに利用可能とすること
- フォーム
- ウィジェット注釈のテキスト記述をATデバイスに利用可能とすること
- マルチメディア
- 動的にではなくユーザの要求に応じて再生すること
PDF/UAの読み手にはこれらの機能が必要とされています。
出力結果の PDF に勝手にリンクが作成されてしまう現象
AH Formatter 担当です。
AH Formatter から作成した PDF 内に
指定していない外部リンクが作成されているというお問い合わせをいただくことがあります。
たとえば文書内に
https://www.antenna.co.jp/
といった URL を示す文言があり(確認用 PDF)、
それが勝手に外部リンクになっているという現象であれば、
ご使用の Adobe Reader や Acrobat の機能によるものと思われます。
Adobe Reader X でしたら、
[編集] – [環境設定] の「一般」にある「URL からリンクを作成」という項目が該当します。

これをオフにすると URL の文字列が外部リンクになるという現象がなくなります。
参考記事(2024/6/7公開)
本ブログのより詳しい解説記事を次に用意しました。関心をお持ちの方はご参照ください。
知っておきたい便利なコワザ機能 -その3-
『書けまっせPDF』の知っておくと便利な機能を4回に分けて紹介していますが、今回、第3回目は「テキストボックスの背景色」機能を紹介します。
PDFを編集する際に、元々ある文字や画像などを隠して、その上に文字を入力したいといった場合があります。
「書けまっせPDF」ではそのような場合、
「修正テープ」機能を使用して隠したい領域を指定した上で、テキストボックスを挿入して文字を入力します。
しかし、テキストボックスに背景色を設定することで同じような結果を実現することができます。
操作は、まず隠したい領域にテキストボックスを作成し、
プロパティペインに表示されるテキストボックスのプロパティから背景欄にある色を選択します。
背景に合った色を選択(スポイトで背景色をそのままクリックするのも可)することでテキストボックスに背景色が設定され、PDFの文字が隠れます。
そのまま文字を入力することができます。
しかし、隠す領域が広い場合などはテキストボックス内の文字位置の調整が
複雑になりますので、この方法はあくまでも狭い範囲を隠して文字を入力する場合に使用して、隠す領域が広い場合は、
従来通り修正テープとテキストボックスを併用するのが良いかと思われます。
是非一度お試しください。
知っておきたい便利なコワザ機能 -その2-
『書けまっせPDF』の知っておくと便利な機能を4回に分けて紹介していますが、今回、第2回目は「オブジェクト一覧」ペインを紹介します。
ページが複数あるPDFを編集する場合、各ページにテキストボックスや画像など様々なオブジェクトを挿入することになります。
しかし、編集途中で挿入したオブジェクトを修正したり、削除する場合、
オブジェクトを挿入したページまでスクロールして戻らなければならず、
大量のページがあるファイルなどでは若干面倒に感じます。
そんな時は「オブジェクト一覧」ペインが便利です。
「表示」メニューから「オブジェクト一覧ペイン」を選択すると
画面下部にオブジェクト一覧ペインが表示されます。
挿入したオブジェクトがページ毎に分かれて表示されます。
修正したいページの該当するオブジェクトをクリックするだけで
そのページに移動してオブジェクトが選択されますので、
すぐに修正や削除といった作業を行うことができます。
また、作成日付を指定してオブジェクトの検索を行ったり、
テキストボックスだけ、楕円だけといった
オブジェクトの属性を指定しての検索も可能です。
是非一度お試しください。

















