カテゴリー別アーカイブ: PDF のあれこれ

PDF/Aの作成方法(準拠レベルB)

これまでに、PDF/A(ISO 19005)ファミリの仕様を順次紹介してきました。
PDF/A-3については、前回の紹介時点(2012/05/09~2012/05/11)ではまだ国際標準になっておらず、Draftの仕様で記載しましたが、その後、2012/10に正式に初版が発行されています。

今回はそのPDF/Aファイルの作成方法について書いてみます。

以前、説明しましたように、PDF/Aファミリには準拠レベルが存在します。長期間に渡ってファイルの視覚的な外観を維持できることを目的とするレベルB、これに加えて、ドキュメントの論理構造、意味といった情報を格納できるPDF/A仕様完全準拠のレベルAがあります(PDF/A-2,PDF/A-3ではこの中間にあたるレベルUが定義されます)

今日は、Pドキュメントの論理構造を必要としない準拠レベルB対応ファイルの作成方法を紹介します。

PDFファイルの作成方法として、アプリケーションからの印刷時に指定するプリンタにPDF出力用の仮想プリンタドライバを指定する方法、PostScriptファイルからPDFへ変換する方法などがあります。

前者では、PDF/A出力に対応している仮想プリンタドライバを指定することでPDF/Aファイルを作成することができます。プリンタドライバが、渡された印刷データからPDF/Aファイルを作成しますが、印刷データには元のドキュメントの論理構造に関する情報は含まれていないため、レベルAに準拠したPDF/Aファイルの作成はできません。PostScriptファイルからの場合も同様です。

■仮想プリンタを使用してPDF/Aファイルを作成する方法

PDF/A対応の仮想プリンタの例として、当社のAntenna House PDF Driver,アドビシステムズのAdobe PDFの使用方法です。いずれもPDF/A-1bファイルの作成に対応しています。

●Antenna House PDF Driver
これは、瞬簡PDF作成6,瞬簡PDF編集4、および瞬簡PDF 統合版6に同梱されているAntenna House PDF Driver です。
現在では、ひとつ前のバージョンになっていますが、以前の記事で、使用方法を説明しておりますので、参照ください。
●Adobe PDF
こちらは、アドビシステムズのAcrobat 製品に含まれる仮想プリンタドライバです。

  • アプリケーションの印刷で表示される印刷ダイアログのプリンタの選択で、Adobe PDFを選択し、詳細設定をクリックして、印刷設定ダイアログを表示します。
    AHBLOG-2013-0621-1
  • 印刷設定ダイアログの「PDF設定」で、PDF/A-1b:2005(RGB)(CMYKカラースペースを使用する場合は PDF/A-1b:2005(CMYK))を選択します
    AHBLOG-2013-0621-2

    この「PDF/A-1b:2005(RGB)」は、Adobe PDFで設定可能な各種項目に対して、PDF/A-1b出力用に適切な値を定義したプリセットになります。「PDF設定」の右側の「編集」ボタンをクリックすると、プリセット値の内容を参照することができますが、設定内容を見てみると、「互換性のある形式」として、PDF/A-1bのベースである「PDF 1.4」、フォントには「すべてのフォントを埋め込む」、カラーマネージメントポリシーには、「すべてsRGB色に変換」、準拠する規格には、「PDF/A1-b(Acrobat 5.0互換)」などが設定されていることがわかります。

  • 以上を指定して、印刷処理を行うことで、PDF/A-1bに準拠したPDFファイルが作成されます。フォントによっては埋め込みを禁止しているものが存在しますので、ドキュメント内でこのようなフォントが使用されていると、エラーが発生します。このような場合は、フォントの変更などドキュメント側の修正が必要となります。

■PostScriptからPDFへ変換する方法

PostScriptファイルから、PDF/A-1bファイルへの変換は Acrobatに付属するDistillerを使用することができます。また、フリーソフトとして配布されているGhostscriptもPostScriptからPDFへの変換機能を持っていますが、変換時に -dPDFAオプションを指定することで、PDF/A-1bファイルを作成することができます。

このほか、当社製品では以下の製品がPDF/A-1bの出力をサポートしています。

  • PDF Server V3
  • Server Based Converter V5
  • Antenna House Formatter V6

次回は、準拠レベルAのPDF/Aファイル作成方法を説明します。


CAS-UBのサイトにて、PDFの総合解説書『PDFインフラストラクチャ解説』を無償配布しています。どうぞ、ご利用ください。

CAS-UBの書籍をつくる仕組みを使って制作中の『PDFインフラストラクチャ解説』を0.30版に改訂しました。

無償配布しています:CAS-UB出版物紹介ダウンロードの「PDFインフラストラクチャー解説(仮)」

PDF版とEPUB3版を用意しています。

0.30版で次の改訂を行ないました。

1.内容の追加

0.30版では第21章PDFの長期保存:21.1 PDF長期署名の節を有限会社ラング・エッジの宮地社長に執筆していただきました。

2.参考資料の形式を変更

(1) 参考資料の一覧形式を変更しました。「MLA Handbook」第7版[1]をベースとする独自方式で整理しています。

(2) また、本文から参考資料へのリンクも変更しました。従来、本文中から参考資料(Web)へ直接リンクしていましたが、これを廃止して、本文から参考資料へリンクしています。参考資料からWebへ必要に応じてリンクを設定しています。

3.PDF生成のレイアウトを変更しました。

・基本版面を変更するとともに、見出しのレイアウトを変更しました。(途中)。
・CAS-UBのPDF生成詳細設定の見出しのデフォルト・レイアウトを変更。「PDFインフラストラクチャー解説(仮)」のPDF版はデフォルト・レイアウトで生成しています。[2]

アンテナハウスのCAS-UBは、クラウド上で書籍を編集し、PDF・EPUB・Kindleなどの形式で配布出版物を制作するサービスです。30日間評価ライセンスもございますので、ぜひお試しになってみてください。

《注》
[1] “MLA Handbook for Writers of Research Papers. Seventh Edition.” New York: Modern Language Association. 2009
[2] 『PDFインフラストラクチャ解説』はCAS-UBできちんとした本(PDF、EPUB)を作るための実証材料としても利用しています。3月にBODで本を作りました(『PDFインフラストラクチャ解説』をプリントオンデマンドで本にしてみました)が、この本の組版レイアウトを専門家に評価していただき、その評価を反映して、基本版面やPDF生成の詳細設定のデフォルトを変更しています。これはまだ途中段階です。


PDF/UA(ISO 14289-1)について

みなさん、こんばんは。
前回に続けて、 ISO 14289-1 規格についてです。今回はこの規格の仕様書(2012年7月25日初版、2012年8月1日修正版)の内容を見てみます。
この規格に関連する仕様として、ベースとなる ISO 32000-1 のほかに、W3Cの Web Content Accessibility Guidelines(WCAG) 2.0が記載されています。
仕様書ではPDF/UAファイルのバージョンの識別方法、準拠レベル、ファイルフォーマットに関する要件が記載されます。(このあたりはPDF/A、PDF/X などのファイルと同様の構成です)。準拠レベルは PDF/A-1では Lebel A,Level Bの2種類が定義されていましたが、PDF/UAにはこのようなレベルはありません。
続けて、この規格に準拠するリーダ(Conforming Reader)に対する要件が記載されます。
ファイルフォーマットに関する要件は主にPDF/UAファイルの作成者(書き手)側に対する要件ですが、こちらは、PDF/UAファイルが持つアクセシビリティ機能を利用可能とするためにリーダ(読み手)に必要とされる要件が提示されます。
最後にATに対する要件が定義されます。ATとは、障害をもつ人によって使用され、代替えのコントロールや表示を提供したり、有効な機能の使用方法や情報を提供するソフトウェアあるいはハードウェアといった定義がされています。準拠リーダと統合可能と記載されています。
ファイルフォーマットの要件の主な規定は、ドキュメントをその構造に沿って解釈できるように、タグ付けされていることにあります。このタグの使用方法、論理構造の表現などについて、テキスト、画像、表、リストなどの各項目についての規定が説明されています(元のISO 32000-1に定義されているPDFのタグ付を理解していないとこのあたりは難しいかもしれません。稿を改めて説明してみたいと思います)。
フォントの埋め込みもPDF/A,PDF/Xと同様に必須とされています。一方、注釈やアクションについては、印刷時の再現性等を求めるための規格ではありませんので、用法に制限がありますが、完全に禁止とはなっていません。この部分はリーダ側の要件とも関係してきます。
リーダ側の要件については、後日、説明いたします。
■ご参考:アンテナハウスPDF資料室


PDF/UA(ISO 14289-1)について

今回、および次回は PDF/UAと呼称される ISO 14289-1 規格について記載してみます。
ISO 14289-1(以下、PDF/UA)は昨年、国際標準となった規格で、規格書初版は 2012年7月25日に初版が発行されています。
規格書のタイトルは、
Document management applications —
Electronic document file format enhancement for accessibility —
Part 1: Use of ISO 32000-1 (PDF/UA-1)

となっています。
PDF/UAも今まで説明してきた、PDF/X、PDF/Aの各規格同様に、PDFの仕様書をベースとして、それぞれの用途に沿った規則を設けたものになります。今回とりあげる ISO 14289-1という版は 、タイトルにもありますように、ISO 32000-1をベースとし、その機能のなかから、使用してはいけない機能、使用方法に制限のある機能などを定めた規格となります。
PDF/UAのタイトルに、アクセシビリティのエンハンスメントとあります。PDFにおけるアクセシビリティの向上とはどのようなものでしょうか。現在、PDFは最も広範に利用されている電子文書形式ですので、多くの人に使いやすいものであることが求められます。障害を持つ人、高齢者にも簡単に使える必要があります。
たとえば視覚に障害を持つ人が利用する場合、音声読み上げソフト等によって、確実にテキストが読み上げ可能である必要があります。
画面に文字が表示されているPDFでも、読み上げが確実に可能とは限りません。コピー&ペーストで他のアプリケーションに文字がコピーできないPDFがありますが、このようなPDFは文字コードがファイル内に格納されていないため、読み上げソフトでも文字が取得できません。また、同じ漢字でも日本語と中国語では読み方が異なりますので、そのテキストがどの言語のものなのか、といった情報も必要となります。
また、画像、図形等が使用されている場合、それがどのような意味を持つものなのか、テキストによる説明があると、利用しやすくなります。
このような点を考慮して、PDFの利用方法(作成側、読み込み側の双方)を定義したものがPDF/UAとなります。

次回、内容について説明します。


PDFベースとしたワークフローシステム開発時に必要な基盤となるライブラリの紹介

本日は、PDFベースによるワークフローシステムを開発する際に、アンテナハウスのライブラリ製品(ソフトウェアコンポーネント)がどのような機能を提供できるものなのか、ちょっと考えてみました。

多くの企業では、まだ紙を中心とした業務管理が行われていると思います。

膨大な紙の書類が発生し、保管の場所も取りますし、管理も大変になってきます。

紙の代わりとしてのPDFは、OSやソフトと云った環境が違っても内容が確認可能な文書交換フォーマットとして、世界で広く利用されています。バージョンの互換性や運用リスクを心配する必要がありません。PDFはファイルサイズも小さく出来ますので、電子文書の配布、管理に適しています。

そこで、社内文書・資料、契約書、申請書や稟議/決裁書と云った様々な書類をPDFにして、一元管理することで、保管場所を節約、整合性(ミスの軽減)の確保、検索の容易性などの利便性と効率を上げることができます。

PDFをファイル管理システム(データベースシステム)で一元管理しますと、共有利用して、申請書の承認/決済や稟議書/決裁書、あるいは受発注処理のおける承認印、書き込みなどの定型化した業務をPDF上で行い保管するワークフローによる業務処理の自動化の要求も出てきます。
業種の違いによるそれぞれの業務に適した、人とコンピュータの連携を最適化した(適切なナビゲーションを含む)ワークフローシステムを構築する必要が有ります。

PDFによるワークフローシステムを実現するためには、基本として、

  1. 紙の書類、電子文書をセキュリティ付でPDF変換できること、②既存PDFに対しても、加工、編集、セキュリティ変更・追加ができること
  2. 既存PDFに対しても、加工、編集、セキュリティ変更・追加ができること
  3. 画面(GUI)作成ツールが有り、画面から、PDFを検索、表示し、コメント注釈、スタンプ付加および印刷ができること

などが考えられます。

ソフト開発会社様には、業種・業務に合ったワークフローシステムのソフトウェア製品を開発、販売を手掛けられているところがあります。

アンテナハウスは、ソフト開発会社様が、そのようなPDFワークフローシステムの開発に組み込んで頂く基盤となるライブラリ(ソフトウェアコンポーネント)製品を用意しております。

アンテナハウスのライブラリ製品を以下に簡単に紹介させて頂きます。

1.PDF変換ライブラリとして

まずは、業務上発生する電子文書、主に一太郎やMS Officeで作成した文書をPDFに変換し、ファイル管理システムあるいはデータベースに登録・保存するアプリケーションが必要となります。アンテナハウスは、目的とするワークフローに適したPDF変換アプリケーションを効率よく開発することが出来る以下のライブラリを用意しております。

■PDF Driver API(PDF Driverを含む) 元ファイルのアプリケーションの印刷機能を利用。
http://www.antenna.co.jp/ptl/function.html

本ライブラリの機能
  • 一太郎、Office 文書のPDF変換
    変換元ファイルの指定、PDF出力先(Path、PDFファイル名)を指定するだけで変換ができます。
  • セキュリティの設定
    プログラムからダイナミックに、閲覧パスワード、編集パスワード(印刷、コピー、ページの抽出etc.の禁止)の設定、および「Confidential」などの透かしをいれたPDFに変換にすることができます。
  • PDF/A(長期保存)の指定もできます。
  • PDF/X(印刷用)の指定もできます。

サーバ上での一括PDF変換処理を行うような場合、開発者は、本ライブラリがマルチプロセス、マルチスレッドに対応していますが、それらを余り意識することなく、並行処理による処理速度の向上を図ったアプリケーションを開発することが出来ます。

他に元ファイルのアプリケーション不要で、ダイレクトにPDF変換する「サーバベースコンバータ」も提供しております。
 

2.PDFに対し、加工、編集を行うライブラリとして

システム管理責任者が、既存のPDFをワークフローシステムに適したもの(標準化)として取り込むためにPDFを加工、編集、セキュリティの変更・追加して、ファイル管理システムに保存・登録すると云ったツール、アプリケーションが必要性な場合があります。一括で処理する場合も有れば、表示して、インタラクティブ処理を行いたい場合もあるかと思います。アンテナハウスの以下のライブラリを用意しております。

■PDF Tool API

http://www.antenna.co.jp/ptl/function02.html 

本ライブラリの機能

  • PDFの分割、結合、しおり作成や、透かし、画像、文字列、スタンプを任意の場所に挿入。
  • セキュリティの変更と以下の追加が出来ます。
    • 閲覧有効期間の設定。
    • ファイルパス設定(PDFを持ち出しても、所定の場所以外は、閲覧不可)

フォーム入力を設定することが出来れば、ワークフロー処理の幅も広がります。本ライブラリでは、検討中というところです。

3.PDFを表示し、ワークフローを実行するためのライブラリとして

開発者は、ワークフロー合った操作し易い、メイン画面(メニュー)の作成、画面遷移など、ファイル管理システムを画面上で表示し、簡単に検索出来、指定のディレクトリから PDF ファイルを開き、担当者から別担当者、担当者から管理者へと注釈、コメント、スタンプ(捺印)などの処理を行い、指定のディレクトリに PDF ファイルを保存すると云ったプリケーションの開発が必要です。

アンテナハウスの以下のライブラリを用意しております。

■PDF Viewer SDK

http://www.antenna.co.jp/oem/ViewerSDK/

※スタンプ付加は、PDF Tool APIと併せて開発することが出来ます。

  • セキュリティの変更・追加
  • PDFページの移動、削除、挿入
  • PDFからテキスト抽出、 PDFから画像変換。
  • 他にも、PDFのセキュリティを高めるために電子署名、タイムスタンプが付与できる「PDF電子署名モジュール」製品も用意しております。

     

    ここで、PDFを利用した様々なワークフローシステムが考えられますが、ワークフローシステムの例として、1部を以下に列挙してみました。

    • 病院の医療業務における様々な書類に対するワークフローシステム
    • 保険会社における様々な書類に対するワークフローシステム
    • 一般企業内においては、社内申請の承認、稟議/決裁業務に対するワークフローシステム
    • 学校・塾における問題集に対するワークフローシステム
    • 製造業におけるCAD図面などのPDF化による一括管理と承認等に対するワークフローシステム
    • 印刷業における原稿をPDFにして、インターネット経由で入稿するワークフローシステム

    以上のライブラリ製品は、http://www.antenna.co.jp/oem/ に載せておりますので、ご一覧下さい。
    お問合せ先は、OEM営業グループ E-mail: oem@antenna.co.jp へ宜しくお願い致します。


    PDF 表示機能の比較

    近年、OS、WWW ブラウザー等で PDF 表示機能を内蔵するものが増えています。
    そのうち、PDF を見るためだけに何か別のソフトウェアをインストールしなければいけないということは、なくなってしまうのかも知れません。
    現状のいくつかのソフトウェアでの表示画像を簡単に比較してみようと思います。
    表示する PDF は、
    http://ondoc.logand.com/d/223/pdf
    を使います。

    Adobe Reader XI (バージョン 11.0.0)

    Windows では、事実上標準の閲覧ソフトです。
    IE や Firefox でもプラグインが提供されています。

    これを基準にします。

    Google Chrome (バージョン 23.0.1271.97 m)

    最近では WWW ブラウザーのシェアでも Firefox を追い抜いているという Chrome ですが、PDF の表示機能は内蔵されていて、既定で使われています。

    特に問題無さそうです。

    Firefox (PDF.js) (バージョン 17.0.1)

    最近の Firefox には PDF の表示機能は内蔵されていますが、既定では無効化されています。
    実体は PDF.js のようです。
    アドレスバーに about:config と打ち込んで pdfjs.disabled を false に設定すると、PDF.js で表示できるようになります。

    まだ色々問題がありますね。
    ところどころ表示できていないところや色が違っているところがあります。
    また、日本語が化けてしまうのが残念なところです。

    Windows 8 (Windows Reader)

    Windows 8 では Modern UI の PDF 閲覧ソフトがはじめから使えます。

    右上のあたりで色が少し違うところがありますが、まずまずといったところでしょうか。

    番外: Antenna House PDF Viewer SDK V3.3

    アンテナハウスでは Windows 向けの PDF 表示ライブラリーを販売しています。
    サンプル実行ファイルで表示してみます。

    特に問題なし。(だと思います)
    PDF Viewer SDK についてはこちらのページを御覧ください。
    http://www.antenna.co.jp/oem/ViewerSDK/


    PDF/E(ISO 24517)について

    みなさま、おはようございます。
    これまで、PDFをベースとした国際標準規格PDF/A(ISO 19005)、PDF/X(ISO 15930)ファミリついて紹介してきました。それぞれ、デジタルドキュメントの長期保存、印刷用データの交換を目的としたPDF関連規格でした。
    今回はまた別の規格 PDF/E について記載してみます。
    PDF/Eの仕様は、ISO 24517で規定されています。
    ISO 24517も 19005,15930同様に複数のパートからなるマルチドキュメントですが、現時点でISOの仕様となっているものは PDF/E-1(ISO 24517-1)のみです。
    まず、ISO 24571-1のタイトルからですが、
    Document management ? Engineering document format using PDF ?
    Part 1:Use of PDF 1.6 (PDF/E-1)
    となっています。
    エンジニアリングワークフローにPDFを適用するための仕様であり、PDF 1.6をベースとして、2008年に制定されています。
    目的はエンジニアリングワークフローにおけるドキュメントの確実な作成、交換、レビューを可能とすること。具体的な例として、仕様書内のユースケースに上げられている項目の一つに、住宅設計図面のメーカによる作成、第三者機関による審査、監督官庁による承認があります。この中で、作成された図面を審査した第三者機関が差し戻しを行う場合に注釈等を用いて具体的な不具合箇所の指示を行い、審査に合格した場合は図面にデジタル署名を行って監督官庁に提出、監督官庁では図面の承認後、デジタル署名を行った承認図をメーカに戻す、というようなワークフローが説明されています。
    この過程で、表示・印刷されるドキュメントが環境によって異なった表示とならないよう、PDF/EにおいてもPDF/A、PDF/Xなどと同様に、フォントの埋め込み、カラースペースの制限などが規定されます。また、上記ワークフローで登場しますように、注釈の使用が許可されています。ただし、PDFの注釈には、ディスプレイ上では非表示となる、あるいは印刷時には印刷対象外となる、といった機能が使用できますが、PDF/E-1ではこのような機能の使用は許可されていません。
    また、組立手順書、保守マニュアルといったドキュメントで、使用されるパーツや組立て手順の説明などに有効な3D注釈なども使用可能となっています。承認図等でデジタル署名が使用されますので、デジタル署名機能についてもその使用方法が指定されています。
    PDF/E-1はPDF 1.6をベースとした規格ですが、現在、ISO 32000-1をベースとしたPDF/E-2も検討が進められています。
    PDF/A,PDF/X,そしてPDF/E について紹介してみました。このほかに、PDF/VT、PDF/UAなど、PDFに関係する規格が他にもあります。前回、審議中として紹介したPDF/A-3は,今年国際標準になっています。今年はこのほかにも PDF/UA-1(ISO 14289-1)も国際標準になりました。このあたりについても、また機会をみて取り上げてみたいと思います。
    PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで


    PDF/X-5(ISO 15930-8)とは

    おはようございます。
    しばらく前に、PDF/Xファミリの紹介、およびPDF/X-4の概要を記載しました。今回は、PDF/X-5の概要を紹介したいと思います。
    PDF/X-5はPDF/X-4同様に2008年に国際標準(ISO 15930-8)となっています。他のPDF/X同様、ベースとなるPDFの仕様に対して、その機能内で使用可能な項目を定義することで、印刷用データの交換形式を定めるものす。PDF/X-5は、PDF/X-4同様にベースとなるPDFの仕様はPDF 1.6です。また、2010年に改訂が加えられた Second Edition が発行され、現在はこちらに置き換えられています(このあたりもPDF/X-4と同じです)。では、PDF/X-4とは何が異なるのか、簡単に見ていきたいと思います。

    PDF/X-5には準拠レベルが3種類定義されています。

    • PDF/X-5g
    • PDF/X-5n
    • PDF/X-5gp

    PDFにはOPI(Open Prepres Interface)といって、PDFの外部にあるグラフィックファイルを参照する機能があります。容量の大きなグラフィックを本文から切り離しておくことにより、高解像度のグラフィックが使用される印刷用のデータの校正時に、修正とは無関係な大きなデータのやりとりを行わなくてもすませることができます。

    PDF/Xは印刷データの交換を単一のデータのやりとりですませることを目的としたものでありますが、上記のPDF/X-5gおよびPDF/X-5gpは、OPIとほぼ同様の手法を許可することで、印刷データ自体は複数となってしまいますが、複数回のデータ交換の総量を抑えたり、グラフィックデータは本文とは異なる部署から印刷業者へ渡す、といったことが可能となります。

    PDF/X-5gとPDF/X-5gpの違いはPDF/X-4とPDF/X-4pの違いと同じです。PDF/X-5gpは、PDF外部にあるカラープロファイルの参照を許可したものとなります。
    PDF/X-5nは若干、他と違ったものになっています。他のPDF/X仕様は、ベースとするPDF仕様に対して、使用可能な機能を制限するものでしたが、PDF/X-5nは、ベースとしるPDF仕様では禁止されている部分を許可しています。PDFでは1成分,3成分,4成分のカラースペースに対するカラープロファイルの仕様が定義されていますが、n成分のカラースペースのカラープロファイルについては定義されていません。PDF/X-5nはこれの仕様が認められています。このプロファイルの仕様は ISO 15076-1:2005で定められているものとなっています。これ以外の部分についてはPDF/X-4pと同様の制限となっています。

    このように、PDF/X-5は、PDF/X-4で制限されている内容を、使用するワークフローに応じて、緩和したもと緩和したものと言えます。PDF/X-5の仕様内には、外部のグラフィックを使用する必要がないのであれば、PDF/X-5g、PDF/X-5gpではなくPDF/X-4、PDF/X-4p仕様とするべきである、との記述もあります。

    以上、PDF/X-5についてまとめてみました。

    PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで


    『瞬簡PDF OCR』を使ってみましょう(その2)

    日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』を使った変換について、昨日の続きから説明します。

    『瞬簡PDF OCR』は、以下の手順で画像からの変換処理を行います。

    1. 画像データの読み込み
    2. 領域解析
    3. 文字認識
    4. 変換先ファイル形式への保存

    昨日は、OCRソフトでは誤変換が避けられないというお話をしました。

    本日は、誤変換を回避する方法として、画像データの「領域解析」から説明していきます。
    下記は、サンプルのPDFを既定値で変換した例です。

    sample_result_s.png
    (画像をクリックすると拡大します)

    自慢にならないですが、ひと目みて、おかしな変換や文字の誤変換があることがお分かりになるかと思います。
    特に赤い丸をつけたグラフ部分がまったく再現されていません。これは、Word上では表に変換されているためです。
    この原因は、OCR処理でこの部分の領域を間違えて認識しているためです。

    『瞬簡PDF OCR』に戻って、ツールバーにある「領域解析」というボタンをクリックすると、OCR処理でどのような認識が行われたかが分かります。
    以下は、問題部分の領域解析結果です。

    sample_result2.png

    図で、赤枠で囲まれた箇所は横書きテキスト、ピンク色の枠で囲まれた箇所は縦書きテキスト、緑色の枠で囲まれた箇所は表領域にそれぞれ認識されています。表と認識されたのは、グラフにある横の目盛りを表の罫線と認識したためです。
    これでは、Word上で修正しようがないので、元の認識処理に遡ってやり直す必要があります。

    誤認識した範囲を画像領域に変更する例を図で示します。
    (1)誤認識している領域範囲をマウスでドラッグ→(2)選択された領域をすべて解除→(3)範囲を選択し直し、一括で画像領域に変更

    change_layout_s.png
    (画像をクリックすると拡大します)

    領域を変更したところで、いったんWordに変換して結果を確認してみましょう。いったん「文字認識」を行い、「Wordへ変換」ボタンをクリックします。
    以下は、Wordに変換しなおした結果です。先ほどのグラフ部分に注目してください。

    sample_result3_s.png
    (画像をクリックすると拡大します)

    さて、変換結果をみると、まだ不具合があります。文書の先頭のタイトル部分が文字を誤認識しておかしなことになっています。

    sample_result4.png

    誤認識した文字の修正方法は、また明日の回で説明しましょう。

    ※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。


    PDF/X-4とは

    前回のPDF/Xファミリの紹介に続いて、PDF/X-4の概要を記載します。
    PDF/X-4は 2008年に国際標準となっています。ベースとしてPDF 1.6を採用し、PDF 1.6の機能内で使用可能な項目を定義することで、印刷用データの交換形式を定めるものです。
    PDF/X-4は 2008年に国際標準となっていますが、その後、2010年に改訂が加えられ、Second Edition が発行され、こちらに置き換えられています。
    PDF/X-1aおよびPDF/X-3で利用可能な特徴をすべて組み込み、さらにベースがPDF 1.6となっていますので、PDF/X-1a、PDF/X-3のベースであるPDF 1.3やPDF 1.4以降に追加された機能が使用可能となっています。
    PDF/X-4は、フォントを埋め込まなければならない等の制限は、PDF/X-3と同様ですが、ベースがPDF 1.6にあがることにより、以下の機能が使用できます。
    JPXDecodeフィルタの許可(JPEG2000画像で使用される圧縮方法が使用可能となり、画質をさげずに圧縮率をあげることができます)。
    Optional Content使用の許可(これはAcrobatではレイヤーと呼ばれている機能の実装にも使われています)
    また、下記はいずれもPDF 1.4で追加された機能ですが、PDF 1.4をベースとするISO 15930-4(PDF/X-1a)、15930-5(PDF/X-2)、15930-6(PDF/X-3)では禁止とされていました。PDF/X-4では、これらの使用が認められています。
    JBIG2Decodeフィルタの許可(モノクロ画像用の圧縮方法で、従来の圧縮方法より、圧縮率をあげることができます)
    透明使用の許可
    この規格内にはPDF/X-4のほかに、PDF/X-4pと呼ばれる準拠レベルが定義されています。こちらは、使用するカラーに関するICCプロファイルをPDFファイル外に置くことを許可したものです。このため、前回説明した Complete exchage ではなくなります。
    これはICCプロファイルを埋め込むことによりサイズが増加することを回避する、という理由のほかに、ICCプロファイルの埋め込みが禁止されていて、PDF/X-4が採用できないケースへの対応のようです。
    この規格内では、特別な理由がない限りPDF/X-4pではなく、PDF/X-4を優先せよと述べられています。
    以上、簡単にPDF/X-4についてまとめてみました。
    PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで


    Pages: Prev 1 2 3 4 Next