カテゴリー別アーカイブ: PDF のあれこれ

『瞬簡PDF OCR』を使ってみましょう(その2)

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』を使った変換について、昨日の続きから説明します。

『瞬簡PDF OCR』は、以下の手順で画像からの変換処理を行います。

  1. 画像データの読み込み
  2. 領域解析
  3. 文字認識
  4. 変換先ファイル形式への保存

昨日は、OCRソフトでは誤変換が避けられないというお話をしました。

本日は、誤変換を回避する方法として、画像データの「領域解析」から説明していきます。
下記は、サンプルのPDFを既定値で変換した例です。

sample_result_s.png
(画像をクリックすると拡大します)

自慢にならないですが、ひと目みて、おかしな変換や文字の誤変換があることがお分かりになるかと思います。
特に赤い丸をつけたグラフ部分がまったく再現されていません。これは、Word上では表に変換されているためです。
この原因は、OCR処理でこの部分の領域を間違えて認識しているためです。

『瞬簡PDF OCR』に戻って、ツールバーにある「領域解析」というボタンをクリックすると、OCR処理でどのような認識が行われたかが分かります。
以下は、問題部分の領域解析結果です。

sample_result2.png

図で、赤枠で囲まれた箇所は横書きテキスト、ピンク色の枠で囲まれた箇所は縦書きテキスト、緑色の枠で囲まれた箇所は表領域にそれぞれ認識されています。表と認識されたのは、グラフにある横の目盛りを表の罫線と認識したためです。
これでは、Word上で修正しようがないので、元の認識処理に遡ってやり直す必要があります。

誤認識した範囲を画像領域に変更する例を図で示します。
(1)誤認識している領域範囲をマウスでドラッグ→(2)選択された領域をすべて解除→(3)範囲を選択し直し、一括で画像領域に変更

change_layout_s.png
(画像をクリックすると拡大します)

領域を変更したところで、いったんWordに変換して結果を確認してみましょう。いったん「文字認識」を行い、「Wordへ変換」ボタンをクリックします。
以下は、Wordに変換しなおした結果です。先ほどのグラフ部分に注目してください。

sample_result3_s.png
(画像をクリックすると拡大します)

さて、変換結果をみると、まだ不具合があります。文書の先頭のタイトル部分が文字を誤認識しておかしなことになっています。

sample_result4.png

誤認識した文字の修正方法は、また明日の回で説明しましょう。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




HTML on Word
WebページをWordで作る!


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

PDF/X-4とは

前回のPDF/Xファミリの紹介に続いて、PDF/X-4の概要を記載します。
PDF/X-4は 2008年に国際標準となっています。ベースとしてPDF 1.6を採用し、PDF 1.6の機能内で使用可能な項目を定義することで、印刷用データの交換形式を定めるものです。
PDF/X-4は 2008年に国際標準となっていますが、その後、2010年に改訂が加えられ、Second Edition が発行され、こちらに置き換えられています。
PDF/X-1aおよびPDF/X-3で利用可能な特徴をすべて組み込み、さらにベースがPDF 1.6となっていますので、PDF/X-1a、PDF/X-3のベースであるPDF 1.3やPDF 1.4以降に追加された機能が使用可能となっています。
PDF/X-4は、フォントを埋め込まなければならない等の制限は、PDF/X-3と同様ですが、ベースがPDF 1.6にあがることにより、以下の機能が使用できます。
JPXDecodeフィルタの許可(JPEG2000画像で使用される圧縮方法が使用可能となり、画質をさげずに圧縮率をあげることができます)。
Optional Content使用の許可(これはAcrobatではレイヤーと呼ばれている機能の実装にも使われています)
また、下記はいずれもPDF 1.4で追加された機能ですが、PDF 1.4をベースとするISO 15930-4(PDF/X-1a)、15930-5(PDF/X-2)、15930-6(PDF/X-3)では禁止とされていました。PDF/X-4では、これらの使用が認められています。
JBIG2Decodeフィルタの許可(モノクロ画像用の圧縮方法で、従来の圧縮方法より、圧縮率をあげることができます)
透明使用の許可
この規格内にはPDF/X-4のほかに、PDF/X-4pと呼ばれる準拠レベルが定義されています。こちらは、使用するカラーに関するICCプロファイルをPDFファイル外に置くことを許可したものです。このため、前回説明した Complete exchage ではなくなります。
これはICCプロファイルを埋め込むことによりサイズが増加することを回避する、という理由のほかに、ICCプロファイルの埋め込みが禁止されていて、PDF/X-4が採用できないケースへの対応のようです。
この規格内では、特別な理由がない限りPDF/X-4pではなく、PDF/X-4を優先せよと述べられています。
以上、簡単にPDF/X-4についてまとめてみました。
PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで




HTML on Word
WebページをWordで作る!


アウトライナー
PDFを解析して しおり・目次を自動生成

PDF/Xファミリについて

しばらく前に、デジタルドキュメントの長期保存のための仕様 PDF/A(ISO 19005)のファミリについて記載しました。
今回は印刷用データの交換を目的としたPDF/Xのファミリについて書いてみたいと思います。
PDF/Xの仕様は、ISO 15930で規定されています。
ISO 15930は複数のパートからなるマルチドキュメントで、各パートがPDF/Xファミリのメンバを定義しています。

  • ISO 15930-1:2001(PDF/X-1、PDF/X-1a)
  • ISO 15930-3:2002(PDF/X-3)
  • ISO 15930-4:2003(PDF/X-1a)
  • ISO 15930-5:2003(PDF/X-2)
  • ISO 15930-6:2003(PDF/X-3)
  • ISO 15930-7:2008(PDF/X-4、PDF/X-4p)
  • ISO 15930-8:2008(PDF/X-5g、PDF/X-5n、PDF/X-5pg)

※ IOS 15930-2はPDF/X-2ですが、公開されませんでした。また、上記の中には、改定版が発行されて、新版では年号部分が変わっているものもあります。
PDF/XはPDFの仕様に定められる機能のそれぞれについて、使用することを必須とする、使用することを禁止する、あるいは、なんらかの制限を加えて使用を許可する、ということを定め、印刷用のデータ交換が確実に行えるようにするものです。
わかりやすい例を挙げれば、上記のファミリ全体を通じて、フォントはかならずファイル内に埋め込み、受け取った側にそのフォントが存在しなくても、渡した側と同じ内容の印刷が行われることを保証できるようにしています。
各メンバの特徴を簡単に見てみます。
PDFには、各種バージョンが存在し、バージョンがあがるごとに機能が追加されています。PDF/Xの各メンバも、その規格のベースとなるPDFのバージョンを持っています。

PDF 1.3をベースとする規格
  • ISO 15930-1
  • ISO 15930-3
PDF 1.4をベースとする規格

  • ISO 15930-4
  • ISO 15930-5
  • ISO 15930-6
PDF 1.6をベースとする規格
  • ISO 15930-7
  • ISO 15930-8

PDF/Xの仕様内でComplete exchange(あるいは Blind exchange)と呼ばれるものがあります。これはデータ交換において、1回のファイル交換に、必要なすべての情報が含まれていることを意味しています。
たとえば、印刷データをPDFを渡し、その中のあるページの画像は別途送ります、というようなケースは Complete exchangeではありません。
PDF/Xは基本的には Complete exchage を要求しますが、以下のものは、一部のデータを外部におくことを認めた規格です。

  • PDF/X-2
  • PDF/X-4p
  • PDF/X-5g
  • PDF/X-5n
  • PDF/X-5pg

次に使用できるカラースペースの観点からの分類ですが、PDF/X-1およびPDF/X-1aで使用できるカラースペースはCMYK(およびグレースケール)となります。その他の規格は、(細かい制限はありますが)RGB,CMYK,グレースケールが使用可能となっています。
以上、PDF/Xファミリについて紹介してみました。
PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで




瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


HTML on Word
WebページをWordで作る!

PDF Driver API V5.0利用のマルチプロセス対応アプリケーション開発について

昨日に続き、PDFDriver API V5のスレッドを利用したアプリケーションからOffice文書を一括して、PDFに変換する場合についてお伝えします。
アプリケーション開発では、PDFDriver(仮想プリンタ)の選択・取得をスレッド単位に行い、最適なスレッド数を決めて、ユーザが変換したいOffice文書群を、それぞれのスレッド(PDFDriver)に振り分け、並行出力することにより、変換速度を上げることができます。プログラムから、それぞれのOffice文書に対して、それぞれの出力設定ファイル(プロパティ)を選択、あるいは変更して、PDF変換することが出来ます (図B参照)。
一括してPDF変換の例に、7月2日のブログで紹介しておりますように、スレッド数と変換速度の推移がプロットされております。
グラフを見て頂くと分かりますが、変換元のファイル数、ファイルサイズに関わらず、スレッド数と伴に、変換速度が減少して行く傾向(パターン)は、殆ど同じです。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


HTML on Word
WebページをWordで作る!

PDF Driver API V5.0利用のマルチプロセス対応アプリケーション開発について

PDFは、どんな環境でもレイアウトを崩さず表示できる電子文書として、世界で認められています。
そのような理由から、電子文書の管理は、専らPDF形式で行っています。
紙資料をスキャン(透明テキストを付加)してPDFに変換したものや、MSのOffice文書などを、アプリケーションから直接PDFに変換し、電子文書管理システムに登録して、調査や研究時に、必要な資料を検索、再利用すると云ったことが、多くなってきています。
そこで、PDF変換アプリケーションの開発が容易にできる、アンテナハウス製品を紹介いたします。
アンテナハウスは、仮想プリンタDriver経由でPDF変換を行うソフトウェアコンポーネント製品「PDF Driver API V5」を提供しております。
開発者は最低限、入力としてOffice文書(変換元)のパスとPDF(出力先パス)を指定するだけで、マルチプロセス対応の恩恵を受けたPDF変換プログラムの作成が出来ます。
この場合、パスワードを付与、文字の埋め込み等PDFをどのように作成するかを指定する出力設定ファイル(プロパティ設定)は、Default値が自動選択されます。
もちろん、プログラムからPDF変換時に出力設定ファイルの諸設定や変更を動的に行うことができます。
複数ユーザから、サーバ側のPDF Driver API V5を利用したアプリケーションに、同時アクセスが有っても、並行してPDF変換を行うことが出来ます(図A参照)。
マルチプロセス対応になったので、旧バージョンと比較すると、飛躍的に処理速度が上がったことが体験できます。
zuA.jpg
評価版URL:https://www.antenna.co.jp/ptl/trial.html




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

紙の情報をコンピューターに取り込む

本日は、紙の情報をコンピューターに取り込む手段としてのOCR技術について説明いたします。

OCRとは、Optical Character Recognition(あるいはReader)という英語の略で、日本語では光学的文字認識(あるいは光学的文字読み取り装置)と訳されます。
紙に印刷された文字をイメージスキャナやデジタルカメラなどで読み取り、画像化された情報から文字情報を識別し、コンピュータで処理可能な情報(文字コード)を抽出する技術またはその装置を指します。

こう書くとなんだかややこしいですが、要は人間が新聞や雑誌など紙に書かれた文字を読んで内容を理解するのと同じようなことをコンピュータにもやらせようとするための技術のひとつと言えます。

実はOCR技術は身近なところで使われています。割と古くからあってOCRの老舗といえるのは「郵便番号読み取り装置」でしょう。日本では1968年の郵便番号導入とともに使われたといいますから、既に40年以上の実績があるわけです。
また、試験の際にお目にかかるマークシート方式の回答用紙も採点のためにOCR技術が応用されている身近な例といえます。

これらは大量の情報を一括で高速に処理する必要があるのでOCR装置も専用の高精度、高価格なものが使用されますが、私たちがパソコンを使って汎用に使用する場合には、市販のスキャナとOCRソフトとの組み合わせで取り込むのが一般的です。

さて、実際に紙の原稿からパソコンにデータを取り込み、文字を認識する場合には、概略次のことが行われます。

  1. 画像で取り込み:スキャナでスキャンした紙の原稿は画像データとしてパソコンに取り込まれます。画像データの種類はお使いのスキャナの仕様によって異なりますが、最近はPDF形式が使用されることが多いようです。PDFであっても内部には画像データのみ格納されています。
  2. 領域の識別:取り込んだ画像には、当然のことながら紙の原稿のレイアウトが移されています。それは文字であったり、図形であったり、画像であったりします。人間が紙に書かれたこれらの範囲を区別するのと同じようにOCRも識別をします。これを領域(レイアウト)認識または領域解析と呼びます。
  3. 文字の認識:上記で文字領域と識別された部分について文字データの読み込み(抽出)を行います。
    ただし、人間が文字を読み取るのと比較して、コンピュータが文字を読むことは簡単なことではありません。人間の脳は、乱暴に書かれた手書き文字やかすれた文字などを読む場合、曖昧な部分を的確に補って正しく認識する能力を備えていますが、コンピュータはこうした認識が大の苦手です。
    例えば、以下は、元の文字画像が鮮明でないために、文字の誤認識が出てしまう例です。

    文字の誤認識が出てしまう

    このため、さまざまな方法が考案されて文字の認識率を高める努力がされていますが、文字の認識率が100%(つまり完全)ということにはなかなかなりません。文字のかすれやつぶれがないなどコンディションの良い活字を認識した場合、一般に98%くらいの認識率であれば正確といえるようです。

  4. 認識結果の保存:OCR処理された結果はそのままでは利用することができません。認識された文字や画像などの情報をパソコン・ユーザーが扱える形式、たとえばWordやExcelなどのOffice文書やテキストファイル、透明テキスト付きPDFなどに保存することで、文字の検索に利用したり、編集して別の文書に再生したりといったことが可能になります。

以上、簡単にアウトラインだけをご説明しました。実際にはOCR技術はもっと複雑で、具体的な文字識別の方法などは興味のつきないところですが、これ以上は専門的な話題となってしまいますのでここでは割愛させていただきます。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

OCR技術の活用

前回はOCR技術が完璧なものでなく、文字の誤認識は避けられないということをお話しました。

現状では、原稿の文字の品質が十分によければ、市販されているOCR用のソフトウェアで活字を認識できる率は100%に近いところまでいけるようです。
しかし、文字のかすれやつぶれなどがあって品質が低かったり、文字と文字の間隔が狭い場合などは、どうしても認識率が低下してしまいます。
また、広告などで使われる装飾された文字や背景に模様がある文字、イタリックのように斜めに寝てデザインされた文字などはやはり苦手なものです。

では、OCRはまったく使えないかというと、決してそうではありません。
例えば、以下はA4サイズの原稿を弊社の「瞬簡PDF 変換7」のOCR機能を使用してWordに変換した例です。この原稿に含まれる文字数は約1600字あります。

A4サイズの原稿

これを、もしOCR技術を使わないで取り込むとしたら、他の手段としてはキーボードから直接文字を打ち込むことくらいかと思います。
原稿が1枚きりであればそれも選択肢と考えられます。しかし10枚、20枚とあったら…これはもう冷や汗ものですね。

また、パソコン上に原稿を移して後から文字で検索するといった用途を考えた場合、文字の誤認識が仮に100文字中10文字あったとしたらどうでしょう?
紙の状態のままでまったく検索できないことを考えると、検索できない文字があったとしても、十分実用の範囲ではないでしょうか?

OCRの文字認識レベルは、特定の産業分野では実績もあり十分実用に耐えるものとなっています。
しかし、不特定の紙の原稿を汎用的に扱うパソコン用のOCRソフトではまだその信頼性は十分でありません。
それでも、こうした技術は日進月歩で、文字の認識率を上げる研究も絶え間なく行われていますから、ハードウェアの進化とともに今後性能が向上することはあってもこのままで停滞することは考えられません。

これまで人の手で時間をかけて行っていたことも、コンピューターにまかせられるところは上手に利用して、人間でなければできない別のところに時間とエネルギーを使うのがOCR技術の賢い使用方法だと思います。

最近は、スマートフォンやタブレットと、クラウドと呼ぶサーバーでのサービスとが組み合わされて、携帯端末のカメラで撮影した画像をクラウド上でOCR処理して文字情報を取得し、送り返すといった仕組みが利用されるようになってきました。パソコンの枠を超えた、こうした利用方法は今後もどんどん増えていくことでしょう。

絶えず新しい技術革新がされて進化を続けるOCR技術と、それを応用したOCRソフトに今後とも注目していただければ幸いです。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


HTML on Word
WebページをWordで作る!

OCRのよもやま話

先週はNHKテレビのニュースで電子出版EXPO(7/4~7/6)についての話題が何度も取り上げられていました。ニュースを見られた方も、また直接会場に足を運ばれた方もたくさんおられたことでしょう。
弊社でも電子書籍関連の製品とサービスを出展しておりましたが、ご覧になられたでしょうか?
7月の第16回国際電子出版EXPOに、電子書籍関連製品とサービスを出展します。

さて、近年はスマートフォン(スマホ)やタブレット端末が急速に普及し、電子書籍や関連する技術・サービスへの関心も再び高まっているようです。
デジタル化されたデータを扱うといったら、これまではパソコンが主な手段でしたが、大きさや起動に時間がかかるなどの制約があり、いつでもどこでも気軽に使えるというものではありませんでした。

これを劇的に解決したのが、スマホやタブレットなど携帯性に特化した、まさに手のひらの上にのる「コンピュータ」の登場でした。
ハードウェアの進化でパソコンに近い処理性能が与えられてサクサク動作するのもさりながら、何よりインターネットへの接続が簡単にできる(というか、接続を意識することもないほど当たり前につながっている)ことが普及の大きな推進力となっているように思います。
これにより、単に個人の趣味的な使用にとどまらず、ビジネスシーンにおいてもパソコンを駆逐する勢いでスマホやタブレットの活用範囲が広がり続けているのは、皆さんもご存じの通りかと思います。

デジタルなデータを気軽に持ち出し、閲覧できる環境が広く整ってきたことで、電子書籍と同じようにこれまでややもすれば滞りがちだった企業内におけるペーパーレス化(紙文書のデジタルデータ化とその活用)にも拍車がかかることが予想されます。

前振りが長くなってしまいましたが、今週は、やや強引ながら電子書籍など紙を代替するデジタル化技術に欠かせないOCR技術について、これまであまりパソコンに縁のなかった方や、OCRという言葉にあまり馴染みのない方を対象にお話してみたいと思います。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

PDF/A-3 PDFの新しい目的

PDF/A-3(DIS、以下単にPDF/A-3とします)仕様のIntroductionに、PDFを他のファイルフォーマットのコンテナとして機能できるようにすることが新しい目的である、との記載があります。この部分について、今回は見ていきます。
PDFファイル内にPDFやその他のファイルを格納する埋め込みファイル(Embedded Fil)と呼ばれる機能があります。Acrobat 8で「PDFパッケージ」、Acrobat 9以降で「PDF ポートフォリオ」呼ばれるようになった機能なども、これを用いて実装されています。PDF/A-2の仕様では、埋め込み可能なファイルをPDF/A-1あるいはPDF/A-2形式のファイルに限定していました。
PDF/A-3では、この制限がなくなり、任意の形式のファイルを埋め込むことを認めるように変更されています。
ただし、いくつかの要件が追加されています。
まず、埋め込みファイルがどのようなものであるかを説明するテキストを記載する必要があります。次に埋め込みファイルを記述するデータ内にAFRelaitionshipという、新しいキーを追加しています(PDF/A-1,2 ではベースとなるPDFの仕様に対して使用可能なキーを制限するような形で仕様を定めていましたが、PDF/A-3では、ベースのPDFの仕様では定義されていないキーが使われるようになっています)。
このAFRelationshipは、埋め込みファイルとPDF本文(全体であったり、PDF内の一部であったりします)との関係を指定するもです。
PDF/A-3の仕様で、AFRelationshipに設定する値の例がいくつか記載されています。
・ワープロファイルからPDFを作成し、元のワープロファイルをPDF内に埋め込む場合は”Source”と記載し、PDFのオリジナルデータ(Source File)であることを示す。
・PDF内に数式部分があり、この数式を補足するためにMathMLのデータをPDFに埋め込む場合は”Supplement”と記載し、PDF内のデータの補足データであることを示します。
・PDF内のチャートが存在し、このチャートのデータをCSVで埋め込んでおく場合、”Data”と記載し、チャートの元データであることを示します。
(”Source”,”Data”,”Supplement”の他に、代替え表現用の”Alternative”,それら以外の場合の”Undefined”が定義されています)
また、このほかに、上記の説明で、埋め込みファイルがPDFファイル全体に対するものであったり(上記のワープロの例)、PDF内の一部に対するものであったり(上記の数式の例)することを示すために、PDF内の各種データに埋め込みデータと対応付けをするためのキー(AF)が追加されています。
PDF/A-3は、このような機能の追加により、PDF/A-2を各種ファイルのコンテナとして使用できるように拡張したものとなります。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


アウトライナー
PDFを解析して しおり・目次を自動生成

続・PDF/Aとは― PDF/A-3について

以前、国際標準化機構(ISO)が制定している国際標準 ISO 19005 のパート1、パート2 である PDF/A-1、PDF/A-2についてその概要を記載しました。
今回(および次回)はその続編である PDF/A-3についてまとめてみたいと思います。
PDF/A-1 はISO 19005 パート1として2005年に、PDF/A-2は ISO 19005パート2として2011年に制定されています。これに対して、パート3は、現時点ではDIS(Draft International Standard/国際規格案)というステータスで、まだ審議中のものです。審議中ではありますが、ISO ストアで 仕様書が販売されていますので、このレベルで記載してみたいと思います。
まず、タイトルからですが、PDF/A-2は、「Use of ISO 32000-1(PDF/A-2)」 でしたが、PDF/A-3(DIS)では、「Use of ISO 32000-1 with support for embedded files(PDF/A-3)」となっています。
前回記載しましたように、PDF/Aは PDFの特定のバージョンをベースとして、その機能に対して、使用範囲を制限し、長期保存に適した形(視覚的な外観、およびドキュメントの論理構造、意味などを継続して維持すること)にするものでした。PDF/A-1、PDF/A-2がベースとするPDF仕様はそれぞれ、PDF 1.4、ISO 32000-1 となっていました。PDF/A-3はタイトルからもわかりますように、PDF/A-2同様にISO 32000-1をベースとしています。変更点は埋め込みファイル関連のようです。
PDF/A-2とPDF/A-3の仕様書をざっと比較してみますと、どちらにも、Embedded filesという項がありますが、この項の記載内容が変更され、PDF/A-3では補遺部分に PDF/A-2には無かったAnnex E(informative) Associate Filesという項目が追加されています。この部分を除くと、ISO 32000-1をベースとして、 a,b,およびuの3種類の準拠レベルを定めている点など、PDF/A-3はPDF/A-2とほぼ同様です。
次回は、この変更部分についてまとめてみます。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換
Pages: Prev 1 2 3 4 5