カテゴリー別アーカイブ: PDF の作成

瞬簡PDF 変換の便利機能 -その2-

『瞬簡PDF 変換』の変換以外の機能を紹介していますが、
今回、第2回目は「テキストの抽出」機能です。

PDFファイルに入っている文字だけを再利用したい。
そんな場合に便利なのが『瞬簡PDF 変換』の抽出機能です。

抽出元となるPDFが、テキスト情報が格納されているPDFの場合、
『瞬簡PDF 変換』の操作画面の上部に並んでいるアイコンから
「抽出」のアイコンを選択すると、
画面中央の抽出ファイルに「テキストを抽出(.txt)」が
選択できるようになります。

テキストの抽出

テキストの抽出

この状態で「実行」ボタンをクリックすると
PDF内に格納されているテキストデータのみを取り出して
テキストファイルとして出力することができます。

また、スキャナなどで作成した、画像データのみが格納され
文字情報が入っていないPDFの場合は、
『瞬簡PDF 変換』の操作画面の上部に並んでいるアイコンから
「OCR」のアイコンを選択してください。

OCRを使ったテキストの抽出

OCRを使ったテキストの抽出

すると、画面中央の抽出ファイルに「OCR結果をテキストとして出力(.txt)」が
選択できるようになりますので、選択して実行を行うと、
OCRがPDF内の画像を読み取り、読み取った結果の文字を
テキストファイルとして出力します。

なお、抽出前に設定を行うことで、抽出するテキストファイルの
文字コードも指定可能となっています。

是非一度お試しください。


瞬簡PDF 変換の便利機能 -その1-

PDFファイルをOfficeファイルに変換する『瞬簡PDF 変換』ですが、
実はOfficeファイルへの変換以外にも便利な機能を搭載しています。
そんな機能を3回に分けて紹介していきたいと思います。
第1回目となる今回は「OCR結果をPDFファイルに埋め込む」機能です。

OCR機能を搭載していないスキャナで紙の原稿を取り込みPDF化すると、
画像データのみが格納されたPDFが作成されます。
このようなPDFファイルは内部に文字情報が入っていないため
ファイル内の文字検索を行うことができません。
しかし、そんなPDFでも『瞬簡PDF 変換』を使用して
PDF内に透明テキストを埋め込むことで、
文字検索が可能なPDFにすることができます。

『瞬簡PDF 変換』の操作画面には、
画面上部に変換先を選択するアイコンが並んでいます。
その中にある「OCR」のアイコンを選択すると
画面中央の変換形式に「OCR結果をPDFファイルに埋め込む(.pdf)」が
選択できるようになります。

透明テキスト付きPDFの作成

透明テキスト付きPDFの作成

この状態で「実行」ボタンをクリックすると
OCRがPDF内の画像を読み取り、読み取った結果の文字をPDF内に
透明テキストとして埋め込んで出力します。

簡単な操作で、より使いやすいPDFファイルが作成できるので
是非一度お試しください。


PDF/A-1aのタグの見方

今回は PDF/Aの作成方法(準拠レベルA) でAcrobat/Wordが出力したPDF/A-1aの内容、主にタグ部分について少し見てみたいと思います。
レベルAではレベルBが持たない情報である文書の論理構造、言語などの情報を持つ必要がありました。PDFでは、文書の論理構造を表現するためにタグと呼ばれる仕組みを用意しています。
このあたりをつかって元文書がどのように表現されているか、Wordで簡単なサンプル文書を作成して、PDF/A-1aに変換したものを見てみます。

Word文書

Word文書

章、節、項の部分はWordの組み込みスタイルである「見出し1」~「見出し3」を使用し、
リスト番号を付加したものです。他に、箇条書き、表、画像 などを入れてみました。

Acrobat XIでは 「表示メニュー」の「表示切り替え」-「ナビゲーションパネル」-「タグ」とすることで、ドキュメント内につけられているタグの様子を見ることができます。左側にタグが階層表示され、ここをクリックすると本文内の対応する箇所がハイライト表示されます。
Word 2013で「PDF/A」および「アクセシビリティ用のドキュメント構造タグ」を指定して作成したPDFの場合
PDFの場合
このように表示されます。

一方、Word 2013から Acrobat XIのWord用PDFMakerでPDF/A-1aを指定して作成したPDFの場合
2013-12-06-03
となりました。

主なところだけ展開したキャプチャです。似たような構造ですが、タグの名前をはじめとして、細部では若干タグのつけ方も異なっていることがわかります。

PDFMakerでは「見出し1」など、Wordのスタイル名をそのままタグ名に使用しています。これら独自のタグ名をPDF仕様が用意している標準的なタグ名に割り当てる「ロールマップ」という仕組みがPDFに用意されていて、Acrobatでも表示させることができます。
ロールマップ

これを参照すると、スタイル名の「見出し1」を標準タグの「H1」に対応づけていることがわかります。

このような形でタグを使用して元文書の論理構造をPDFで表現します。

また、比較のために、Wordの「見出し1」などのスタイルを使わずに、表示だけ似たような形の文書を作成してPDF/A-1a出力してみます。
スタイルを使わない場合
ここの 章番号 1. 、1.1.1 などはWordのリスト番号ではなく、通常のテキスト入力したものです。
PDF/A-1aに変換した結果のタグを見てみます。
結果
これはWordのPDF保存の場合ですが、このように、こちらでは文書構造を取得するヒントとなるものが存在しないため、単純に〈P〉タグだけで出力されていることがわかります。

以上、簡単なタグ付け内容の参照方法となります。


『瞬簡PDF 作成 7』の便利な新機能

瞬簡PDF 作成 7 の便利な新機能

先週発表した『瞬簡PDF 作成 7』は新しい機能として次の実装をしました。

  • TWAIN対応のイメージスキャナーからの取り込みに対応
  • 画像ファイルを回転してPDF作成
  • IE用のアドインボタンからPDF作成
  • PDFの一括回転

これらは日ごろお客様から寄せられた、お問い合わせやご要望などを参考にさせていただき追加した機能です。一見地味な機能のように思われるかもしれませんが、実際にご利用いただいているなかから出てきた貴重なご意見は、あると便利なものも多いと思います。

「画像ファイルを回転してPDF作成」「PDFの一括回転」についてはそれぞれ「画像ファイルのPDF変換時のオプション」、「各処理後の出力PDFへの出力オプション」といったオプションとして設定するものとなります。メインの機能としての実装ではないため若干設定箇所がわかりにくいかもしれません。

新機能について利用方法や設定方法についてまとめたページを用意しましたので、ご参考になれば幸いです。

『瞬簡PDF 作成 7』新しい機能


『瞬簡PDF 作成 7』 新発売!スキャナー読み込み対応とIE用アドオン機能の追加でPDF作成をより簡単に!

瞬簡PDF 作成 7 パッケージ

先週10月22日に、PDF作成ソフトの新バージョン『瞬簡PDF 作成 7』を発表しました。
今回のバージョンアップでは、イメージスキャナーからの読み込み機能で紙文書をスキャンして一括でPDF作成できるようになりました。また、IE(Internet Explorer)用のアドオン機能を追加し、見ているWebページをボタンクリックで簡単にPDF作成できます。

ニュースリリース:スキャナー読み込み対応とIE用アドオン機能の追加でPDF作成をより簡単に!『瞬簡PDF 作成 7』新発売

『瞬簡PDF 作成 7』製品案内

アンテナハウス直販のオンラインショップでは、ダウンロード版、パッケージ(CD-ROM)版ともに先行発売を開始しています。
量販店などでは11月下旬から店頭販売される予定です。

アンテナハウスオンラインショップ『瞬簡PDF 作成 7』

 

新しくなったポイント

  • Windows 8.1 に対応
  • TWAIN対応のイメージスキャナーからの取り込みに対応しました。スキャン画像から簡単にPDFへ変換します。
  • 画像ファイルを回転してPDF作成。取り込んだスキャン画像の向きを回転してPDFを作成します。
  • PDFの一括回転。PDFが横向きだったり、上下が逆の場合に一括で回転して修正できます。
  • Microsoft Internet Explorer用のアドインボタン機能を追加。見ているWebページをボタンクリックですぐさまPDFに出力します。

『瞬簡PDF 作成 7』はおかげさまで、企業や官公庁、教育機関などで、多くのライセンスをご導入いただいています。シンクライアント環境での動作も確認していおりますので、安心してシンクライアント環境へご導入いただけます。

『瞬簡PDF 作成 7』のシンクライアント対応について

また、ライセンス数を気にすることなくご利用いただける事業所規模に応じたライセンス「AH-ULL」(エーエイチ-ユーエルエル:Antenna House-Unlimited License)は大変お得になっております。

企業や自治体、官公庁向けのお得なライセンス『AH-ULL』


PDF/UA(ISO 14289-1)について(3)

間があいてしまいましたが、以前のPDF/UAの紹介の続きになります。
PDF/UA(ISO 14289-1)について
PDF/UA(ISO 14289-1)について(2)

今回は、PDF/UAのリーダ側の要件をまとめてみます。

全体としては、ISO 32000-1:2008で定義されているドキュメントの論理構造とアーティファクトを処理する能力を持つこと、および、ATとのインターフェース機能を持つこと、とあります。

AT(Assistive Technologies:W3CのWCAG2.0の邦訳では「支援技術」という用語が使用されていました。)とのインターフェース機能とは、

  • 構造タグのタイプ、属性、およびキーの値に対するアクセスの提供およびオプショナルコンテントグループの可視状態を考慮した表示能力
  • アーティファクトをATが利用できるようにすること
  • ユーザインタフェースが存在する場合、それをATが利用できるようにすること

とあります。
(ここの「アーティファクト」ですが、PDFではドキュメントの著者によるオリジナルのコンテント(リアルコンテント)以外の、ページ付けやレイアウトのために生成されたオブジェクトをアーティファクトと呼んでいます)

以下、PDFの各オブジェクトに対して個別に記載されている要件となります。

テキスト

・論理的な読み込み順番をATデバイスが利用可能であること
・文字コードを適切に処理する能力があること
・自然言語、およびその変更をATデバイスが利用可能であること
表のセルが空である場合、その情報をATデバイスが利用可能であること
オプショナルコンテント
オプショナルコンテントを含む場合、複数の表現が選択可能となることがあるが、すべてのオプショナルコンテントを表示する手段を提供し、オプショナルコンテントコンフィギュレーション辞書の階層を表示する手段を提供すること
(このようなドキュメントの例として、多言語ドキュメントで、オプショナルコンテントを使用して、各言語別の表現をサポートしているようなドキュメントがあります)
添付ファイルと埋め込みファイル
  • 構造ツリーに存在していない添付ファイルを利用可能とすること
  • 埋め込みファイルの名称を表示するためにメカニズムを提供すること
デジタル署名
デジタル署名されていることをユーザに報告し、デジタル署名の証明書属性と有効性の状態を提示できること
アクション
アクションがドキュメントの可視状態を変更する場合、ATがその変更を利用できること
メタデータ
ドキュメントのCatalog辞書のMetadataストリームにおけるすべての要素をATが利用できること
ナビゲーション
論理階層構造やしおりを使用してナビゲートする機能を持つこと
注釈
各注釈の代替え記述をATデバイスに利用可能とすること
フォーム
ウィジェット注釈のテキスト記述をATデバイスに利用可能とすること
マルチメディア
動的にではなくユーザの要求に応じて再生すること

PDF/UAの読み手にはこれらの機能が必要とされています。


Pages: Prev 1 2 3 4