『瞬簡PDF OCR』を使ってみましょう(その1)

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』を使って変換するまでの概略を何回かに分けてご紹介します。

『瞬簡PDF OCR』は、以下の手順で画像からの変換処理を行います。

  1. 画像データの読み込み
  2. 領域解析
  3. 文字認識
  4. 変換先ファイル形式への保存

これまでOCRソフト製品を使用してこられた方であれば、お馴染みの手順かと思います。

それでは、まず画像データの読み込みから始めましょう。

  • イメージスキャナ:イメージスキャナは一般的にTWAINと呼ばれる標準規格を採用しています。『瞬簡PDF OCR』もこの規格を採用したスキャナであれば基本的に扱うことができます。
    また、TWAIN規格ではないですが、「ScanSnap」というドキュメントスキャナの機種で読み込んだデータも受け取ることができます。
  • PDF:PDFには、スキャナで作成される画像だけのPDFもありますし、一般的にPDFドライバと呼ばれる仮想プリンタ形式のソフトを使って、Wordなどのアプリケーションから作成されるテキストが含まれたPDFもあります。
    『瞬簡PDF OCR』はいずれのPDFであっても読み込みできます。ただし、後者のテキストが含まれたPDFはいったん画像にした上でOCR処理しますので、元あったテキストデータは消えてしまいます。この点はご注意ください。
  • 画像ファイル:イメージファイルとして一般的なビットマップ形式や写真でよく使われるJPEG形式など、広く使用されている画像形式をサポートしています。また、クリップボードにコピーした画像データも対象にできます。

ここでは、手近にあるPDFを読み込む手順を説明しましょう。ファイルの読み込みは、単にWindowsのエクスプローラなどから任意のPDFをつかんで、『瞬簡PDF OCR』の上にドラッグ&ドロップするだけです。
この際に、既に何か読み込みされたデータがあると、以下のような確認画面が表示されるのが他のOCRソフトと違ったところです。

ドキュメントに追加しますか?

これが昨日説明した、『瞬簡PDF OCR』独特のドキュメントの扱い方に関連するものです。既にあるドキュメントに同じ仲間としてページを追加するか、あるいは別物として新規にドキュメントを作成し、そちらに格納するかを問い合わせているわけです。
ここでもし「追加する」を選択し、画面中にある「以後、同じ処理を繰り返す」にチェックをいれると、次に新しいデータを取り込んでも問い合わせをしないで、ひとつのドキュメントに「追加」し続けます。この指定は、1枚づつしか取り込みできないスキャナから連続して原稿を取り込みたいときなどに便利です。

画像の読み込みが終わると、内容が画面に表示されます。
下記は、PDFを読み込んだ直後の状態です。

PDFを読み込んだ例
(画像をクリックすると拡大します)

結果を急ぐ人は、ここでいきなり変換してしまうこともできます。

変換の開始

元の画像の条件がよい場合は、いきなり変換してそのまま再利用ができるほどの変換結果が得られるかも知れません。
OCR処理で「条件がよい」というのは、元の画像の解像度が高くて、画像の傾き、ゴミなどのノイズがなく、文字は活字で余分な飾りもなく、レイアウト自体も単純、といったような場合をさします。しかし、そういった原稿など現実にはあまりなさそうですね。
通常、OCR処理で変換したい画像は、たいてい文字が化けたり元と違う文字に置き換わったりするなど、誤変換が避けて通れないものです。

元と違う文字が変換される程度であれば、変換後にワープロソフトを使って修正可能ですが、画像で変換したい箇所を文字と誤認識してひどい文字化けになるなど、変換後では修正しきれない場合もあります。
このような事情から、OCRソフトには誤変換を回避するための処理が備わっています。
その詳細は、明日の回で説明することにしましょう。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

『瞬簡PDF OCR』のマルチドキュメント・インタフェースとは?

昨日に続いて、日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』をご紹介します。

『瞬簡PDF OCR』は、マルチドキュメント・インタフェースというちょっと聞き慣れない用語でその操作性をアピールしております。
これは何かといいますと、平たく言えば、いくらでもデータを読み込んでお好きな変換先に変換できますよ、ということです。

もちろんパソコンの物理的な制限というのはありますから、「いくらでも」というのは言い過ぎですね。
しかし、スキャナからでも、PDFからでも、ビットマップやJPEGなどのイメージからでも、クリップボードからでも、画像データであればとりあえず『瞬簡PDF OCR』の画面上に放り込んでおいて、いつでもWordやExcelに変換できるような作りになっています。

以下では、そのあたりを説明してみたいと思います。

『瞬簡PDF OCR』では、原稿データの1枚を「ページ」と言っています。
スキャナで紙の原稿を読み込むときの原稿1枚、1枚がそれぞれ1ページになります。
画像ファイルを読み込んだ場合はひとつの画像ファイルが1ページとなり、 PDFを読み込んだ場合はPDFに含まれる各ページがそれぞれ1ページになります。

次に、ページをひとつにまとめたものを「ドキュメント」と言います。
『瞬簡PDF OCR』では、ひとつのドキュメントが『Word』や『Excel』の1文書に変換されます。 また、作業ファイルに保存する場合も「ドキュメント」毎に行います。
これを図に表すと以下のようになります。

tutrial_pdf_ocr_s.png
(画像をクリックすると拡大します)

これをどんなふうに使うかというと、例えばスキャナで複数の原稿を取り込む場合を考えてみます。
紙の原稿にはいろいろな種類があると思いますが、報告書であるとか、申請書のような形式の文書はWordで編集した方が何かと便利です。
一方、表形式になった月次売上だとか名簿などは、Excelで編集するのが向いていると言えます。
これらを一度にスキャンして、別々のドキュメントにまとめて取り込んでおけば、片方はWordに、もう片方はExcelに分けて変換することができます。

また、Wordに変換する場合でも、報告書は報告書でまとめてひとつのWordファイルに変換し、申請書は申請書で種類毎に別のWordファイルにしたいと思いませんか?
そのような場合でも、『瞬簡PDF OCR』では、報告書のドキュメント、申請書Aのドキュメント、申請書Bのドキュメントというように、原稿を取り込んだ時点で分類しておけるので、後はそれぞれのドキュメント単位で変換できます。
これを整理しますと、以下のようになります。

  • スキャンした原稿や、PDFの内容などをひとつのドキュメントにしたり、それぞれを別のドキュメントに分けたりすることで、目的に応じた変換結果を簡単に得ることができます。
  • ドキュメントに含まれるページは、サムネイルを使って順序を入れ替えたり、不要なら削除したりが簡単に操作できます。また、ドキュメント間でページに含まれる任意の範囲をコピーして貼り付けたり、移動することも可能です。
  • ドキュメント毎にその状態を保存できますので、途中で作業を中断して『瞬簡PDF OCR』を終了しても、次回起動時に再び前回の中断時点から作業を再開することが容易です。

tutrial_main_interface_s.png
(画像をクリックすると拡大します)

以上、『瞬簡PDF OCR』の操作画面について、簡単に説明しました。
次回は実際に取り込んだ画像データから変換を行うまでの操作方法についてご紹介したいと思います。
是非明日もこちらのブログをご覧ください。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


HTML on Word
WebページをWordで作る!

日本語/英語活字OCR変換ソフト『瞬簡PDF OCR』のご案内

本日は、9月に発売を開始したばかりのニューフェイス、『瞬簡PDF OCR』をご紹介します。

『瞬簡PDF OCR』は、紙に印刷された文書をスキャナーなどで読み取り、WordやExcelなどのOffice文書に変換する、いわゆる「汎用OCRソフト」のカテゴリに分類される製品です。

このカテゴリには、既に以前から多くのソフトウェア・メーカーさんが進出され、バージョンを重ねた老舗のソフトもいくつか見られます。
変換一筋25年を標榜するアンテナハウスが、今回ここに新製品を投入した狙いは、ズバリ、「編集しやすい変換結果を提供することで、より簡単に紙の原稿の再活用が可能であることを体験していただきたい」というものです。

このことは、『瞬簡PDF OCR』が、OCR汎用ソフトにおける文字認識精度などの入力側ではなく、Officeへの変換精度という出力側に焦点をあてた製品コンセプトであることを意味します。

以下では、具体的な例を通して説明してみたいと思いますので、どうぞ今しばらくお付き合いください。

みなさんは、マイクロソフト・ワードなどのワープロソフトで文書を作るとき、どんなふうに文字を配置していかれるでしょうか?
おそらく多くの方が、新規文書を開き、そこに示されたカーソルに従ってそのまま文字を入力していくことと思います。
これは、ワープロ上に本文領域が既定値で設定されていて、そこに文字を配置していく操作に他なりません。
つまり、普通に文書を作成する場合は、本文にテキストを配置し、必要であれば、やはり本文内に図や表を配置していくのが自然な操作であると言えます。

さて、次の図の例をみてください。

変換例1
(画像をクリックすると拡大します)

これは、上の青い枠で囲まれた原稿(スキャナで作成されたPDF)をWordに変換した結果を示したものです。
左の赤枠で囲まれた結果はOCRソフトでは比較的よく見かける変換方法で、OCR処理した結果をWord上にテキストボックスで配置しています。
テキストボックスで文字を配置するのは、レイアウトの再現という面では有効な手法です。
しかしひとつながりの段落を段組レイアウトで配置しているような場合には、テキストボックスで段落のつながりが切れてしまうため、テキストの手直しが面倒になります。
Wordには、テキストボックスをリンクしてつなげる機能が備わっていますが、ひとつずつ手作業で指定するなど、使い勝手はあまりよくないようです。

右の赤枠で囲まれた方は、『瞬簡PDF OCR』でWord上に本文としてテキストを変換した結果です。
本文で変換することにより、文字の挿入・削除といった編集操作を違和感なく行うことができます。

もうひとつ、同じような事例ですが、次の図をご覧ください。

scn_fig02_s.png
(画像をクリックすると拡大します)

最初の例と同様、青い枠で囲まれた、表を含む段落をWordに変換した例です。
左の赤枠で囲まれた方は、やや見づらいですが、テキストを本文で変換し、表をテキストボックスで変換した例です。
表をテキストボックス内で変換して配置した場合は、Word上で本文と分離して置かれますので、そのままでは本文に重なって表示されます。
これに対し、右の赤枠で囲まれた方は『瞬簡PDF OCR』でWord上に表を変換したもので、本文内に表を置いています。
本文でテキスト行を追加したり削除すると、表も本文と一緒に移動します。
どちらが編集しやすいか、お分かりいただけるかと思います。

OCRの文字認識精度が高ければ文字を正確に抜き出せるので、あとはOffice上で自由に編集すればいい、という考え方も当然できます。
しかし、元の原稿が長文であったりレイアウトが複雑であったりするほど、後工程での編集にも時間がかかるだろうことは容易に予想されます。
せっかく貴重なお金を消費してOCRソフトを購入し、紙原稿をOffice上に写したものであれば、その後の再利用に要する時間は節約できた方が満足度も増すのではないでしょうか?

以上、『瞬簡PDF OCR』の目指すところを簡単に述べさせていただきました。
次回は『瞬簡PDF OCR』をご理解いただくための、より深い情報をご紹介したいと思います。
もし本製品にご興味をお持ちいただけた場合は、是非明日もこちらのブログを覗いてみてください。

※『瞬簡PDF OCR』は製品の体験版を公開しております。『瞬簡PDF OCR』のユーザー体験を、製品紹介サイトでお試しください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

Office文書のPDF変換についてよく頂く質問

PDFドライバ「Antenna House PDF Driver」を使ってMS-Office文書ファイルをPDF変換変換すると、元のOffice文書ファイルよりも大きなPDFファイルが出力されたり、出力に時間が掛かるというお問い合せを頂くことが多々あります。

弊社のプリンタドライバの場合、出力する PDF ファイルのファイルサイズを小さくするには、PDF ファイルを出力する際に用いるプリンタの印刷設定について、以下のような設定を行います。

  • 出力するPDFのバージョンを「1.5」以上に設定する
  • 「圧縮」オプションで
    • 画像のダウンサンプリング設定を行う
    • テキストとラインアートの圧縮を有効にする
    • オブジェクトレベルの圧縮を有効にする
  • 「フォント」を埋め込まない。

しかし、文書の内容によっては、上記のオプションを設定した印刷設定を使っても小さくならない場合があります。その場合には、以下をお試しください。

  • 文書に貼り付けた画像を加工する。

    ページ上に高解像度の画像データを配置した場合、画像の貼付け方などによっては、これが影響してファイルサイズが大きくなったり、PDFを出力するのに長時間を要すことがあります。(特にPowerPoint文書)
    これを避けるには、予め Photoshop や、Microsoft Office Picture Managerなどの画像編集ツールを使って PowerPoint 上でリサイズする必要がない大きさの画像に変換したり、フルカラー画像ではなく256色のインデックスカラー画像に変換したものを文書に配置して、PDF ファイルを作成してみてください。

  • 文書中の点線を実線に設定する

    文書中の罫線やオブジェクトとして配置された図形に設定された点線を実線に変更してみて下さい。Officアプリケーションが、印刷データをプリンタに送信する際、点線を複数の線分として送信することがあり、その場合、出力されるPDFファイルサイズが肥大化する場合があります。



瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

アンテナハウスのデスクトップ製品

PDFを作りたい、PDFをWordで編集したい、PDFに文字を記入したいなど、PDFに関してお客様の使用用途は様々ですが、どの製品を使えばご自分の行いたい作業ができるのかわからないという方もいらっしゃいます。
弊社サポートでも、稀にそのような問い合わせをお受けすることがございますが、アンテナハウスの製品は大きく3つの用途に分類することができます。

●PDFを作成できるソフト
瞬簡PDF 作成
瞬簡PDF 編集

●PDFからOfficeへの変換ができるソフト
瞬簡PDF 変換
瞬簡PDF OCR

●PDFに直接文字を書き込めるソフト
書けまっせPDF
瞬簡PDF タッチ
瞬簡PDF 編集

このように、様々なソフトがございますが、例えば同じPDFからOfficeへの変換ソフトでも、『瞬簡PDF 変換』ではPDF内部に文字情報の入ったデータの変換に強く、『瞬簡PDF OCR』ではスキャナから取り込んだような画像PDFの変換に強いなど、ソフトよって特化した機能がありますので、作業効率を上げるためにも、適切なソフトを選択することが大切です。

アンテナハウスでは、上にご紹介した以外にも、PDFにしおりや目次を付ける『アウトライナー』や、PDFを画像に変換する『瞬簡PDF to Image』など、PDFに関する様々なソフトを用意しておりますので、用途に合わせてご検討頂けたらと思います。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

PDFServer V3のご紹介

PDF Server V3は8/1に新バージョンがリリースされており、バージョンアップの大きな焦点は「高速化」ですが、今回はそれ以外のV2.xから変更/追加となった機能からいくつかピックアップしてご紹介します。
いつもとは異なる設定で変換する
通常稼動させているタスクの変換設定とは異なる設定で変換したいケースに有効な方法があります。
それが、タスク設定の基本情報タブにある『変換ファイルと同名の変換設定ファイルを使用する』です。
こちらを有効にしたタスクでは、既定の変換設定の代わりに任意の変換設定を使用できるようになります。
常用しないような設定で変換を行う必要があるケースなどに便利です。
また、サービスやタスクの再起動も不要ですので、他の変換を妨げることもありません。
ファイルの出力先
従来のバージョンではファイルの種類ごとに出力先を1つのみ指定可能でした。
V3では出力先として任意数のフォルダが設定できるようになり、指定したフォルダ個別に
出力対象のファイル形式(PDF/TIFF/JPEG/テキスト/etc)を自由に指定することができるようになっています。
これらはタスク設定の「出力ファイル設定」タブにて指定することができます。
コマンドラインでの結合
従来のバージョンでは結合したいファイルをコマンドラインのパラメータとして直接列挙する仕様になっていました。
V3ではこれらのファイルを別のテキストファイルとして記述して指定できるようになりました。
これにより、コマンドラインの文字列制限(8191文字)を超えるような結合の指定が可能になります。
また、特定のテキストファイルを指定する結合用のバッチを用意しておくことで、所定のファイルへ結合ファイルを列記してバッチを実行するだけで簡単に結合を行うような運用も可能になっています。
PDF Serverは、30日評価版(機能無制限)をご用意しております。
CAD変換/Office変換/Web変換などの各種オプションの評価版もございます。
こちらから是非一度お試しください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

CAD図面を一括してPDF変換~『AH PDF Server V3 CAD』

本日は8/31 にリリースされた『AH PDF Server V3 CAD』の機能について、ご紹介したいと思います。

CADソフトは一般的に高価な場合が多く、操作性もあまり馴染みのないものですが、『AH PDF Server V3 CAD』で、CAD図面(※)をPDFファイルに変換すれば、
一般的なPDFビューアで図面の正確さや利便性を損なわずに図面の確認ができるようになります。

(※ DWG,DXF,JWW形式に対応しています。)

本日は利便性の面からレイヤ変換の機能をご紹介します。

CAD図面のレイヤ

CAD図面には様々な種類の情報が含まれています。例えば建築物の平面図では、

  • 柱、壁、窓といった建築物そのものの形状
  • 寸法線や基準線、引きだし線、名称など図面として必要な情報

などが含まれます。(下記はAutodesk社TrueViewで見たCAD図面の例)

CAD図面の例
CAD図面の例

これらの図面をすべて一つのレイヤ(層)に作図するよりも、複数のレイヤに分けて作図した方が修正や確認の作業効率がよくなります。
例えば、文字なしの図面が必要な場合はレイヤを非表示にすればよいですし、窓の位置が変更になった場合、不要なレイヤを非表示にすれば修正の確認が容易になります。

レイヤの切り替え
レイヤの切り替え

一部のレイヤだけ表示
一部のレイヤだけ表示

CAD図面のレイヤをPDFレイヤへ変換

『AH PDF Server V3 CAD』では、CAD図面のレイヤをそのままPDFレイヤとして変換しますので、Adobe Reader など一般的なPDFビューア上で、レイヤを切り替えて必要な情報を効率的に確認することができます。

レイヤすべて表示
全てのレイヤを表示

Adobe Readerの場合、不要なレイヤを非表示にするには、レイヤパネルを開き「目」のアイコンをクリックするだけです。

一部のレイヤ表示
一部のレイヤ表示

PDFのレイヤに変換するには

『AH PDF Server V3 CAD』でPDFレイヤに変換するには、タスク設定の「レイヤ設定」で

  1. 非表示レイヤは出力しない
  2. 非表示レイヤは初期表示しない

のどちらかを選択するだけです。

レイヤ設定
レイヤ設定

1. の場合、CAD図面上で表示状態に設定されたレイヤだけがPDFに変換されます。
2. の場合、すべてのレイヤをPDFに変換しますが、非表示に設定されたレイヤは、PDFで閲覧する際、
初期状態では非表示になります。

その他、CAD図面をPDF上でも便利に閲覧できる機能がたくさんあります。
詳しくは『AH PDF Server V3』製品紹介ページをぜひご覧ください。

●製品詳細ページ
『AH PDF Server V3』 CADからPDFへ ~ PDF 変換について ~

●無償の評価版をぜひお試しください! 
『AH PDF Server V3 CAD』評価版

●『AH PDF Server V3』 無料セミナー にぜひにお越しください!




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

インド系文字の組版

AH Formatter では、現在インド系の文字として、ヒンディ語などを表現するためのデヴァナガリ文字(Devanagari)をサポートしています。しかし、インド国内では、数多くの言語が話されているので、Devanagari だけでは足りません。
インド政府が定めている公用語はヒンディ語で、英語が準公用語となっています。また、各地方には指定言語が定められており、それらはその地方での公用語となっています。詳しくは Wikipedia などを参照してください。

インド近辺において、各公用語(指定言語)の実際の話者の概数は以下のとおりです。(Wikipediaなどより)

言語 スクリプト 母語話者数
ヒンディ語 Devanagari 4億9000万人
マラティ語 Devanagari 6800万人
マイティリ語 Devanagari 2400万人
シンド語 Devanagari 2136万人
ネパール語 Devanagari 1600万人
コンカニ語 Devanagari 750万人
ドグリ語 Devanagari 200万人
ボド語 Devanagari 154万人
サンスクリット語 Devanagari 1万人
ベンガル語 Bengali 2億2000万人
アッサム語 Bengali 2000万人
マニプリ語 Bengali 250万人
タミル語 Tamil 7400万人
テルグ語 Telugu 7000万人
パンジャブ語 Gurmukhi 6100万人
グジャラト語 Gujarati 4600万人
マラヤラム語 Malayalam 3600万人
カンナダ語 Kannada 3500万人
オリヤ語 Oriya 3200万人
サンタル語 Ol Chiki 605万人
ウルドゥ語 Arabic 6100万人
カシミル語 Arabic 460万人

AH Formatter は、言語をサポートするというより、スクリプトをサポートします。Devanagari と Arabic はサポート済みですので、あと 9スクリプトサポートすればよさそうです。

インドで発行されている紙幣はヒンディ語と英語で書かれていますが、裏面には、15の言語で金額が表記されています。これらは、次の言語、スクリプトで、公用語(指定言語)に含まれるスクリプトのうち、Ol Chiki 以外がすべて含まれています。

紙幣 アッサム語 Bengali
ベンガル語 Bengali
グジャラト語 Gujarati
カンナダ語 Kannada
カシミル語 Arabic
コンカニ語 Devanagari
マラヤラム語 Malayalam
マラティ語 Devanagari
ネパール語 Devanagari
オリヤ語 Oriya
パンジャブ語 Gurmukhi
サンスクリット語 Devanagari
タミル語 Tamil
テルグ語 Telugu
ウルドゥ語 Arabic

さて、デヴァナガリ文字(Devanagari)の構造を少しだけ紹介しましょう。
Devanagari は、母音と子音を組み合わせて表現します。そして、上部の横棒(シローレーカと呼ばれます)で文字が繋がっているのが特徴です。
ひとつの子音字は、「ka」のように a音を含んでいるので、ア行の文字は単独で表現します。「ki」や「ku」などは「ka」と母音を組み合わせて表現します。

「ka」は、 です。
「kaa」はこれに母音「aa」 を組み合わせて、का となります。日本語のア行はこれに近いそうです。
「ki」は母音「i」ि を組み合わせて、कि となります。おもしろいことに、「i」音は、子音の後ではなくて前に付くのです。「ku」は母音「u」 を組み合わせて、कु となります。これは、子音の下に付きます。
「ka」でなくて、「k」と発音させたいときがあります。これは、子音から「a」を取り除く文字 を付加します。

だいたいこんな程度の知識で、日本語を Devanagari で表現してみることができます。(町田和彦:書いて覚えるヒンディー語の文字 より)

鹿児島
ka g oo sh i m aa
ि
कगोशिमा
東京
t oo k y oo
तोक्यो
学校
ga k k oo
गक्को

来月 10/22 に Formatterのユーザー会「FormatterClub」が催されます。そこで、インド系文字組版に関する発表も行なわれる予定です。参加費無料ですので、ご興味のある方はお申し込みください。

FormatterClub定例会「文字組版の最先端」
今回のFormatterClub定例会では、縦組など文字の方向指定など、綺麗に文字組版するためのマークアップ方法のほか、V6.1(出荷準備中)の新要素、インドの文字組版、MathMLを使った高品質数式組版のご紹介、さらには現在開発中のAHReaderを使って電子文書レイアウトの可能性についてご説明いたします。



瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

引用符について

AH Formatter での引用符の扱いについて、簡単に紹介します。

引用符とは、U+0022 ” や、U+201C “ U+201D ” などの文字です。
Unicode では文字をクラス分けしていて、引用符は QU というクラスに分類されています。
引用符は、”Hello” のように対で使われるため、開きと閉じが存在します。U+0022 は、開きと閉じで同じ文字が使われるので、その区別がありませんが、“Hello” のように、U+201C と U+201D を使った場合は、明らかに U+201C が開きで U+201D が閉じです。

Unicode では、行分割の規則も定めていて、QU の前後では分割不可などとなっています。しかし、開きと閉じがわかっている場合に、この規則を適用してしまうのはうまくありません。Unicode では、「言語の情報があれば、QU の引用符が開きか閉じか判定して、OP または CL として扱うとよい」と言っています。OP は開き括弧で、CL は閉じ括弧です。

これはどういうことでしょう。なぜ U+201C を始めから OP に分類しないのでしょう。
答えは、U+201C は言語によって閉じ側になり得るからです。
U+201C や U+201D などのように、向きのある引用符は、主にヨーロッパの言語によって扱いを変える必要があるのです。
EU は、公文書規則を公開していて、そこの各国語の 6.4. Word-processor punctuation marks and spacing(英語の場合)に引用符等の規則がまとめられています。
Wikipedia にも引用符に関する項目があります。
日本語
英語

これらを、二重引用符とギュメ(U+00AA、U+00BB)についてざっと整理すると、次のようになります。

言語 EU Wikipedia
af Afrikaans     „  ”  
be Belarusian     „  “ «  »
bg Bulgarian „  “   „  “  
cs Czech „  “   „  “ »  «
da Danish   »  « „  “ »  «
de German „  “   „  “ »  «
el Greek “  ” «  » “  „ «  »
en English “  ”   “  ”  
es Spanish “  ” «  » “  ” «  »
et Estonian „  ”   „  “ «  »
fi Finnish ”  ”   ”  ” »  »
fr French “  ” «  » “  ” «  »
ga Irish “  ”   “  ”  
hr Croatian       »  «
hu Hungarian „  ” »  « „  ” »  «
is Icelandic     „  “  
it Italian “  ” «  » “  ” «  »
lt Lithuanian „  “   „  “ «  »
lv Latvian “  ”   „  “ «  »
mt Maltese “  ”      
nl Dutch „  ”   „  ”  
no Norwegian     “  ” «  »
pl Polish „  ” »  « „  ” «  »
or
»  «
pt Portugese “  ” «  » “  ” «  »
ro Romanian „  ”
or
“  ”
«  » „  “ «  »
ru Russian     „  “ «  »
sk Slovak „  “   „  “ »  «
sl Slovenian „  “   „  “ »  «
sq Albanian     “  „ «  »
sr Serbian     „  “ »  «
sv Swedish ”  ”   ”  ” »  »
tr Turkish     “  „ «  »
uk Ukrainian     „  “ «  »

AH Formatter は、向きのある引用符については言語情報から適切な向きを判断し、括弧類と同じに扱って組版を行ないます。

U+0022 のように、向きのない引用符に対して、AH Formatter は次のようにしてなるべく開きと閉じの区別を付けて組版を行ないます。

  • 文字列頭の向きのない引用符は、OP とみなす。
  • 文字列末の向きのない引用符は、CL とみなす。
  • 文字列中の向きのない引用符は、直後が空白でなく直前が空白なら OP とみなす。
  • 文字列中の向きのない引用符は、直前が空白でなく直後が空白なら CL とみなす。



瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

PDF/X-4とは

前回のPDF/Xファミリの紹介に続いて、PDF/X-4の概要を記載します。
PDF/X-4は 2008年に国際標準となっています。ベースとしてPDF 1.6を採用し、PDF 1.6の機能内で使用可能な項目を定義することで、印刷用データの交換形式を定めるものです。
PDF/X-4は 2008年に国際標準となっていますが、その後、2010年に改訂が加えられ、Second Edition が発行され、こちらに置き換えられています。
PDF/X-1aおよびPDF/X-3で利用可能な特徴をすべて組み込み、さらにベースがPDF 1.6となっていますので、PDF/X-1a、PDF/X-3のベースであるPDF 1.3やPDF 1.4以降に追加された機能が使用可能となっています。
PDF/X-4は、フォントを埋め込まなければならない等の制限は、PDF/X-3と同様ですが、ベースがPDF 1.6にあがることにより、以下の機能が使用できます。
JPXDecodeフィルタの許可(JPEG2000画像で使用される圧縮方法が使用可能となり、画質をさげずに圧縮率をあげることができます)。
Optional Content使用の許可(これはAcrobatではレイヤーと呼ばれている機能の実装にも使われています)
また、下記はいずれもPDF 1.4で追加された機能ですが、PDF 1.4をベースとするISO 15930-4(PDF/X-1a)、15930-5(PDF/X-2)、15930-6(PDF/X-3)では禁止とされていました。PDF/X-4では、これらの使用が認められています。
JBIG2Decodeフィルタの許可(モノクロ画像用の圧縮方法で、従来の圧縮方法より、圧縮率をあげることができます)
透明使用の許可
この規格内にはPDF/X-4のほかに、PDF/X-4pと呼ばれる準拠レベルが定義されています。こちらは、使用するカラーに関するICCプロファイルをPDFファイル外に置くことを許可したものです。このため、前回説明した Complete exchage ではなくなります。
これはICCプロファイルを埋め込むことによりサイズが増加することを回避する、という理由のほかに、ICCプロファイルの埋め込みが禁止されていて、PDF/X-4が採用できないケースへの対応のようです。
この規格内では、特別な理由がない限りPDF/X-4pではなく、PDF/X-4を優先せよと述べられています。
以上、簡単にPDF/X-4についてまとめてみました。
PDF、そのほか、各種ご相談はアンテナハウス システム製品技術相談会まで




アウトライナー
PDFを解析して しおり・目次を自動生成


HTML on Word
WebページをWordで作る!
Pages: Prev 1 2 3 ... 156 157 158 159 160 161 162 ... 229 230 231 Next