PDFをWordやExcelで再編集!! テキストPDFなのに文字化け!?

今日は、PDFをWordやExcelに変換する場合に、複合型(内部解析変換+OCR変換)の変換方法がお役に立ちます、というお話をさせていただきます。

PDFをWordやExcelに変換して再編集可能にするツール、瞬簡/リッチテキストPDF6.1のお客様からお寄せいただくご質問の中で、画像データでないPDFを変換したのに文字化けしてしまった、というご報告がときどきあります。

例えば、以下のようにPDFではテキストがしっかり表示されているのに、Wordに変換したら見事に文字化けしてしまった!!というケースです。
文字化けの変換結果

PDFに文字データが含まれるかどうかは、Adobe Reader などのPDF表示ソフトでPDFを開いて、編集メニューなどからすべてのテキストを選択(Adobe ReaderではCtrl+A のキー操作でも可)してみると手っ取り早く確認できます。
上記のサンプルでもテキスト部分がハイライトで表示されているのがお分かりになるかと思います。

さて、これはなぜでしょうか?
理由はPDFの作成方法にあります。
PDFを作成する場合、文字の情報をPDFに格納する方法として以下のふた通りがあります。

  • 文字コードをPDFに直接格納する。
  • 文字の形状(グリフ)をPDFに埋め込む。

前者は、文字を識別する固有のコード(シフトJISやUnicodeなど)をそのままPDFに格納するもので、PDFから文字を取り出すのも容易ですが、PDFを作成した環境とPDFを表示する環境で使用できるフォントファイルに違いがあると、PDFの見た目が違ってしまう場合があります。

後者は、文字を形づくる輪郭線をデータとして埋め込むもので、どの環境でPDFを開いても同じ見た目で表示されることを目的にしたものです。
一般にはフォント埋め込みされたPDFといいますが、文字の見た目が保証されるので表示する分にはまったく問題ありません。しかし、内部の文字を取り出す場合には文字の形の情報だけでは不十分で、文字の形から文字コードを引き出すための対照表データが必要となります。これがないと、WordやExcelなどのアプリケーションに文字データを正しく渡すことができないのです。

文字コード対照表をPDFに用意するのは、PDFを作成する側のソフトウェアの責任です。ただし、PDFの仕様上、この表を用意するのは必須とされていません。このためこれを省いてPDFを作成するケースが結構多いのです。

ここでようやく本題です。
文字コードを引き出すための対照表データがないPDFをWordやExcelに変換しても文字化けするばかりでは、PDFに文字は見えているのに再利用できないというジレンマに落とされてしまいます。
このとき、OCR機能が用意された複合型変換ソフトがお役に立ちます。
OCR機能は、PDFをいったん画像に変換してから文字の認識処理を行いますので、PDFに文字データがなくても文字を取り出すことができるわけです。
以下は、瞬簡/リッチテキストPDF6.1のOCR機能を使用して先ほどのPDFを変換し直した結果です。

OCRの変換結果
これなら、少しの手直しで再利用できそうですね。
PDF逆変換ソフトではOCR機能がお役に立ちますというところで、次回もう少しそのあたりの詳しいお話しをしてみたいと思います。

なおPDFのフォント埋め込みに関する詳細は、
コンピュータによるテキスト表記とPDFのフォント埋め込みについて
日本語の文字についての用語について(9) ? PDFへのフォント埋め込みとは
などの記事をご参照ください。


PDFをWordやExcelで再編集!!  瞬簡/リッチテキストPDF6.1

今日から5回にわたって、PDFをWordやExcelに変換して再編集可能にするツール瞬簡/リッチテキストPDF6.1
さまざまな話題をご紹介します。

PDFは、デジタル文書形式のデファクトスタンダードとしてすっかりお馴染みになりましたね。
PDFを単に紙の代用としてみれば閲覧するだけでその役割は終わってしまいますが、デジタル文書形式としてのPDFには、紙にないもっといろいろな利用方法が考えられます。
例えばこれをWordやExcelなどで編集して、もう一度別のPDFとして再利用できれば、文書を最初から作り直すより生産性がぐっとあがります。

実際にPDFを再編集して利用するにはそのためのソフトウェアが必要になります。そしてご自分の目的にあったソフトウェアを見つけ活用していくには、
PDFについてのちょっとした知識が必要になります。今日はそのあたりを少しご説明してみたいと思います。

PDFとひとくちにいっても、大きく分けて2種類あることはご存じでしょうか?
PDFは、その作成方法によって「電子文書としてのPDF」と「電子化文書としてのPDF」に分類できます。
詳しいことは、PDFをWordやExcelに変換できますか?そのためには、
どのような方法がありますか?
という記事をご参照いただきたいのですが、平たく言えば以下のように分けられます。

  • WordやExcelなどアプリケーションから直接作成されたPDFで、文字データが含まれている[テキストPDF]
  • 紙の書類をスキャナで読み取った画像データでテキストがまったく含まれない[画像PDF]

これらのPDFをWordやExcelなどに変換するためのソフトウェア(PDF「逆」変換ソフトといったりします)とその特長をまとめると以下のようになります。
変換の種類

内部解析型とOCR変換型にはそれぞれ長所と短所があり、複合型はそのどちらもカバーしたものになっています。
現在のPDF逆変換ソフトの主流は複合型になっていて、「瞬簡/リッチテキストPDF6.1」もこの方式をとっています。

変換されるPDFがテキスト主体のものばかりであれば、あえて複合型変換のソフトを購入される必要もないわけなんですが、
実は、複合型変換をお勧めする理由が他にもあるのです。その続きは次回に。


国際電子出版エキスポ終了、多数の方のご来場ありがとうございました

7月7日~9日東京国際展示場で行なわれた「国際電子出版エキスポ」は無事終了しました。今年は、開発中の「クラウド型汎用書籍編集・制作サービス」(CAS-UB)を中心にご案内しました。
 
CAS-UBはアンテナハウスの次世代主力サービスとして開発を進めているものです。クラウドサーバ上に置いた書籍の原稿を多人数で共同編集します。完成した原稿は、PDF、EPUBの両方の形式で出力できます。印刷書籍から電子書籍へ、パラダイム・シフトの時代に対応できる出版物制作サービスと位置づけています。
 
現在、印刷する出版物の多くはInDesignというDTPソフトで作られて、PDFから印刷されていると思われます。一方で、EPUBはWebの制作に近いものです。このためDTPとWebの間をスムーズに移行するのが難しく、EPUB制作の多くは手作りに依存しているのが実情と思われます。
 
EPUBでは、電子的なぺージナビゲーションが必要ですので、ナビゲーションに必要な目次やリンクなどを手間をかけずに自動的につくることも必要です。
 
こうした作業を自動化してPDFと同時にEPUBを作成できるサービスはおそらく世界にも類を見ないものと思います。
 
展示会では、CAS-UBについて多くの方にデモをご覧いただくことができました。特に、7月8日の午前中に行なわれたJEPAの「EPUB3 標準化動向と日本のサービス紹介」で10分ほど時間をいただいて紹介しましたが、そのデモをご覧になって、もっと詳しく知りたいということでブースにおいでいただいた方が大勢いらっしゃいました。
大きな関心をもっていただけたことを大変ありがたく、感謝いたします。
 
なお、CAS-UBについてはさらに次の通り、セミナーにて紹介いたします。
なにとぞ、よろしくお願いします。
 
アンテナハウス 電子出版サービス・情報インデックス


PDFを加工しよう(2) ~ Antenna House PDF Tool API

こんにちは。
今日は、昨日に引き続き、Antenna House PDF Tool API(以降「PDF Tool API」)を紹介します。
「PDF Tool API」を使って、PDFファイルをいろいろ加工してみました。
 元ファイル
  ↓
 1ページ目左下に「試用」スタンプをつけた
  ↓
 他のファイルと結合
  ↓
 ヘッダ・フッタ部に文字を挿入
  ↓
 画像の透かしを挿入
  ↓
 セキュリティを設定
 ※ファイルを開くパスワードは「test」です。
サンプルコードは、インターフェイス別に豊富に用意しました。
ご参考ください。
PDF Tool API 評価版の案内


PDFを加工しよう(1) ~ Antenna House PDF Tool API

こんにちは。
今日は、Antenna House PDF Tool APIを紹介します。
Antenna House PDF Tool API(以降「PDF Tool API」)は、既存のPDFファイルを加工する開発ツールです。
文書情報やセキュリティの設定、複数ファイルの結合、ページの抽出や回転、透かしの挿入などさまざまな機能があります。
インターフェイスは次の通りです。
 C++
 .NET(.NET Framework 2.0以降)
 Java(Java 2 SDK 1.4.2_15)
 COM
また、C++を利用して作成したコマンドラインで実行できる実行ファイル(exe)を提供しています。手軽にPDF加工プログラムを体験することができます。
C++/.NET/Javaでは、PDFの低レベルなオブジェクトへのアクセスを行っているため、PDF加工プログラムを自在に組むことができます。しかしそのためには、少しPDFの知識が必要です。
PDFを扱うプログラムを開発することになったら、一度は「PDF Reference」を開いてみましょう。
COMは、機能を限定してコンポーネント化しました。入出力がファイルであるためコンポーネントを組み合わせて使用すると速度に問題がでてきますが、プログラミングはわかりやすくなっていると思います。
「PDF Tool API」は評価版を用意していますので、ぜひ一度、お試しください。
PDF Tool API 評価版の案内


PDFDriverプログラムをサーバーで使ってみよう ~ PDF Driver APIのシンクライアント対応

こんにちは。
今日は、PDF Driver APIのサーバー利用について紹介します。
5月にリリースしました「Antenna House PDF Driver API V5」は、「PDF Driver API」を利用したプログラム(以降「PDFDriverプログラム」)がシンクライアント環境で使用できるようなしくみになりました。
旧バージョンでは、サーバー上のPDFDriverプログラムを複数のユーザーが同時に利用することはできませんでした。複数の印刷処理を同時に行うことができないためです。
「V5」では、プリンタを複数用意し、要求される印刷ジョブを振り分けることで、同時印刷処理を実現しました。
PDF Driver APIのインターフェイスにおいては、旧バージョン(PDF Driver API V3.1)からの変更点を極力抑え、バージョンアップの負担とならないような仕様となっています。
ぜひ一度お試しください。
PDF Driver API V5.0 評価版のご案内


PDF Driverをプログラムに組み込もう ~ Antenna House PDF Driver API

こんにちは。
今日は、「Antenna House PDF Driver API」を紹介します。
「Antenna House PDF Driver API」(以降「PDF Driver API」)は、「Antenna House PDF Driver」(以降「PDF Driver」)を利用して、
 Microsoft Office Word / Excel / PowerPoint
 JustSystems 一太郎
 テキスト形式
これらのファイルをPDF出力するための開発ツールです。
処理対象ファイル形式は限定されますが、煩雑なファイル処理、印刷処理などをAPIが引き受けますので、小さな負担でPDF出力プログラムを作ることができます。
プログラムのインターフェイスは次の通りです。
 C++
 .NET(.NET Framework 2.0以降)
 Java(JDK 5.0 (1.5.0_22))
 COM
また、C++を利用して作成したコマンドラインで実行できる実行ファイル(exe)を提供しています。手軽にPDF出力プログラムを体験することができます。
「PDF Driver API」は評価版を用意していますので、ぜひ一度、お試しください。
PDF Driver API V5.0 評価版のご案内


シンクライアント対応の進捗状況

アンテナハウスのデスクトップ製品はシンクライアント対応を進めています。
現在、「瞬簡PDF4」、「瞬簡/リッチテキストPDF6.1」は対応版の準備が完了しており、「書けまっせ!!PDF5」、「PDFスイート4.1」は動作確認は済んでいます。(出荷準備中)
 
シンクライアント対応ライセンスは、サイトライセンスの一種となります。
https://www.antenna.co.jp/news/thinclient.html
今後は、シンクライアント対応でセミナーなどを行なうことを思案中です。なにか、ご希望がありましたら、ご連絡いただけると幸いです。
よろしくお願いします。


PDFを作成しよう ~ Antenna House PDF Driver

こんにちは。
今日は、「Antenna House PDF Driver」を紹介します。
「Antenna House PDF Driver」(以降、「PDF Driver」)は、PDFファイルを生成する「プリンタ・ドライバ」です。紙に印刷することと同じ操作で、PDFファイルを作ることができます。
5月に新バージョンの「V5」をリリースしました。
「V5」は、「瞬簡PDF4」に搭載されています。
○瞬簡PDF4 トップ
https://www.antenna.co.jp/SPD/
「Portable Document Format」=略称「PDF」は、1993年に発売された「Adobe Acrobat」で初めて採用されました。2008年7月にはISO32000-1として標準化され、電子文書形式としてすっかり定着しました。
PDFの仕様は公開されており、PDFの広がりとともに、アドビ社以外のサードパーティから多くのPDF関連ソフトウェアが発売されています。
「PDF Driver」には、さまざまなPDFへの変換オプションをがあります。
 ・画像圧縮
 ・フォントの埋め込み
 ・セキュリティ設定
 ・透かしの挿入
 ・ファイルの開き方設定
 ・PDF文書情報の挿入
設定ダイアログで指示するだけで、かんたんにこれらの設定付きPDFを作成することができます。また、その設定を保持しておくことができます。
よく利用する設定の組み合わせは、名前を付けて保存しておくと便利です。


プレゼンテーション向けFLASH変換 Server Based Converter

プレゼンテーション資料をWeb上で見られるようにしたいとの要望が意外と多くあります。
プレゼンテーション資料に関しては、MS PowerPointで作成されている場合が多いのではないかと思いますが、ただ単にWebページからダウンロードできるようにするだけではなく、実際に訪問された方に、その場で見て欲しいとの要望となるとそのままでは難しいののではないかと思われます。
そういった問題をServer Based Converterでは、FLASH(SWF)形式に変換することにより解決できると考えております。

続きを読む


Pages: Prev 1 2 3 ... 179 180 181 182 183 184 185 ... 224 225 226 Next