PDF　千夜一夜: 2006年09月03日アーカイブ

« 2006年09月02日 | メイン | 2006年09月04日 »

2006年09月03日

PDFからHTMLに変換（１）

PDFを表示するには専用のビューアが必要ですし、WebでPDFを見かけると、「煩わしい！」と思ってしまいます。そういう印象をもつひとは私以外にも大勢いると思います。

PDFをHTMLにしてからWebで公開するのも良いのではないか？と考える人も多いことでしょう。そこでPDFからHTMLに変換するソフトについて現状を調べてみたいと思います。

リッチテキスト・コンバータ
ちなみにアンテナハウスの「リッチテキスト・コンバータ」でもPDFからHTML変換ができます。リッチはPDF専用というわけではないので、ワープロ文書ファイルからHTMLへの変換もできます。営業担当者にWeb掲載のニュースを作ってもらうとこれでやっているようです。この「Webレポート作成システム紹介セミナー」ご案内ページはリッチで作ったもの。

PDFはどうかと言いますと、PDFについても文字や表のレベルであれば大体正しくHTMLに変換できます。

次の変換例をご覧ください。
■オリジナルのPDFファイル　契約書の雛形例（PDF）

■変換後のHTML　契約書の雛形例（HTML）
※「リッチテキスト・コンバータ2005R3」（未発売）で変換。変換先設定は既定値です。

ところで、このHTMLのリンクをブラウザでたどると、IE6、FireFoxともAgreement.htmファイルをUTF-8と判定してしまいます（正しい文字コードはシフトJISです）。

《※9月4日追記　上の文章は、サーバ側の設定が原因でした。9月4日に設定を変更しましたので、現在、文字符号化方式が正しく判定されるようになっています。詳しくはコメントをご覧ください。》

・Agreement.htmファイルはxhtml形式です。
・Agreement.htmファイルをローカルでFireFoxで見ると、文字符号化方式自動判定でシフトJISになります。
・XML妥当性検証パーサでは妥当なXMLと判定されます。
・Another HTMLLintでは99点です。(title 要素の内容がないのが減点１）。
・XML宣言でもencoding="Shift_JIS"と宣言していますし、<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS" />も出力しています。

なぜ文字符号化方式を正しく判定できないのでしょうか。ブログサーバの方になにか問題がありそうに思います。

同じファイルを他のWebサーバにアップすると、リンク先ファイルの文字符号化方式が正しく判定できます。
契約書の雛形例 (HTML をWebサーバにアップしたもの)

投票をお願いいたします

投稿者 koba : 08:00 | コメント (4) | トラックバック

PDF 千夜一夜

PDFなんでも情報ブログ by アンテナハウス株式会社

2006年09月03日

PDFからHTMLに変換（１）

PDF　千夜一夜