月別アーカイブ: 2019年4月

『アウトライナー』で『首都圏整備計画』(PDF)にしおりを作成してみました。

前回のブログで示しましたようにWebページで公開されているPDFにはしおり[1]がないものがまだかなりあります。

『アウトライナー2.5』[2]は、こうしたしおりのないPDFに簡単にしおりを付けることができます。ためしに、国土交通省のWebページで公開されているPDFの中で、ひとつ『首都圏整備計画』を選んでしおりを付けてみます。

『首都圏整備計画』(PDF)は38ページのPDFですが、しおりが付いていません。『アウトライナー2.5』でこのPDFを開いて「しおりモード」に切替えますと、次のようにしおりツリーを表示する「しおりペイン」が空になります。

『アウトライナー2.5』でしおりを自動で作成するには「目次からしおりを作る」方法と「本文の見出しからしおりを作る」方法があります。目次があるときは目次からしおりを作る方が比較的うまくできます。『首都圏整備計画』を見ますと、3ページ~4ページに次のような目次があります。

そこで目次からしおりを作ってみます。目次はPDFファイルの先頭から数えて、3-4ページにあります。また、5ページ目から本文が始まっていますが、本文先頭が1ページとしてノンブルが振られています。そこで、「しおり自動生成」の設定ダイやログでは次のように入力します:

 PDFの先頭から数えた目次ページの範囲:3-4
 PDFの先頭から数えたページ番号-表示ページ:4

この設定で「しおりの自動生成」を実行しますと、「しおりペイン」に次のようにしおりができています。

このままPDF出力してAdobeのAcrobatで開きますと、次のようになります。

しおりはほぼできていますが、幾つか気になるところがあります。一つ目は、「第1節」、「第2節」といった節のラベルがないことです。元のPDFで、どうやら、「第1節」などの節のラベル部分が画像になってしまっているようです。Acrobatでテキストを選択しても、次の画面のように「第1節」、「第2節」などは選択されません。

このPDFの文字は全体としてMS明朝、MSゴシックが使われているごく普通のオフィスで作成したような文書なのですが、なぜか、「第1節」、「第2節」といった節のラベルが全部画像になってしまっています。原因は不明ですが、このように画像化されてしまった文字を取り出すことはできません。

また、もう一点、目次の項目が2行に渡っているとき、現在の目次の解析機能では二つのしおり項目を作ってしまいます。このあたりは随時改良したいところです。

[1] PDFのしおりってなに? どうやって作るの?
[2]『アウトライナー2.5』

前回のブログ:Webページで配布されているPDFのしおりの状況 国土交通省 白書PDF版の場合


Webページで配布されているPDFのしおりの状況 国土交通省 白書PDF版の場合

PDFを画面で閲読するにはしおり[1]があるととても便利です。しかし、PDFではしおりを付けるかどうかはオプションになっているため、Webで公開されているPDFの報告書などにはしおりがないものも多いようです。

例えば、国土交通省のWebオープンデータ[2]の領域には、白書へのリンクをまとめたページがあります。PDFで公開されている白書は、①土地白書、②首都圏白書、③観光白書、④交通政策白書、⑤国土交通白書、⑥日本の水資源(平成26年まで)です。最新年度のPDFを見ますと、しおりが付いているのは土地白書(次の図)のみです。

首都圏白書(平成30年版)は次のような特殊なしおりが付いています。

のこりの4種類のPDF版白書にはしおりがありません。例えば、平成30年版観光白書のPDFを開くと次のようになります。

これらの白書は本としても販売されており、版面は印刷用にレイアウトされています。PDFは本を作る序でに用意されたという扱いなのかもしれませんね。いずれにしても折角WebページからPDFを配布しているのですから、ぜひ、すべてにしおりを付けてほしいものです。

次回は、PDFにしおりをつけるツール『アウトライナー2.5』[3]では、どれかの白書にしおりを付けてみたいと思います。お楽しみに!

[1] PDFのしおりってなに? どうやって作るの?
[2] 国土交通省のWebオープンデータ
[3]『アウトライナー2.5』

次回:『アウトライナー』で『首都圏整備計画』(PDF)にしおりを作成してみました。へ進む


PDFのしおり制作の効率アップに特化した『アウトライナー2.5』4月11日リリースします。

2月4日に『アウトライナー2.5』という記事で『アウトライナー』が復活しますというご紹介を致しました。それから、丁度2ヶ月、今度はめでたく、『アウトライナー2.5』4月11日(木)リリースのご案内をさせていただきます。

『アウトライナー』の特徴や機能などにつきましては、製品Webページに紹介しておりますので、ぜひご確認いただきたいと存じます。

『アウトライナー』は、いまから12年以上前の2006年に初版をリリースしまして、当時はかなりの人気製品としてお客様のご支持をいただきました。しかし、機能の面では、なかなか本質的なバージョンアップができませんでした。この間、様々なお客様からご催促をいただき、なんとかして、次のバージョンを作るべく、試行錯誤してまいりました。しかし、なかなか実現できないうちに年月が経過してしまい、最後はWindows10の大型アップデートで動かなくなってしまったため、やむを得ず旧バージョンを販売終了とさせていただきました。

バージョンアップできなかった最大の理由は、自動しおり解析機能のアーキテクチャにあります。『アウトライナー』旧バージョンの自動解析機能は1990年代の『リッチテキスト・コンバータ』の変換技術をベースにしていました。ところが、『リッチテキスト・コンバータ』はすでに販売終了しておりますし、弊社の現在の変換技術の中核は「AHPDFXML」に世代交代してしまっています。このため、新しい自動しおり解析機能をゼロから開発することが必要でした。

今回、「AHPDFXML」をベースとする自動しおり解析機能V1の開発が完了、『アウトライナー2.5』リリースができることとなりました。

現状の、自動しおり解析機能は、特定のスタイルをもつPDFや目次であれば、かなり上手にしおりを作成できます。しかし、任意のPDFのしおり抽出はまだまだ不十分ですので、今後は、これを迅速に強化して行きます。それと同時に、『アウトライナー』の次バージョンでは、PDFのしおり制作作業の課題解決と効率アップを徹底的に追求していく所存です。また、しおりだけではなく、デジタル版として配信するPDFの制作をより便利にする様々な機能も追加します。

今後の『アウトライナー』にぜひご注目ください。また、皆様のご意見やご要望をぜひお寄せくださいますようお待ちしております。

【関連記事】
『アウトライナー2.5』鋭意開発中
『アウトライナー2.5』Webページ

次回:Webページで配布されているPDFのしおりの状況 国土交通省 白書PDF版の場合へ進む


Pages: Prev 1 2