前回のブログで示しましたようにWebページで公開されているPDFにはしおり[1]がないものがまだかなりあります。
『アウトライナー2.5』[2]は、こうしたしおりのないPDFに簡単にしおりを付けることができます。ためしに、国土交通省のWebページで公開されているPDFの中で、ひとつ『首都圏整備計画』を選んでしおりを付けてみます。
『首都圏整備計画』(PDF)は38ページのPDFですが、しおりが付いていません。『アウトライナー2.5』でこのPDFを開いて「しおりモード」に切替えますと、次のようにしおりツリーを表示する「しおりペイン」が空になります。

『アウトライナー2.5』でしおりを自動で作成するには「目次からしおりを作る」方法と「本文の見出しからしおりを作る」方法があります。目次があるときは目次からしおりを作る方が比較的うまくできます。『首都圏整備計画』を見ますと、3ページ~4ページに次のような目次があります。

そこで目次からしおりを作ってみます。目次はPDFファイルの先頭から数えて、3-4ページにあります。また、5ページ目から本文が始まっていますが、本文先頭が1ページとしてノンブルが振られています。そこで、「しおり自動生成」の設定ダイやログでは次のように入力します:
PDFの先頭から数えた目次ページの範囲:3-4
PDFの先頭から数えたページ番号-表示ページ:4

この設定で「しおりの自動生成」を実行しますと、「しおりペイン」に次のようにしおりができています。

このままPDF出力してAdobeのAcrobatで開きますと、次のようになります。

しおりはほぼできていますが、幾つか気になるところがあります。一つ目は、「第1節」、「第2節」といった節のラベルがないことです。元のPDFで、どうやら、「第1節」などの節のラベル部分が画像になってしまっているようです。Acrobatでテキストを選択しても、次の画面のように「第1節」、「第2節」などは選択されません。

このPDFの文字は全体としてMS明朝、MSゴシックが使われているごく普通のオフィスで作成したような文書なのですが、なぜか、「第1節」、「第2節」といった節のラベルが全部画像になってしまっています。原因は不明ですが、このように画像化されてしまった文字を取り出すことはできません。
また、もう一点、目次の項目が2行に渡っているとき、現在の目次の解析機能では二つのしおり項目を作ってしまいます。このあたりは随時改良したいところです。
[1] PDFのしおりってなに? どうやって作るの?
[2]『アウトライナー2.5』
前回のブログ:Webページで配布されているPDFのしおりの状況 国土交通省 白書PDF版の場合