PDFをWordで再編集!! 段組みとテキストボックス、どちらを選ぶ?

PDFをWordで編集しなおしたいと考えますと、できるだけ元の体裁を再現して取り込むことができれば、編集にかかる手間も時間も削減できて便利です。

PDFを再度Wordに戻す場合、手っ取り早くレイアウトを再現するためにWordのテキストボックスに変換する方法があります。
Wordのテキストボックスは、ページ上に四角い枠を座標で配置できますから、その中にテキストを流しこめばレイアウトも比較的簡単に再現できます。
以下は、2段組みされたPDFをテキストボックスでWordに変換した例です。

(画像をクリックすると、拡大ポップアップ表示されます)
[元のPDF]
元のPDF
[テキストボックスでWordに変換した結果]
テキストボックスでWordに変換した結果

実際にこのような変換方法を既定値とする変換ソフトは、OCR変換型に多いようです。OCR処理ではページ上で文字列や表のある場所を最初に「領域」と呼ぶ矩形範囲でとらえてから文字認識を行うのが一般的で、「領域」をそのままテキストボックスに置き換えれば変換処理は比較的容易に行えるだろうと推測されます。
実は、瞬簡/リッチテキストPDF6.1でも、DTPソフトで作成したPDFなどレイアウトが複雑な文書をWordに再現するため、変換条件で「レイアウトを優先する」オプションを設けて、選択された場合にはテキストボックスを使用した変換ができるようにしています。

しかし、テキストボックスに頼る変換は、Word上での編集しやすさをスポイルしてしまいます。例えば、本文が横書き2段組みで構成されている文書が左右別々のテキストボックスで変換された場合、左側の段落で文字を削除したり追加したりしても右側の段落には何も影響しませんから、全体で体裁を整えるのがとても大変になってしまいます。
このようなことから、瞬簡/リッチテキストPDF6.1では、段組みを段組みとしてWordの本文に再現できるようこだわりを持って変換を行っています。
以下は、上記のPDFを既定値でWordの本文に変換した結果です。

[既定値でWordの本文に変換]
既定値でWordの本文に変換

このような変換だと、段落の文字列はひとつながりで編集できますから、修正も行いやすいですね。
レイアウトの再現は、PDFの情報だけが頼りであるためうまくいかない場合もあり、何年製品を作り続けていても「道半ば」なのですが、この先も変換後の編集しやすさを心がけて、改善を続けていきたいと思います。

なお、その他の変換例につきましては、瞬簡/リッチテキストPDF6.1の変換例のところをご覧になってみてください。

次回は瞬簡/リッチテキストPDF6.1の裏技についてお話しします。