電子書籍のデータをどうやって保存するか?

Twitterを見ていましたら、昨日、電子書籍のデータを保存するのにどういう形式が良いか、というやり取りがありました。ハッシュタグは #denshi #ebookij。
「電子書籍にするために保持するフォーマットは(書籍原稿なら)テキスト形式。画像付きならDTPファイル」(@tashiro_m)
 
というような発言から少しやりとりがありましたが、@tashiro_mさんの発言は、主に、再編集したり、再利用することを想定しているように想像します。
 
一般に、こういう課題を考えるとき、編集用の形式(生データといっても良い)と配布用の形式を分けて考えると良いように思います。
例えば、Wordの文書は編集用の形式ですがPDFは配布用の形式となります。編集用の形式は編集しやすいものでなければならないのは当然ですが、配布用の形式は編集できては望ましくないこともあります。配布形式から編集形式には簡単には変換できないのが普通です。
 
現在、注目を浴びているePubは配布用の形式です。
また、例えばDITA(Darwin Information Typing Architecture)のTopicは編集用の形式です。配布用の形式としてHTML、PDFなどを使います。DITAをePubに変換するオープンソース・プロジェクトもあります。
 
例えば数式を編集したり配布したりするときはどうでしょうか。編集形式は現在はTeXが良いように思います。未来まで考えると、「Unicode Nearly Plain-Text Encoding of Mathematics」(Unicode Technical Note #28)が普及すると良いかなと思います。
数式の配布形式は、Web向けに配布するならラスター画像に変換します。紙とその等価な媒体向けならPDF形式。MathMLをレンダリングできるリーダがあるなら、MathMLで出すのが良いと思います。
  
電子書籍を想定するとき、編集用の形式は何が良いかはかなり難しい問題です。あるいは、これは個別の利用用途によって異なりますので、一般解はないかもしれません。
 
そして、著者が保存するのは編集形式またはその等価な形式とするべきです。そうしないと再活用できないからです。
 
また、データを少ないコストで利用できるためには編集形式から配布形式へは自動変換できることが必要です。
 
こうしたことを考えるとDTPは編集形式として保存するのは不適切ではないでしょうか。なぜなら、コンテンツとレイアウトが渾然一体となっており再利用しにくいですし、DTPからePubなどのレイアウトを(CSSで)別指定する配布形式への変換にはコストが掛かる場合があります。テキストをePubに出すときはレイアウトのために新たにマークアップする必要がありますので、やはり工数がかかるので不適切です。
 
独自のXMLでも良いですが、XHMLや場合によってはDITAが編集・保存形式として適切かもしれません。 
 
○参考資料
Unicode Nearly Plain-Text Encoding of Mathematics
Office2007の新しい数式エディタ
DITA




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


アウトライナー
PDFを解析して しおり・目次を自動生成


アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識