日別アーカイブ: 2021年9月6日

月曜日連載! Microsoft Wordスタイル探索 (32)Word文書からWebページ(HTML)変換の既存実現手段は?

現在のWebページの多くは、WordPress、はてなブログのようなブログ、Wikiペディアを代表とするWiki、最近では、noteやテッキーな人達にはGitHubが人気を集めています。こうしたWebページを見ると、一様に短文であり、またテキスト中心のシンプルな作りになっていて表現される内容の量や表現力という点で、PDFによるものと比べて、もの足りなく感じます。

PDFによる文書作成というと、まずMicrosoft Wordを思い浮かべるわけですが、Wordには、見出し作成、目次作成、段落への自動番号付け、文章の校閲機能、など強力な文章の編集機能があります。文章だけではなく、作図、表作成機能なども優れています。

Wordで図表などを盛り込んで作成した文書を、そのままWebページにできれば、Webページの表現内容がいまより豊かになるはずです。しかし、前回((31)WordのWebページ保存は使えない。その理由は?)も説明した通り、Wordで編集中の文書を、Word自身の「名前を付けて保存」「Webページとして保存」しても、そのままでは、Webページとして使えません。

Wordで作成した文書をWebページ(HTML)にしたいというニーズがあれば、それを満たすために、サービスやツールが提供されるのは必然です。次に、現在、どういうものがあるかを簡単にまとめてみます。

1.WordのWebページ保存で作成したHTMLをフィルターするツール
この代表例として、Webページ編集ソフトのDreamWeaverの「Word HTMLのクリーンアップ」機能があります。DreamWeaverは、デスクトップPC上で動作するアプリケーションです。「Word HTMLのクリーンアップ」ダイアログには次図のようなオプションがあります。

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ


DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ(続き)

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ(続き)


Wordを使ってWebページ保存したファイルで実際に試すと次の図のようなダイアログが表示されます。いろいろと不要なタグを削除したり、Word独自のスタイルを適用するための属性を削除しています。
DreamWeaverの「Word HTMLのクリーンアップ」結果報告ダイアログ

DreamWeaverの「Word HTMLのクリーンアップ」結果報告ダイアログ

2.Wordの不要なタグをフィルターするWebサービス
同じようなフィルタリング機能を提供するWebサービスもいろいろあります。

例えば、『Convert Word Documents to Clean HTML』サービスを見てみましょう。
https://word2cleanhtml.com/

Convert Word documents to Clean HTML のトップ画面

Convert Word documents to Clean HTML のトップ画面

簡単なサンプルで試してみます。次はWordで箇条書きを指定してみました。箇条書きの項目の一部にルビを指定しています。

Word文書で箇条書きを指定した部分

Word文書で箇条書きを指定した部分


この文書を『Convert Word Documents to Clean HTML』にペーストします。ペーストした段階では、箇条書き項目(上の図でアンダーラインの部分)は次のようになります。
『Convert Word Documents to Clean HTML』にペーストした状態

『Convert Word Documents to Clean HTML』にペーストした状態


このペーストしたファイルをコピーしてローカルにファイルとして保存、ブラウザ(Edge)で表示したところ次のようになります。
『Convert Word Documents to Clean HTML』にペーストした状態をブラウザで表示

『Convert Word Documents to Clean HTML』にペーストした状態をブラウザで表示

次に、これを「Convert to Clean HTML」(ボタン)でクリーンなHTMLにします。同じ箇所は次のようになっています。

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果


一見して、Word文書をコピーしたときについていた沢山のタグが削除されて、シンプルなHTMLタグ付けになっています。ルビを付けた部分はきちんとルビタグで表現されています。

良さげです。しかし、この変換後のファイルをローカルに保存してブラウザ(Edge)で表示すると次のようになってしまいます。

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果をブラウザで表示

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果をブラウザで表示

箇条書きの項目先頭の記号が文字化けしてしまっています。

この変換例では、前回((31)WordのWebページ保存は使えない。その理由は?)で整理した問題の中で、次の二つが該当します。

(2) 箇条書きを通常の段落タグにしているなどタグの表現が貧困
(3) 文字化け

『Convert Word Documents to Clean HTML』サービスはかなり良さそうですが、結構、大きな問題が残っています。

要するに、Wordで作成した文書からHTMLを作って、単にフィルタリングするだけでは不十分であり、もう少し賢い解決策が必要、と言えるでしょう。

——-
◆前回:月曜日連載! Microsoft Wordスタイル探索 (31)WordのWebページ保存は使えない。その理由は?
◆次回:月曜日連載! Microsoft Wordスタイル探索 (33)Word文書からWebページ(HTML)変換について考える
シリーズ総目次
〇関連ページ
Microsoft Wordを使って報告書などの長文を作成する人向けの新知識満載です。 Microsoft Wordのアウトラインと見出しスタイルを活用する方法(概要)

Antenna House Office Serversとは

Antenna House Office Serversとは




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識