月別アーカイブ: 2021年9月

月曜日連載! Microsoft Wordスタイル探索 (32)Word文書からWebページ(HTML)変換の既存実現手段は?

現在のWebページの多くは、WordPress、はてなブログのようなブログ、Wikiペディアを代表とするWiki、最近では、noteやテッキーな人達にはGitHubが人気を集めています。こうしたWebページを見ると、一様に短文であり、またテキスト中心のシンプルな作りになっていて表現される内容の量や表現力という点で、PDFによるものと比べて、もの足りなく感じます。

PDFによる文書作成というと、まずMicrosoft Wordを思い浮かべるわけですが、Wordには、見出し作成、目次作成、段落への自動番号付け、文章の校閲機能、など強力な文章の編集機能があります。文章だけではなく、作図、表作成機能なども優れています。

Wordで図表などを盛り込んで作成した文書を、そのままWebページにできれば、Webページの表現内容がいまより豊かになるはずです。しかし、前回((31)WordのWebページ保存は使えない。その理由は?)も説明した通り、Wordで編集中の文書を、Word自身の「名前を付けて保存」「Webページとして保存」しても、そのままでは、Webページとして使えません。

Wordで作成した文書をWebページ(HTML)にしたいというニーズがあれば、それを満たすために、サービスやツールが提供されるのは必然です。次に、現在、どういうものがあるかを簡単にまとめてみます。

1.WordのWebページ保存で作成したHTMLをフィルターするツール
この代表例として、Webページ編集ソフトのDreamWeaverの「Word HTMLのクリーンアップ」機能があります。DreamWeaverは、デスクトップPC上で動作するアプリケーションです。「Word HTMLのクリーンアップ」ダイアログには次図のようなオプションがあります。

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ


DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ(続き)

DreamWeaverの「Word HTMLのクリーンアップ」ダイアログ(続き)


Wordを使ってWebページ保存したファイルで実際に試すと次の図のようなダイアログが表示されます。いろいろと不要なタグを削除したり、Word独自のスタイルを適用するための属性を削除しています。
DreamWeaverの「Word HTMLのクリーンアップ」結果報告ダイアログ

DreamWeaverの「Word HTMLのクリーンアップ」結果報告ダイアログ

2.Wordの不要なタグをフィルターするWebサービス
同じようなフィルタリング機能を提供するWebサービスもいろいろあります。

例えば、『Convert Word Documents to Clean HTML』サービスを見てみましょう。
https://word2cleanhtml.com/

Convert Word documents to Clean HTML のトップ画面

Convert Word documents to Clean HTML のトップ画面

簡単なサンプルで試してみます。次はWordで箇条書きを指定してみました。箇条書きの項目の一部にルビを指定しています。

Word文書で箇条書きを指定した部分

Word文書で箇条書きを指定した部分


この文書を『Convert Word Documents to Clean HTML』にペーストします。ペーストした段階では、箇条書き項目(上の図でアンダーラインの部分)は次のようになります。
『Convert Word Documents to Clean HTML』にペーストした状態

『Convert Word Documents to Clean HTML』にペーストした状態


このペーストしたファイルをコピーしてローカルにファイルとして保存、ブラウザ(Edge)で表示したところ次のようになります。
『Convert Word Documents to Clean HTML』にペーストした状態をブラウザで表示

『Convert Word Documents to Clean HTML』にペーストした状態をブラウザで表示

次に、これを「Convert to Clean HTML」(ボタン)でクリーンなHTMLにします。同じ箇所は次のようになっています。

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果


一見して、Word文書をコピーしたときについていた沢山のタグが削除されて、シンプルなHTMLタグ付けになっています。ルビを付けた部分はきちんとルビタグで表現されています。

良さげです。しかし、この変換後のファイルをローカルに保存してブラウザ(Edge)で表示すると次のようになってしまいます。

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果をブラウザで表示

『Convert Word Documents to Clean HTML』でクリーンなHTMLに変換した結果をブラウザで表示

箇条書きの項目先頭の記号が文字化けしてしまっています。

この変換例では、前回((31)WordのWebページ保存は使えない。その理由は?)で整理した問題の中で、次の二つが該当します。

(2) 箇条書きを通常の段落タグにしているなどタグの表現が貧困
(3) 文字化け

『Convert Word Documents to Clean HTML』サービスはかなり良さそうですが、結構、大きな問題が残っています。

要するに、Wordで作成した文書からHTMLを作って、単にフィルタリングするだけでは不十分であり、もう少し賢い解決策が必要、と言えるでしょう。

——-
◆前回:月曜日連載! Microsoft Wordスタイル探索 (31)WordのWebページ保存は使えない。その理由は?
◆次回:月曜日連載! Microsoft Wordスタイル探索 (33)Word文書からWebページ(HTML)変換について考える
シリーズ総目次
〇関連ページ
Microsoft Wordを使って報告書などの長文を作成する人向けの新知識満載です。 Microsoft Wordのアウトラインと見出しスタイルを活用する方法(概要)

Antenna House Office Serversとは

Antenna House Office Serversとは


【動画公開】「DITAで本を書いてAH XSL Formatterで自動組版する」、FormatterClub2021ウェビナーのお知らせ

2021年8月10日に開催しました、ちょっと一息アンテナハウスウェビナー「DITAで本を書いてAH XSL Formatterで自動組版する」の録画を編集した動画が公開されています。

動画は1本10分程度の4本立てとなりました。

ご好評いただけましたようで、当日は予定時間をはみ出すくらいにご質問をいただきました。
「タグを気にせず書きたい」といった意見もございました。個人的には「タグを気にしながら書きたい」派でしたのでそういった方のための資料はあまり用意できていなかったのですが、そういった方面のアプローチも存在しますので、機会があればあらためてまとめたいと思います。

さて、この動画自体は少し前に公開されたのですが、何故今ブログ記事にしているかというと、次のイベントに関連するためです。

FormatterClub2021ウェビナー開催

日時
2021年9月17日(金)17:00~18:10
概要
今回のFormatterClubでは、キヤノンの吉田一様にFormatterでのマニュアル作成と自動組版の取り組みの発表の他、XSL拡張仕様のご説明、AH Formatterの今後をご紹介を致します。
内容紹介・お申込みページ
ウェビナー登録ページ【終了しました】

Formatter Club は、アンテナハウスの XML 自動組版ソフト『AH Formatter』を導入されているユーザーや関心を持っていただいている皆様と開発者とを繋ぎ、会員同士の交流、情報交換により『AH Formatter』の利用技術を向上させ、より皆様のお役に立てる製品としていくために役立てることを目的として発足いたしました。
『AH Formatter』とその関連技術(XSL、CSS、XML 多言語組版など)に関心のある方でしたらどなたも参加できます。参加費は無料です。
Formatter Club の活動には会員メーリングリストを情報交換のために利用し、会員専用の Web ページも提供いたします。また定例会を開催し、会員相互の親睦をはかります。定例会は、『AH Formatter』開発者から最新バージョンの紹介・デモ、活用事例紹介、組版技術の向上のための勉強会などを行います。

Formatter Club について | アンテナハウス株式会社

ということで、「XSL拡張仕様のご説明」として『使いこなしガイド』の紹介をさせていただく予定です。
今回のウェビナーはFormatter Club会員様以外でも参加が可能ですのでお気軽にご登録、ご視聴ください。

関連記事



待ったなしR4年1月からの電子取引の要件確保の現実「解」

突然の国税庁の制度改正で、今まで認められていた「PDF等の電子請求書等」の「紙に出力しての保存」が令和4年1月1日から保存義務違反になります。
皆様は、ご存じですよね!
そして、対策は検討していますか?

<制度改正の裏付>

電子取引_一問一答_問42より

電子取引の取引情報に係る電磁的記録について保存要件を満たして保存できないため、全て書面等に出力して保存していますが、これでは保存義務を果たしていることにはならないため青色申告の承認が取り消されてしまうのでしょうか。また、その電磁的記録や書面等は税務調査においてどのように取り扱われるのでしょうか。

【回答】
令和4年1月1日以後に行う電子取引の取引情報に係る電磁的記録については、その電磁的記録を出力した書面等による保存をもって、当該電磁的記録の保存に代えることはできま せん。 したがって、災害等による事情がなく、その電磁的記録が保存要件に従って保存されていない場合は、青色申告の承認の取消対象となり得ます。 なお、青色申告の承認の取消しについては、違反の程度等を総合勘案の上、真に青色申告 書を提出するにふさわしくないと認められるかどうか等を検討した上、その適用を判断しています。また、その電磁的記録を要件に従って保存していない場合やその電磁的記録を出力した書 面等を保存している場合については、その電磁的記録や書面等は、国税関係書類以外の書類とみなされません。 ただし、その申告内容の適正性については、税務調査において、納税者からの追加的な説明や資料提出、取引先の情報等を総合勘案して確認することとなります。

<個人事業主・小規模中小企業が一番にやるべき対策>電子取引_一問一答_問12より

以下のような方法で保存すれば要件を満たしていることとなります。

1 請求書データ(PDF)のファイル名に、規則性をもって内容を表示する。 例) 2022年(令和4年)10月31日に株式会社国税商事から受領した110,000円の請求書 ⇒「20221031_㈱国税商事_110,000」
2 「取引の相手先」や「各月」など任意のフォルダに格納して保存する。
3 【問24】に記載の規程を作成し備え付ける。
※ 税務調査の際に、税務職員からダウンロードの求めがあった場合には、上記のデータについて提出してください。
※ 判定期間に係る基準期間(通常は2年前です。)の売上高が 1,000万円以下であり、上記のダウンロードの求めに応じることができるようにしている場合には、上記1の設定は 不要です。

【問24】に記載の規程とは:下記からダウンロードください。
参考資料(各種規程等のサンプル)|国税庁 (nta.go.jp)

不明点やアドバイスが欲しい方は、ご連絡ください。

【お薦め無料ウェビナーのご案内】

【先進事例セミナー】DXで加速する改正電帳法ソリューション!最新法令情報と複合機等を利用した先進事例紹介

日時:
2021年9月14日(火)13:30~14:40
概要:
  • 国税関係書類の電帳法「スキャナ保存」を導入する上で、キーソリューションとなるのが複合機や専用スキャナです。
  • 本ウェビナーでは、電帳法の最新情報と、証憑書類の仕分け作業や紙の原本廃棄の事例を、富士フイルムビジネスイノベーションジャパン株式会社と共同で紹介します。
★内容紹介・お申込みページ:
https://www.kokuchpro.com/event/ah_210914/【終了しました】

Pages: Prev 1 2