タグ別アーカイブ: word

Wordの見出しスタイルがPDFのしおりに出力されるかどうか

本日(9月27日)のちょっと一息アンテナハウスウエビナーは「ゼロから学ぼう! Microsoft Wordのスタイル機能・シリーズ -主に見出しスタイルの使いこなし術について解説-」というタイトルでお話しました。

Wordで編集中の文書に見出しスタイルを設定すると、ナビゲーションウィンドウに見出しが階層化(ツリー)表示されるようになります。ウェビナーではこれがPDFのしおりと似たような機能です、と紹介しました。

そうしましたら、終了後の質疑応答で「Wordの見出しによるナビゲーションは、Word文書をPDFにしたとき、PDFのしおりとして設定されるのでしょうか?」という質問をいただきました。

記憶に確信がもてなかったため、質疑応答ではWordからPDFに出力する方法はいろいろあるので調べてみますと回答いたしました。ウェビナー終了後に調べてみましたので、以下に、簡単に整理します。

1.Wordのナビゲーションウィンドウの表示
次の図はWordで編集中の文書に段落のアウトラインレベルと見出しスタイルを設定した例です。この例では「はじめに」と「参考資料」はアウトラインレベルを設定しています。また、章番号のついた段落は見出し1、節番号のついた段落は見出し2、項番号のついた段落は見出し3のスタイルが設定されています。

Wordのナビゲーションウィンドウ

2.Antenna House PDF Driver V8でWordからPDFを作成する
(1) Wordの印刷メニューからPDFを出力すると、でき上ったPDFにはしおりは設定されません。

(2) Antenna House PDF Driver V8は、Wordのアドインとしてリボンに組み込むことができます。アドインを使ってPDFを作成するときは、オプションでしおりを作成するかどうかを指定できます。

PDF Driver V8のアドインーオプション設定ダイアログ

ここで「しおりを出力する」にチェックを入れると、出力されたPDFでは、見出しスタイルを設定した段落がしおりとして作成されます。(アウトラインレベルを設定した段落はしおりになりません)。

PDF Driver V8で作成したPDFのしおり

3.Wordの「名前をつけて保存」でPDFを作成する
(1) Wordの「名前をつけて保存」でPDFを作成するとき、オプション設定をデフォルトのままとしてPDFを作成するとしおりは作成されません。

(2) Wordの「名前をつけて保存」にはオプション設定を変更するダイアログを表示して、しおりを作成する方法を指定できます。オプションの「次を使用してブックマークを作成」で「見出し」にチェックしてみます。

Wordの名前を付けて保存のオプション設定

できあがったPDFを見ると、一応、しおりが設定されています。しかし、しおりは不完全です。

Wordの名前を付けて保存で、PDFにしおりを作成する

問題点は①しおり項目が2重になっている箇所がある。②見出しの中でしおりに出力されていない箇所がある。

こうしてみると、Wordの名前を付けて保存のしおり作成は不完全なできのようです。なお、Micorosft Wordにもいろいろなバージョンがありますので、あくまでも手元のWordで調べた限りではありますが。

〇チェックに使ったツールなどのバージョンは次のとおりです。
① Microsoft Word 2019 バージョン2208(ビルド15601)
② Antenna House PDF Driver V8.0MR1 (8.0.1) 『瞬簡PDF編集9』同梱のもの

2022年11月15日追記
アンテナハウスでは、PDF Driverを使わないで、Wordファイルを直接PDFに変換する「Office Server Document Converter(OSDC)」という製品も提供しています。

OSDCのWebページ:
https://www.antenna.co.jp/sbc/

OSDCでは、WordファイルをPDFに変換するさい、しおりを出力することができます。例えば、コマンドラインでは次のように指定します。

C:\>sbccmd -d 変換元.docx -o 変換先.pdf -p @PDF -docpdfbookmarklevel n
(n: Wordの見出しのレベル)


月曜日連載! Microsoft Wordスタイル探索 (41)『HTML on Word』の使用例(5)ハイパーリンクの編集と変換

Webページ(HTML)の編集ではハイパーリンクの編集は手間がかかります。手間がかかる理由の一つは、HTMLのハイパーリンクの構造にあります。
ハイパーリンクは、<a>要素で次のように記述します。

<a href="リンクのターゲット">ハイパーテキストアンカー</a>

ハイパーリンクの編集では、タグの入力に加えて、①リンクのターゲットの指定と②ハイパーテキストアンカーの入力が必要なのです。

Microsoft Wordを使うと、WebページをHTMLのエディタなどで直接編集するよりも簡単な操作でハイパーリンクを編集できます。Wordで編集した文書を『HTML on Word』でHTMLに変換することでハイパーリンク作成がより簡単になります。

Wordのハイパーリンク編集機能には、対話的にハイパーリンクを編集する機能と、自動的にハイパーリンクを作成する機能があります。

1.対話的にハイパーリンクを編集する機能

この機能は、リボン「挿入」の「リンク」グループにあります。

リボン「挿入」の「リンク」グループ

リボン「挿入」の「リンク」グループ

  • 「リンク」はハイパーリンクを挿入するダイアログを開いて、リンク先と表示文字列を入力します。HTMLに変換するとリンク先はリンクのターゲットになり、表示文字列はハイパーテキストアンカーになります。リンク先は外部のURLやファイル、文書内部、新規文書、メールアドレスを指定できます。
  • 「ブックマーク」は文書内部のリンク先を編集する機能です。HTMLに変換するとブックマークは<span id=”id値></span>に変換され、ブックマークの文字列がid値となります。ハイパーリンクではid値がリンクのターゲットとして使われます。
  • 「相互参照」は、文書内部へのリンクを設定します。リンク先は参照する項目で選択します。参照する項目は、アウトライン番号や段落番号を付けた項目、見出し、ブックマーク、脚注、図、表など多岐にわたります。また、表示文字列は参照する項目毎にカテゴリー化されていて、そのカテゴリーから選択します。「リンク」とは違ってカテゴリー化されているので文書全体で統一しやすくなります。

なお、「相互参照」は、リボン「参考資料」の「図表」グループからも使えます。

2.自動的にハイパーリンクを作成する機能

Wordで自動的にハイパーリンクを作成する機能としては、リボン「参考資料」の目次の自動作成と図表目次の組み込みがあります。

目次の自動作成では、段落のアウトラインレベルの設定された項目から目次を作成します。このときは、本文中の見出しが表示用テキストとなり、図表目次では図表のキャプションが目次項目になります。そして見出しや図表のキャプションの位置に自動生成のブックマークが_Tocから開始する数字で設定されます。目次の各項目から見出しや図表のキャプションの位置にハイパーリンクが設定されます。

『HTML on Word』では自動生成目次や図表目次をHTMLのハイパーリンクに変換します。

なお、Wordには類似の機能として索引作成機能があります。しかし、Wordの索引の仕組みは独自の形式となっており、HTMLのハイパーリンク方式ではないので、現時点では『HTML on Word』で索引をHTMLのハイパーリンクに変換することはできません。

3.ブックマークの編集

Wordはダイアログでブックマークを入力する機能と、自動で作成する機能があります。自動作成は目次作成や相互参照を設定したリンク先にブックマークを自動的に作成する機能です。

目次作成で自動的に作られたブックマークは _Tocで始まる数字、相互参照で自動的に作られたブックマークは_Refで始まる数字です。ブックマークダイアログで、「自動的に挿入されたブックマークを表示する」のチェックボックスをONにする(最初からONになっているときは、一度、OFFにしてからONにする)とこれらを確認できます。

ブックマークダイアログ

ブックマークダイアログ

自動的に作成されたブックマークはWordの内部ではあまり管理されていないようです。編集を繰り返すと膨大な数の使われていない自動生成ブックマークが文書ファイル内に残ります。これをそのままHTMLに変換すると、膨大な数の不要な<span id=”id値></span>ができるため、『HTML on Word』は、出力したHTMLファイルをスキャンして不要な(文書内のハイパーリンクで使われていない)id値をもつ<span id=”id値></span>を削除します。なお、文書の外部からid値に対してハイパーリンクを設定している場合のために、コマンドラインのオプション(-nonrefiid)で削除しない動作を指定できます。

4.ハイパーリンク変換例

簡単なハイパーリンク変換例を紹介します。

次はWordの編集画面で外部URLへのリンクを設定している例です。

外部URLへのリンクを設定

外部URLへのリンクを設定

HTMLに変換すると次のようになります。


<p>3) <a href="https://elaws.e-gov.go.jp/document?lawid=410M50000040043_20220101_503M60000040025">平成十年大蔵省令第四十三号…</a>…</p>

これをブラウザで表示するとデフォルト表示では次のようになります。

browserで表示したところ

次はWordの編集画面で相互参照を設定した例です。

Wordで相互参照を設定

Wordで相互参照を設定

HTMLに変換すると次のようになります。


<p>2021年3月に改正された電子帳簿保存法<a href="#_Ref86743273"><sup>1)</sup></a>の第7条に規定する…</p>

これをブラウザで表示するとデフォルト表示では次のようになります。

ブラウザで内部リンクを表示

ブラウザで内部リンクを表示


【広告】
11月16日(火曜日)16時からの「ちょっと一息・アンテナハウスウェビナー」の録画がYouTubeで公開されております。


※画像をクリックするとウェビナーのアーカイブページに移動しますので、そちらからYouTubeをお進みください。

10月12日「ちょっと一息・アンテナハウスウェビナー」の録画がYouTubeで公開されております。(リンクをクリックするとYouTubeを表示します。)

(1)【WordでHTMLが書けたらすごい!】-vol.1 予備知識

「コンテンツ」、「HTML」、「タグ」、「レイアウト」、「CSS」といった基礎知識の説明です。

(2)【WordでHTMLが書けたらすごい!】-vol.2 タグを書かずにHTMLを作る、これまでの方法

「タグ」を書かずにHTMLをつくる、代表的なサービスや技術、問題点などを簡単に紹介します。

(3)【WordでHTMLが書けたらすごい!】-vol.3 WordからHTMLを作る、これまでの方法

Wordでも、HTMLは作れます。また、Word文書からHTMLを作る方法もいろいろ世間に提供されています。しかし、やはりあまり使われてはいないようです。なぜでしょうか。

(4)【WordでHTMLが書けたらすごい!】-vol.4 新しい解決策:『HTML on Word』

Word文書を「綺麗な」HTMLにすることを可能にした、新しい解決策『HTML on Word』を、簡単なデモを交えて紹介します。うまく使うには「印刷用」というレイアウトからの脱却が必要です


◆前回:(40)『HTML on Word』の使用例(4)Webページの実例。Wordの機能との対応付け
◆次回:(42)Wordの箇条書き再訪
シリーズ総目次


Wordに埋め込まれたイメージ画像の解像度はどうなるか? Word2019の場合

2017年に、CASブログで、「Wordに埋め込まれたイメージ画像の解像度はどうなるか?」という記事を書きました[1]。OSDCのページの記事[2]は、この結果をもとにしています。それらの記事で書いたことを簡単にまとめると次の3点になります。

1.Word2013の内部では、イメージ画像の保存方法に旧形式(VMLのシェープ形式)と新形式(OOXMLのシェープ形式)がある。

2.イメージ画像をWord2013の編集画面にドラッグ&ドロップすると旧形式で保存され、コピー&ペーストまたは挿入―画像で埋め込むと新形式で保存される。

3.Wordの編集画面でイメージ画像のレイアウト上の大きさ(表示サイズ)を変更したとき、Word文書ファイルの内部に保存されているイメージ画像の大きさ(縦と横のピクセル数で表す解像度)がWordによって変更されることがある。その扱いが旧形式と新形式で異なっており、イメージ画像の解像度をWordが変更してしまうことを避けるには、それなりの設定をしておく必要がある。

最近、イメージ画像を含む原稿をWord2019で作成していて次のことに気が付きました:
Word2019の編集画面で、ドラッグ&ドロップでイメージ画像を配置して文書を作成し、その文書ファイルの内部をみると、イメージ画像が新形式で保存されています。つまり、Word2019で新しく文書を作るとき、イメージ画像の埋め込みには旧形式は使わないようになっています。

いつまでも昔の形式を使い続けるはずはないので考えてみれば当たり前のことですが。では、Word2019の文書ファイル内部では旧形式が廃止になったかというとそんなことはないようです。Word2013でドラッグ&ドロップで埋め込んだイメージ画像を持つWord2013の文書を、Word2019で読んでも、そのイメージ画像は依然として旧形式のまま扱われるようです。つまり、Word2019は、旧形式で保存された画像の編集機能も持っています。

実際に試してみました。次の画面はWord2019 の編集画面のリボン「図ツール」の書式タブです。上がWord2013で作成した文書を、Word2019で開いて(旧形式の)イメージ画像をダブルクリックしたときに表示されるリボンのタブ、下がWord2019で作成した新形式のイメージ画像をダブルクリックしたときに表示されるリボンのタブです。

両方ともWord2019のリボンのタブですが、これをみると、Word2019の編集画面では、同じように見えるイメージ画像でも、内部での画像の持ち方によって表示されるコマンドが異なっていることがわかります。

イメージ画像のWord2019中でのサイズ

Word2019では、ドラッグ&ドロップ、コピー&ペースト、リボンの「挿入」―「画像」のいずれの方法でもイメージ画像は同じ扱いとなります。デフォルト設定で、イメージ画像のサイズは既定の解像度を適用して圧縮[3]されます。次はリボン「図ツール・書式」タブの「図の圧縮」コマンドのデフォルト設定です。

既定の解像度は、「オプション」の「詳細設定」タブの「イメージのサイズと画質」で設定されます(次の図)。デフォルト設定では、既定の解像度は220ppiとなっています。

実際に試してみました。

まず、横2448×縦3264ピクセルのJPEG画像を用意して、Word2019の画面にドラッグ&ドロップします。画面上の幅は、図のように150mmとなっています。

画像の横ピクセル数を計算すると次のようになるはずです。

横150mm×220ppi/25.4(mm/inch)=1299pixcel

Word2019のファイルの内部を見ると、次のようにJPEG画像ファイルは、横ピクセル数が1298となっていました。1ピクセルの誤差がありますが、ほぼ計算通りです。この図は対象Word2019文書の内部を表示したものです。

関連記事

[1] Wordに埋め込まれたイメージ画像の解像度はどうなるか?

[2] Office Server Document Converter Word文書(docx文書)に埋め込まれたイメージ画像はどのように扱われているか

[3] 圧縮という用語にはいろいろな意味があるので、正確にはダウンサンプリングというべきでしょう。

[4] 用紙A4(幅210mm)で左右余白各30mm。

[5] Word文書構造については次をご参照ください:
Office Server Document Converter Office Open XML (OOXML) とは? 概要、メリットと活用アプリケーション


DITAをPDFに(PDF5-ML)

昨日 は DITA を docx に変換する DITA-OT プラグインのことを書きましたが、やはりいまだにマニュアル系は PDF が主流です。

DITA-OT には DITA で書かれたインスタンスを PDF にするためのスタイルシート(プラグイン)が標準で入っているのですが、残念ながら機能的にしょぼくて、あまり積極的に使いたいと思うようなものではありません。多くの人がまず「日本語が文字化けするんだけど」という問題にぶつかります。

アンテナハウスはこれに替わるプラグインを公開しました。”PDF5-ML”といいます。
https://github.com/AntennaHouse/pdf5-ml

“ML”というのは”Multiple Language”の略で、その名のとおり多言語対応を得意としています。
ひとつの DITA トピックファイルの中に複数言語が混在することがありますが、このような場合でも言語毎のフォント選択をきっちり行うことができます。
DITA 採用時にぜひお試しいただければと思います。

アンテナハウスはこのプラグインのカスタマイズ作業も請け負っております。PDF 生成でお悩みの方はご一報下されば幸いです。


DITAからWord(docx)への変換

最近「DITA から Word へ変換することはできないか」というお問い合わせをいただくようになりました。
日本で英語マニュアルを作って、それを各国の販社に送り、販社側でローカライズするには Word が便利なのでしょう。

Word へ変換する DITA OTプラグインはあるにはあります。
https://github.com/jelovirt/com.elovirta.ooxml
しかし、もう2年くらいメンテナンスがされておらず、ちょっと商用では使えないレベルのものです。docx の仕様があまりにも難しいというのが理由のひとつだと思われます。
XSL-FO の仕様は PDF にすると500ページ程度に対して、Word の Open XML File Format の仕様は PDF でなんと6700ページ。全部読み切った人はいるのでしょうか(^^;

ところがところが、昨年アンテナハウスはこの変換プラグインを開発しちゃいました。しかもオープンソースで、どなたでも自由にお使いいただくことができます。
https://github.com/AntennaHouse/ah-wml

そして、来る3月6日に DITAコンソーシアムジャパン主催の「DITA Festa 京都」の開催が計画されているようで、その中で上記のようなことをテーマにしたセッションがあるみたいです。
関西方面でご興味がある方は今のうちに予定に入れておいてください。

DITA


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(2)

PDFを再利用する場合、元となるPDFは内容によって以下の2種類に分けることができます。

1)テキストが含まれているPDF
2)テキストが含まれない画像だけのPDF

1)の「テキストが含まれているPDF」とは、WordやExcelなどで文字入力しPDF化したものが該当します。
このようなPDFからの変換には、『瞬簡PDF 変換 9』が適しています。

瞬簡PDF 変換 9』は、PDFにテキスト・データが含まれていればそれを解析してWordやExcelに変換します。テキスト・データをそのまま変換するため文字化けしたりすることなくWordやExcel形式に移して再利用可能になります。

変換されたいPDFにテキスト・データが含まれるかどうかは、Adobe Reader などでPDFを表示して[編集]メニューから[すべて選択]をクリックしてみてください。
テキスト・データが以下のように反転表示されれば、テキストが含まれるPDFだと判別できます(※)。

pdf

テキストをすべて選択

 

※ スキャナーで作成された画像には、スキャナーがOCR処理をかけてテキスト・データをPDFに埋め込むことがあります(透明テキストつきPDF)。この場合は同じようにテキスト部分が反転して表示されます。

2)の「テキストが含まれない画像だけのPDF」とは、紙の書類をスキャナーで読み取ってPDF化したものなどが該当します。
このようなPDFは文字と見える部分も画像でしかないため、そのままWordやExcel形式に変換しても編集のできない画像が貼り付きます。
このようなデータに対しては「OCR」といって画像から文字を認識する機能を使うことでテキスト・データを取り出すことができます。ただし、OCR処理では画像の状態により文字が正しく認識できず、文字化けしてしまうことがあるため注意が必要です。

紙に印刷された内容をWordやExcelで再利用されたい場合は、『瞬簡PDF OCR』が適しています。

瞬簡PDF OCR』はOCR専用製品で、スキャナーからの直接読み込みにも対応しています。
読み込んだ画像はOCR処理し、誤認識した文字を画面上で修正したり編集したりしながら、変換結果に反映させることができます。
(製品の仕様上、常にOCR処理をかけるため、テキスト・データがあらかじめ含まれているPDFを変換する用途には適しません。)

なお、『瞬簡PDF 変換 9』にもOCR機能があり、画像データからテキスト・データを認識して変換することができます。
ただし、スキャナーからの読み込み機能や誤認識した文字を画面上で修正する機能はありません。

瞬簡PDF OCR』は紙の書類の再利用をされたい場合に適しているのに対し、『瞬簡PDF 変換 9』は内容に関わらず複数のPDFを一括して変換されたいような場合に適していると言えます。

どういったPDFを再利用されたいかによって、いずれの製品を選択するかご検討いただければ幸いです。

PDFをWordやExcelに変換したいけれど、望み通りに変換してくれるか心配…

PDFをWordやExcelに変換したいとお考えの場合、どれだけ正確に変換できるかが気になることと思います。
上記2つの製品にはそれぞれ体験版をご用意しておりますので、その変換精度や使い勝手を事前にご確認いただくことができます。

ただし、体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつのPDFについて、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』、または『瞬簡PDF OCR 体験版のお申し込み』をそれぞれご参照ください。


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(1)

弊社伊那支店の近くには、春に桜で賑わう高遠という町があります。
江戸時代は高遠藩の城下町だったところで、そこかしこに古い時代の面影が残り普段はとても閑かな町です。
そこは、高遠石工と呼ばれる石工集団が活躍したところでもあり、城下の寺には名工といわれた守屋貞治が刻んだ数々の仏さまが遺されています。

正観世音菩薩

正観世音菩薩

写真が下手でうまく伝えられませんが、石なのに柔らかくて温かい表情が何ともいえず好きです。時間と興味のある方は、是非一度現地を訪ねてみてください。

閑話休題。

PDFは紙に代わるデジタルな文書形式として、すっかり身近なものになりました。もともとは閲覧や印刷用途で普及したPDFですが、WordやExcelのように自由に編集して再利用したいというニーズも必然的に増えています。

そのようなニーズに応えてご用意しているのが、弊社のパッケージ製品『瞬簡PDF 変換 9』と『瞬簡PDF OCR』です。

いずれも、PDFをWord(ワード)/Excel(エクセル)/PowerPoint(パワーポイント) の各文書形式に変換することでPDFの再利用が可能な製品です。

なぜPDFから変換をするのに2つも種類があるの? とは、よくお問い合わせをいただくご質問です。

次回は、2つの製品の違いを元になるPDFの観点からご説明します。


謎のファイルをみるためのパソコンソフトの話

小説に出てくる謎のITツール

最近、ある情報筋からミステリー小説の「Qrosの女」(誉田哲郎著)の中で、面白いパソコン用ソフトの紹介があると聞き、アマゾンでその本を買ってみました。2013年刊行で、文庫本にもなっています。

本書の内容は週刊誌記者の芸能取材などをリアルに描いたものですが、あるITツールが印象的なシーンで使われています。

その製品名を「自在くん」といい、USBメモリーの中にある拡張子を偽った大量のファイルをチェックするのに便利なマルチビューアソフトとして紹介されています。

まさに弊社製品の「自在眼」そのものといった印象があります。念のため、講談社の編集部を通じて誉田哲郎さんに質問を依頼したのですが、弊社の製品紹介を目的に著書を使うことは不可とのことで、事実確認はできませんでした。

自在眼」の社会的貢献

自在眼」のユーザーには、インテリジェンスに深い関係のある機関や団体も多数あります。隠匿されたファイルからなんらかの情報を得ようと、今まさにリアルに「自在眼」を使っている方がいるやもしれません。

また、遺品の中にあるパソコンやUSBメモリーなどにある大量のファイルのチェックといったことは、多くの方が遅かれ早かれ現実に体験されると思います。

そんなときはこの「自在眼」が大変役立つITツールのひとつになるでしょう。

興味のある方は、ぜひ「自在眼」のホームページをご覧ください。