Windows小噺三題

Windowsの検索に困惑する

Windows Vista以降、Explorerの検索ボックスでのファイル検索で、日本語のファイルが見つからないことがそれなりに頻発するのはもうどうにもならないのだろうか。少なくともそこにあるファイルを確実に見つけ出すことは可能だろうか。
困ったことに、この検索の正式な仕様は完全には公開されていない。マイクロソフトの仕事としては珍しく何故か徹底的に曖昧だ。きわめて断片的だが以前は多少情報を掲載しているページがあった。「ファイルが見つからない理由」とか「Windows での検索の高度なヒント」。タイトルからも判るように、網羅的な仕様ではなく、しかも日本語の問題は一切触れていない。で、数少ない情報も現在はリンク切れ。どうもマイクロソフトはExplorerでファイルを探して欲しくないようだ。
以前読んだ上記二つの記事から「予想・類推」できるのは、どうやら検索のメタ文字と分析のセパレータ文字が存在するらしいこと。そして、その二種類の文字を検索対象にするにはエスケープが必要らしいこと。しかし、メタ文字とセパレータ文字を網羅した一覧がない。いやその記事に書いてあったんじゃないかと思うかもしれないが、それらの文字をいわゆる全角にした文字も含むなんてどこにも情報がない。そう、「~=<>!”」に加え、少なくとも「~=<>!“”」がメタ文字として扱われているように検索機能は振舞う。そして、「 .-_$()[]{}\/」がセパレータ文字とされているが、いわゆる全角文字のどこまでセパレータ文字なのか一切不明だ。経験で「・」とか「☆」がセパレータ文字扱いされているらしいと想像しているが、そんな情報は一切マイクロソフトからは提供されていない。
そんなわけで、「コンプレックス・シティ.txt」というファイルを探すときは「コンプレックス・シティ」で見つかるが、「究極超人あ~る.txt」というファイルを探すときは「究極超人あ~る」ではなく「”究極超人あ~る”」と入れなくてはいけない。「・」は単なるセパレータだが「~」はメタ文字なので、なんらかの命令として解釈しようとするようだ。
メタ文字やセパレータそのものを検索対象にするには「~=”~”」だとか「~=”・”」になる。これで見つからない原因の一部は対処できるが、Windowsが勝手に分解した単語での検索なので、「ルパン三世.txt」が「パン」で見つからないことには「*パン」で対処する必要はある(これは割と知られている情報だと思う)。さいわい「*」はファイル名には使えない文字なので「*」を検索対象にすることはない。
日本マイクロソフトさん、ある程度はこのへんの情報をヘルプに書いておいてくれませんか。「Explorerの検索ボックスは使い物にならない」と日本で判断されている最大の原因は、日本語検索関連の仕様が一切公開されてないことにありますよ。予想とか類推とか想像とか本来全く不要なことです。

Windowsのタッチキーボードに困惑する

Windows 10にはタッチキーボードがある。デスクトップでも使える。キーボードなしのタブレットとして使うには必須の機能だ。タブレットのWindowsなんてのは非常にマイナーなのでタッチキーボードなんて知らない人も多かろう。でも私は結構頻繁に使う。でも使ってる人が少なく、しかも日本語版はおそらくマイクロソフトですら使う人が少ないためか、「カタカナに変換する」という結構重大な機能が見つからない。Webで検索すると『日本語入力中はボタンが[カナ英]に変わります。[カナ英]をタップするとカタカナに変換できます。』と書いてあるページがあるのでカタカナに変換する機能はかつてはあったらしい。いつのまにやら[カナ英]にならなくなってしまったようだ(デグレ?)。それとも[カナ英]になるための何か別の条件でもあるのか? なんにせよ、この日本語向けタッチキーボードの取扱説明書が必要でしょう。Windows 10って取扱説明書はないんですか? マニュアルは存在しないんですか? 日本語入力周りの正式な方法の説明が読みたい。切実に読みたい。日本マイクロソフトさん、以下略。

Windowsのフォントサイズに困惑する

Windows機が次々にアップデートされて新バージョンになっていく。別にアップデートは構わないのだが、駄目だろって変更があった。システム既定の文字サイズを変更できなくなった。Explorerの文字サイズが変えられない。アプリケーションのメニューの文字サイズが変えられない。別にフォントフェースは何でもいいのだけど、老眼にはこの文字サイズは耐えられない。なんで時代が進むにつれて表示される文字サイズが小さくなるんだか。デザイン上綺麗に見せるためだかなんだか知らないがメニューとExplorerのデフォルトの文字サイズがそもそも小さい(Windows 3.1なんかはむしろ大きすぎたけれど)。Windows 3.1のスクリーンショットを現在主流の23インチHDモニタで表示しても、今のデフォルトの文字より大きい。当時主流のモニタの解像度を勘案するとさらに大きかったわけだ。
今までは変更できたから問題なかったわけだが、何を考えて変更するUIを無くしてしまったのだろう。無くしたらどういう影響が出るのか思い付きもしなかったってことだろうか。この決定をした人はいくらなんでも想像力が無さすぎ。アクセシビリティーに関して確実に後退している。パーソナルコンピューターってのは1990年代以降文字サイズの変更程度のことは簡単にやれて当然なものだったはずなんだが、なんでこうなった。その後何度かバージョンが上がったが、結局文字サイズの変更は復活してない。
決定した人は漢字文化圏のことなんて一切考慮してないだろうなと思い至った。あぁ、viが8bitスルーじゃなかった頃から問題の本質は変わってないってか。




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

『Office Server Document Converter』OpenXMLSDKでマージしたdocx(Word)文書の対応

現在のOffice Server Document Converter(OSDC)(V7.0)はマージされたWord文書に対応していません。ユーザからの要望がありマージされた文書への対応を検討しています。

Word文書内のwordフォルダはいくつかのxml文書で構成されています。

document.xml 本文
fontTable.xml フォント
settings.xml セッティング
style.xml スタイル
footer1.xml フッタ
header1.xml ヘッダ
footnote.xml 脚注
endnote.xml 文末脚注
numbering.xml 箇条書き設定

などです。
OpenXMLSDKでマージした文書にはこのwordフォルダ内にマージされたWord文書がそのまま入っています。

afchunk1.docx

このdocxファイルの参照は本文中にある<w:altChunk>から行います。

 <w:altChunk r:id="AltChunkId0"/>

ファイル_rels/document.xml.relsからr:idに対応する文書を得ます。

 <Relationship Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/aFChunk" Target="/word/afchunk1.docx" Id="AltChunkId0" />

これで、マージされたWord文書(Target=”/word/afchunk1.docx”)を得ることができます。

このファイルはWord文書そのものです。

<w:altChunk>というエレメントはBlock要素です。

 <xsd:group name="EG_BlockLevelElts">
    <xsd:choice>
      <xsd:group ref="EG_BlockLevelChunkElts" minOccurs="0" maxOccurs="unbounded"/>
      <xsd:element name="altChunk" type="CT_AltChunk" minOccurs="0" maxOccurs="unbounded"/>
    </xsd:choice>
  </xsd:group>

Block要素としては<w:p><w:tbl>などがあります。
これらの要素と同じように処理すればマージした文書になるはずです。

<w:p/><w:p/><w:p/>
<w:altChunk/> ここにマージ文書を挿入する
<w:p/><w:p/><w:p/>

document.xml内は

<w:document>
 <w:body>
  <w:p/>
  <w:p/>
  <w:tbl/>
  ...
  <w:p/>
 </w:body>
</w:document>

のように並んでいます。
マージするとき、 <w:document><w:body>の処理を行えば、内部は外側の文書と同じBlock要素として処理できます。問題は、あくまで別文書として処理しなければいけない。外側と、内部文書では参照するファイルが異なります。style.xmlなどは独立した設定になるはずです。

OSDCでは <w:altChunk>で指定されたWordファイルから新しいdocumentクラスを作成する。
documentクラスからページ作成を継続する。
documentクラスの処理が終了したら親のdocumentの<w:altChunk>に戻り処理を継続する。
このような実装を行っています。

今後も要望などを検討しよい製品にしていきます。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

Antenna House PDFXML ライブラリ V3.0』鋭意開発中

『Antenna House PDFXML ライブラリ』は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

公開バージョンは『Antenna House PDFXML ライブラリ V2.0 MR2』2018年6月28日リリースです。
次期バージョンは『Antenna House PDFXML ライブラリ V3.0』です。リリース時期は2019年2月中となっております。
旧バージョンと比較して、表などの解析精度が大幅に改善しています。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

『アウトライナー2.5』鋭意開発中

『アウトライナー』が復活します。

『アウトライナー』はPDFのしおりと目次の作成やページの移動・削除などに大変便利なプロフェッショナル向けPDF加工ツールです。しおりを作成する操作性は群を抜いて便利です。最終バージョンは『アウトライナー2』で、2018年5月15日をもって販売を終了、2018年11月2日をもってユーザーサポートを終了させていただいております。
「アウトライナー」は多くのユーザーに、長らくご愛顧いただいており、後継製品のご要望を賜りました。この度『アウトライナー2.5』として、販売を再開する運びとなりました。

『アウトライナー2』と『アウトライナー2.5』の相違点

  • Windows10 などの最新 OS に対応
    『アウトライナー2』は Windows10 では動作しません。
  • 「しおり」と「目次」の自動解析エンジンを刷新
    アウトライナー2は RTFJ(Rich Text Format Japanese)ベースの解析エンジンです。
    アウトライナー2.5 は Antenna House PDFXML ベースの解析エンジンです。
  • ベースコンポーネントを刷新
    PDF の表示は Antenna House PDF Viwer SDK を使用します。
    PDF の加工は Antenna House PDF Tool API を使用します。

『アウトライナー』はこんなことができます

  • 「しおり」と「目次」を自動生成します。
    本文を解析して、しおりを自動生成します。
    本文の目次ページを解析して、しおりを自動生成します。
    しおり情報を、しおり外部ファイルXML形式,CSV形式,JSON形式(New)として保存できます。
  • コマンドライン版があります。
    任意のPDFを、自動解析して、しおり外部ファイルを生成できます。
    任意のPDFと、しおり外部ファイルを組み合わせて、しおりを設定したPDFを生成できます。
  • 簡単な操作でPDFの「しおり」を編集できます。
  • 目次ページを自動レイアウトで生成してPDFに差し込むことができます。
  • ページの削除や移動、ページ番号の書き換えなどができます。

外観とインターフェースには、ほとんど変更はありません。見た目は同じですが、製品を構成するベースコンポーネントは、すべて最新に入れ替えられています。2019年4月リリースに向けて鋭意開発中です。

『アウトライナー』のページ

 




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

PDFを再利用する。

PDFが登場してからほぼ4半世紀経過しました。PDFはもともと紙に印刷していたレイアウトのデジタル版として電子的に共有・閲覧するために開発されたものです。しかし、4半世紀経過し、PDFが日常的に使われるようになるとともに、PDFとして作成されたデータを再利用したいというニーズがどんどん増えています。

本日はPDFのデータ再利用の形態別に、弊社でご提供しておりますツール類をご紹介致します。

テキストを再利用
PDFの再利用の基本は、文字をテキストファイルとして取り出したいという用途でしょう。シンプルなレイアウトのものとしては契約書などの文字だけの文書があります。複雑なレイアウトのものとしては新聞の紙面、雑誌の誌面として作成されたPDFから文字を取り出したいというニーズがあります。

PDFの閲覧ソフトは画面に表示された文字を選択してコピーする機能がありますので、これを使うと簡単にできそうです。しかし、実際にやってみますとなかなか思い通りにはなりません。

これについては、なぜ思い通りにはならないかを整理してPDF資料室に用意しております。

簡単そうで簡単ではないPDFのテキスト抽出

HTMLにして再利用
また、ときどきお問い合わせをいただくのはPDFの内容をWebページ(HTML)にしたい、というニーズです。この場合の難易度はWebページの仕組みをどうするかに掛かってきます。この仕組みを大きく分類しますと、Webページの内容をHTMLで直接マークアップするか、それとも、コンテンツ管理システム(CMS)にデータを登録して、WebページをCMSで生成するかになりそうです。CMSを使う場合は、PDFからテキストと画像を取り出すことになります。PDFの内容をHTMLにして利用したいというときはPDFの内容をどのように構造化するか、という課題が付け加えられます。なお、HTMLはWebページだけではなく、社内でのデータ蓄積・分析のために使われることも多いようです。

PDFをHTML変換するツールは世の中に幾つかあります。しかし、HTMLファイルとしてからの利用形態や利用目的が多様なため、市販のツールは帯に短し襷に長しという状態になってしまうことがあるようです。

アンテナハウスでは、残念ながら、現在PDFからHTML変換ツールは用意しておりません。但し、PDFをXML形式に変換するツールとしてAHPDFXMLを提供しています。

AHPDFXML:PDFの内部のテキスト、表、図をXML形式に変換!

AHPDFXMLの特長はPDFの表を認識して、表としてマークアップして出力できることです。こうした特長を評価して採用していただいているケースがあります。

PDFの画像を取り出して再利用
PDFに入っている画像を再利用するのは簡単です。

例えば、『瞬簡PDF変換』では、PDFの中にある画像をファイルとして取り出せます(次の図)。

『瞬簡PDF変換』

PDFから画像を取り出す機能をシステムに組み込んで利用するのはPDF Tool APIをお使いいただけます。

PDF Tool API
PDF CookBook V3:2.1 画像抽出

PDFの一部を線画で切り出して再利用
PDFの一部を線画(SVG)の形式で切り出して再利用もできます。

PDF Viewer SDKには、画面で選択した範囲を線画として切り出す機能があります。

PDF Viewer SDK

PDF Viewer SDKの線画切り出し機能と同じですが、PDF加工画像化ツールもあります。こちらはもう少し高機能で数式などを選択してSVG画像化もできます。

PDFからSVGを切り取りできる PDF加工画像化ツール

お問い合わせは
こうしたツール類の他に、お客様のご要望に応じてカスタム開発なども承っております。なにかお困りのことがございましたら、ぜひご相談ください。

お問い合わせ




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

『JLA図書館実践シリーズ 37・38 図書館利用に障害のある人々へのサービス アクセシブルなEPUB版』販売中です。

お久しぶりです。
電子出版サービスグループの当番がやって参りました。

2018年12月20日、アンテナハウスオンラインショップから、CAS-UBで制作されたEPUBを販売しました。

JLA図書館実践シリーズ 37・38
図書館利用に障害のある人々へのサービス アクセシブルなEPUB版
(日本図書館協会障害者サービス委員会 編)

本書は、図書館の「障害者サービス」の基本テキストです。障害者サービスを「図書館利用に障害のある人々へのサービス」という幅広い概念でとらえ、図書館を利用する際の障害を取り除き、すべての人々が図書館サービスを受けられる環境づくりのために必要な考え方、ツール、資料、サービスの実践、さらには関係する制度・法規にも言及しています。(cas-supportブログより)

書籍の詳細は、アンテナハウスオンラインショップの販売ページにてご確認いただくとして、このEPUBの特長は、一般的なEPUBの特長のほかに、視覚障害者に少しだけ優しいという点です。

  1. DRMがかかっていないので、音声読み上げがスムーズです。
  2. 各所に挿入されている図や写真には代替テキストを用意しています。
  3. Windows最新Webブラウザ「Microsoft Edge」などで閲覧できるほか、プレクストークPTR3、MyBookⅤ(2019年1月以降対応予定)、Dolphin EasyReader、など、様々な機器、ソフトで再生できます。
  4. 紙の書籍と同じ「ページ」になっています。従って、「○○ページを見て」という意思疎通が可能です。

紙の書籍では上下巻構成となっていますが、EPUB版は合本です。電子書籍にご興味をお持ちの方は、少しだけお得なのでぜひ購入してみてください。紙版と見比べてみても面白いですよ。

なお、紙版については日本図書館協会販売部他、全国の書店、オンライン書店にて販売中です。
電子書籍(EPUB)は、アンテナハウスオンラインショップで販売中です。

  • アンテナハウスオンラインショップ 販売ページ
  • 電子書籍制作Webサービス:CAS-UB



アウトライナー
PDFを解析して しおり・目次を自動生成


HTML on Word
WebページをWordで作る!

DITAをPDFに(PDF5-ML)

昨日 は DITA を docx に変換する DITA-OT プラグインのことを書きましたが、やはりいまだにマニュアル系は PDF が主流です。

DITA-OT には DITA で書かれたインスタンスを PDF にするためのスタイルシート(プラグイン)が標準で入っているのですが、残念ながら機能的にしょぼくて、あまり積極的に使いたいと思うようなものではありません。多くの人がまず「日本語が文字化けするんだけど」という問題にぶつかります。

アンテナハウスはこれに替わるプラグインを公開しました。”PDF5-ML”といいます。
https://github.com/AntennaHouse/pdf5-ml

“ML”というのは”Multiple Language”の略で、その名のとおり多言語対応を得意としています。
ひとつの DITA トピックファイルの中に複数言語が混在することがありますが、このような場合でも言語毎のフォント選択をきっちり行うことができます。
DITA 採用時にぜひお試しいただければと思います。

アンテナハウスはこのプラグインのカスタマイズ作業も請け負っております。PDF 生成でお悩みの方はご一報下されば幸いです。




瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


HTML on Word
WebページをWordで作る!

DITAからWord(docx)への変換

最近「DITA から Word へ変換することはできないか」というお問い合わせをいただくようになりました。
日本で英語マニュアルを作って、それを各国の販社に送り、販社側でローカライズするには Word が便利なのでしょう。

Word へ変換する DITA OTプラグインはあるにはあります。
https://github.com/jelovirt/com.elovirta.ooxml
しかし、もう2年くらいメンテナンスがされておらず、ちょっと商用では使えないレベルのものです。docx の仕様があまりにも難しいというのが理由のひとつだと思われます。
XSL-FO の仕様は PDF にすると500ページ程度に対して、Word の Open XML File Format の仕様は PDF でなんと6700ページ。全部読み切った人はいるのでしょうか(^^;

ところがところが、昨年アンテナハウスはこの変換プラグインを開発しちゃいました。しかもオープンソースで、どなたでも自由にお使いいただくことができます。
https://github.com/AntennaHouse/ah-wml

そして、来る3月6日に DITAコンソーシアムジャパン主催の「DITA Festa 京都」の開催が計画されているようで、その中で上記のようなことをテーマにしたセッションがあるみたいです。
関西方面でご興味がある方は今のうちに予定に入れておいてください。

DITA




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


アウトライナー
PDFを解析して しおり・目次を自動生成

海外出展情報 その2

Tekom 2018

The European Association for Technical Communication  (欧州技術通信協会)は、11月13日から15日までドイツのシュトゥットガルトで開催される TCWorld aka Tekom  という年次の会議を主催しました。Tekom Europe は、世界最大のテクニカルライターの専門家向けの協会です。

Tekom では、PDF が今日使用されている最も一般的なドキュメントフォーマットであり、PDF を中心としたアンテナハウスの製品には常に大きな関心が寄せられています。 アンテナハウスは、AH Formatter V6.6Office Server Document Converter V7.0PDFXML変換ライブラリV2.0web Interface for AH FormatterWeb Interface for OSDC Regression Testing System V1.4 などの製品を紹介しました。

Tekom の参加者のあいだでは、XSL-FO は最適な組版ストラテジーとして選択されていますが、またページ組版としてのCSSにも非常に興味が持たれています。 AH Formatter V6.6 では、CSS の機能が改善されました。また、Formatter と CSS の併用に興味がある開発者のために、弊社ウェブサイトで CSS ページ組版入門 第4版 を公開しています。またプリントオンデマンド版がAmazon.co.jp から販売開始されました。

アンテナハウス(海外サイト)
http://www.antennahouse.com/

http://rainbowpdf.com/




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


アウトライナー
PDFを解析して しおり・目次を自動生成

海外出展情報 その1

DITA Europe

昨年の11月5日から6日にかけて、アンテナハウスはオランダのロッテルダムで開催された CMS/DITA Europe でスポンサーとして参加しました。 第14回目にあたる Content Management Strategies/DITA Europe であり、2日間にわたって DITA に関する貴重な情報がふんだんに提供されました。会議では、参加者は Technology Test Kitchen と呼ばれるセッションで、発表者が新しい DITA ツールまたは CMS の使用方法を説明した後に、一緒に実地経験を積むことができました。

アンテナハウスは、DITA Open Toolkit 用の Antenna House PDF5-ML プラグイン を使用して、1つの DITA 文書に複数の言語をフォーマットする方法についてのデモを Technology Test Kitchen で発表しました。 PDF5-ML プラグインは AH Formatter と連携して動作するように設計されており、DITA Open Toolkit が提供するデフォルトの PDF プラグインよりも使いやすく、変更や管理が簡単で、尚且つパワフルです。 参加者は、PDF5-ML プラグインに大きな関心を示し、多言語ドキュメントを修正して PDF 出力を生成することがどれほど迅速かつ簡単であるかを体験しました。

セッションの合間には、参加者と席者と出展会社が集い友好を深めるための休憩室が設けられていました この会議の出展会社の多くはアンテナハウスのパートナーであり、また参加者の多くは AH Formatter のユーザでしたので、彼らと再会し、ソフトウェアの新機能を紹介し、パートナーシップを強化すべく今後のプランについて話し合う絶好の機会であったと思います。

アンテナハウス(海外サイト)
http://www.antennahouse.com/

http://rainbowpdf.com/




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換
Pages: Prev 1 2 3 ... 52 53 54 55 56 57 58 ... 229 230 231 Next