用途に合わせた製品選びを -その2-

用途ごとに製品をご紹介していますが、第2回目は次のような用途の製品です。

1.主な用途

  • PDFファイルをWordやExcelで編集したい
  • PDFからテキストや画像を取り出したい

2.用途を満たす製品

「瞬簡PDF 変換」はPDFファイルをWordやExcelに変換できる製品です。
PDF内に文字情報が入っていれば文字化けすること無く変換可能。
スキャナ等で作成した文字情報の無いPDFの場合、OCR機能で文字を読み取りWordやExcelなどへ変換することができます。
また、PDF内のテキストや画像を取り出したり、OCRで読み取った文字情報をPDF内に埋め込むといったこともできます。

「瞬簡PDF 変換」のよくある質問

用途に合わせた製品選びを -その3- >>


用途に合わせた製品選びを -その1-

アンテナハウスの瞬簡PDF シリーズにはPDFを有効に利用するための様々な機能が搭載されています。 しかし、製品によって使用できる機能が異なるため、間違って本来の用途と異なる製品を購入されてしまうお客様がいらっしゃいます。
そこで用途に合わせた製品選びができるように3回に分けて製品を紹介したいと思います。

1.主な用途

  • PDFを作成したい
  • PDFのページを分割したい
  • 複数のPDFファイルを結合したい

2.用途を満たす製品

「瞬簡PDF 作成」は文字通り、PDFを作成する機能を搭載した製品です。
この製品では様々なアプリケーションからPDFを作成したり、既にあるPDFのページを分割したり、複数のPDFファイルを結合することができます。
また、PDFの中から特定のページを抽出したり、PDFにセキュリティを付加することも可能となります。

「瞬簡PDF 編集」はPDFの編集機能を搭載した製品です。
様々なアプリケーションのファイルからPDFを作成したり、PDF内のページを自由に抜き出し、別のPDFに再構成するといったことができます。
また、PDF内に文字情報が入っていれば文字の編集を行う事もできます。
その他にもPDFに注釈を挿入したり、ページ番号を付加するといったことも可能です。

「瞬簡PDF 作成」のよくある質問
「瞬簡PDF 編集」のよくある質問

>> 用途に合わせた製品選びを -その2-


ファーウェイ等禁止の話

少し前の話ですが、2019年度米国防権限法(NDAA2019)が成立したため、2020年8月13日以降、ファーウェイやZTE等の製品を使用していると 米国政府機関と契約(contract)できなくなります。

詳細は、
https://www.congress.gov/bill/115th-congress/house-bill/5515/text
の SEC. 889. を確認してください。

「contract」と「entity that uses any equipment, system, or service」の範囲が難しいです。

米国ビザの取得やESTA申請は米国政府との「contract」にあたるのでしょうか?
法人でファーウェイ等製品を購入使用している場合はNGでしょうが、代表権を持つ役員が私費で購入し完全にプライベートのみでしか使っていない場合は?
従業員の私物だが、業務連絡に使っている場合は?

米国法の専門知識がないと皆目見当がつきません。
そうなると目に付くファーウェイ等製品は片っ端から破棄するしかないのかもしれません。

ファーウェイ等製品の所有者が観光で米国内の国立公園や博物館への入場することや、 米政府機関Webサイトのプライバシーポリシー等にOKすること、日本国内の米軍基地イベントへの訪問も 違法行為になるのかもしれません。

ファーウェイ、ZTEの製品は今でも普通に購入できるので、個人レベルでもそこそこの問題なはずですが ネット上でもソフトバンクの5G機器の話以外の情報はほとんどありません。


Windows小噺三題

Windowsの検索に困惑する

Windows Vista以降、Explorerの検索ボックスでのファイル検索で、日本語のファイルが見つからないことがそれなりに頻発するのはもうどうにもならないのだろうか。少なくともそこにあるファイルを確実に見つけ出すことは可能だろうか。
困ったことに、この検索の正式な仕様は完全には公開されていない。マイクロソフトの仕事としては珍しく何故か徹底的に曖昧だ。きわめて断片的だが以前は多少情報を掲載しているページがあった。「ファイルが見つからない理由」とか「Windows での検索の高度なヒント」。タイトルからも判るように、網羅的な仕様ではなく、しかも日本語の問題は一切触れていない。で、数少ない情報も現在はリンク切れ。どうもマイクロソフトはExplorerでファイルを探して欲しくないようだ。
以前読んだ上記二つの記事から「予想・類推」できるのは、どうやら検索のメタ文字と分析のセパレータ文字が存在するらしいこと。そして、その二種類の文字を検索対象にするにはエスケープが必要らしいこと。しかし、メタ文字とセパレータ文字を網羅した一覧がない。いやその記事に書いてあったんじゃないかと思うかもしれないが、それらの文字をいわゆる全角にした文字も含むなんてどこにも情報がない。そう、「~=<>!”」に加え、少なくとも「~=<>!“”」がメタ文字として扱われているように検索機能は振舞う。そして、「 .-_$()[]{}\/」がセパレータ文字とされているが、いわゆる全角文字のどこまでセパレータ文字なのか一切不明だ。経験で「・」とか「☆」がセパレータ文字扱いされているらしいと想像しているが、そんな情報は一切マイクロソフトからは提供されていない。
そんなわけで、「コンプレックス・シティ.txt」というファイルを探すときは「コンプレックス・シティ」で見つかるが、「究極超人あ~る.txt」というファイルを探すときは「究極超人あ~る」ではなく「”究極超人あ~る”」と入れなくてはいけない。「・」は単なるセパレータだが「~」はメタ文字なので、なんらかの命令として解釈しようとするようだ。
メタ文字やセパレータそのものを検索対象にするには「~=”~”」だとか「~=”・”」になる。これで見つからない原因の一部は対処できるが、Windowsが勝手に分解した単語での検索なので、「ルパン三世.txt」が「パン」で見つからないことには「*パン」で対処する必要はある(これは割と知られている情報だと思う)。さいわい「*」はファイル名には使えない文字なので「*」を検索対象にすることはない。
日本マイクロソフトさん、ある程度はこのへんの情報をヘルプに書いておいてくれませんか。「Explorerの検索ボックスは使い物にならない」と日本で判断されている最大の原因は、日本語検索関連の仕様が一切公開されてないことにありますよ。予想とか類推とか想像とか本来全く不要なことです。

Windowsのタッチキーボードに困惑する

Windows 10にはタッチキーボードがある。デスクトップでも使える。キーボードなしのタブレットとして使うには必須の機能だ。タブレットのWindowsなんてのは非常にマイナーなのでタッチキーボードなんて知らない人も多かろう。でも私は結構頻繁に使う。でも使ってる人が少なく、しかも日本語版はおそらくマイクロソフトですら使う人が少ないためか、「カタカナに変換する」という結構重大な機能が見つからない。Webで検索すると『日本語入力中はボタンが[カナ英]に変わります。[カナ英]をタップするとカタカナに変換できます。』と書いてあるページがあるのでカタカナに変換する機能はかつてはあったらしい。いつのまにやら[カナ英]にならなくなってしまったようだ(デグレ?)。それとも[カナ英]になるための何か別の条件でもあるのか? なんにせよ、この日本語向けタッチキーボードの取扱説明書が必要でしょう。Windows 10って取扱説明書はないんですか? マニュアルは存在しないんですか? 日本語入力周りの正式な方法の説明が読みたい。切実に読みたい。日本マイクロソフトさん、以下略。

Windowsのフォントサイズに困惑する

Windows機が次々にアップデートされて新バージョンになっていく。別にアップデートは構わないのだが、駄目だろって変更があった。システム既定の文字サイズを変更できなくなった。Explorerの文字サイズが変えられない。アプリケーションのメニューの文字サイズが変えられない。別にフォントフェースは何でもいいのだけど、老眼にはこの文字サイズは耐えられない。なんで時代が進むにつれて表示される文字サイズが小さくなるんだか。デザイン上綺麗に見せるためだかなんだか知らないがメニューとExplorerのデフォルトの文字サイズがそもそも小さい(Windows 3.1なんかはむしろ大きすぎたけれど)。Windows 3.1のスクリーンショットを現在主流の23インチHDモニタで表示しても、今のデフォルトの文字より大きい。当時主流のモニタの解像度を勘案するとさらに大きかったわけだ。
今までは変更できたから問題なかったわけだが、何を考えて変更するUIを無くしてしまったのだろう。無くしたらどういう影響が出るのか思い付きもしなかったってことだろうか。この決定をした人はいくらなんでも想像力が無さすぎ。アクセシビリティーに関して確実に後退している。パーソナルコンピューターってのは1990年代以降文字サイズの変更程度のことは簡単にやれて当然なものだったはずなんだが、なんでこうなった。その後何度かバージョンが上がったが、結局文字サイズの変更は復活してない。
決定した人は漢字文化圏のことなんて一切考慮してないだろうなと思い至った。あぁ、viが8bitスルーじゃなかった頃から問題の本質は変わってないってか。


『Office Server Document Converter』OpenXMLSDKでマージしたdocx(Word)文書の対応

現在のOffice Server Document Converter(OSDC)(V7.0)はマージされたWord文書に対応していません。ユーザからの要望がありマージされた文書への対応を検討しています。

Word文書内のwordフォルダはいくつかのxml文書で構成されています。

document.xml 本文
fontTable.xml フォント
settings.xml セッティング
style.xml スタイル
footer1.xml フッタ
header1.xml ヘッダ
footnote.xml 脚注
endnote.xml 文末脚注
numbering.xml 箇条書き設定

などです。
OpenXMLSDKでマージした文書にはこのwordフォルダ内にマージされたWord文書がそのまま入っています。

afchunk1.docx

このdocxファイルの参照は本文中にある<w:altChunk>から行います。

 <w:altChunk r:id="AltChunkId0"/>

ファイル_rels/document.xml.relsからr:idに対応する文書を得ます。

 <Relationship Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/aFChunk" Target="/word/afchunk1.docx" Id="AltChunkId0" />

これで、マージされたWord文書(Target=”/word/afchunk1.docx”)を得ることができます。

このファイルはWord文書そのものです。

<w:altChunk>というエレメントはBlock要素です。

 <xsd:group name="EG_BlockLevelElts">
    <xsd:choice>
      <xsd:group ref="EG_BlockLevelChunkElts" minOccurs="0" maxOccurs="unbounded"/>
      <xsd:element name="altChunk" type="CT_AltChunk" minOccurs="0" maxOccurs="unbounded"/>
    </xsd:choice>
  </xsd:group>

Block要素としては<w:p><w:tbl>などがあります。
これらの要素と同じように処理すればマージした文書になるはずです。

<w:p/><w:p/><w:p/>
<w:altChunk/> ここにマージ文書を挿入する
<w:p/><w:p/><w:p/>

document.xml内は

<w:document>
 <w:body>
  <w:p/>
  <w:p/>
  <w:tbl/>
  ...
  <w:p/>
 </w:body>
</w:document>

のように並んでいます。
マージするとき、 <w:document><w:body>の処理を行えば、内部は外側の文書と同じBlock要素として処理できます。問題は、あくまで別文書として処理しなければいけない。外側と、内部文書では参照するファイルが異なります。style.xmlなどは独立した設定になるはずです。

OSDCでは <w:altChunk>で指定されたWordファイルから新しいdocumentクラスを作成する。
documentクラスからページ作成を継続する。
documentクラスの処理が終了したら親のdocumentの<w:altChunk>に戻り処理を継続する。
このような実装を行っています。

今後も要望などを検討しよい製品にしていきます。


Antenna House PDFXML ライブラリ V3.0』鋭意開発中

『Antenna House PDFXML ライブラリ』は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

公開バージョンは『Antenna House PDFXML ライブラリ V2.0 MR2』2018年6月28日リリースです。
次期バージョンは『Antenna House PDFXML ライブラリ V3.0』です。リリース時期は2019年2月中となっております。
旧バージョンと比較して、表などの解析精度が大幅に改善しています。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


『アウトライナー2.5』鋭意開発中

『アウトライナー』が復活します。

『アウトライナー』はPDFのしおりと目次の作成やページの移動・削除などに大変便利なプロフェッショナル向けPDF加工ツールです。しおりを作成する操作性は群を抜いて便利です。最終バージョンは『アウトライナー2』で、2018年5月15日をもって販売を終了、2018年11月2日をもってユーザーサポートを終了させていただいております。
「アウトライナー」は多くのユーザーに、長らくご愛顧いただいており、後継製品のご要望を賜りました。この度『アウトライナー2.5』として、販売を再開する運びとなりました。

『アウトライナー2』と『アウトライナー2.5』の相違点

  • Windows10 などの最新 OS に対応
    『アウトライナー2』は Windows10 では動作しません。
  • 「しおり」と「目次」の自動解析エンジンを刷新
    アウトライナー2は RTFJ(Rich Text Format Japanese)ベースの解析エンジンです。
    アウトライナー2.5 は Antenna House PDFXML ベースの解析エンジンです。
  • ベースコンポーネントを刷新
    PDF の表示は Antenna House PDF Viwer SDK を使用します。
    PDF の加工は Antenna House PDF Tool API を使用します。

『アウトライナー』はこんなことができます

  • 「しおり」と「目次」を自動生成します。
    本文を解析して、しおりを自動生成します。
    本文の目次ページを解析して、しおりを自動生成します。
    しおり情報を、しおり外部ファイルXML形式,CSV形式,JSON形式(New)として保存できます。
  • コマンドライン版があります。
    任意のPDFを、自動解析して、しおり外部ファイルを生成できます。
    任意のPDFと、しおり外部ファイルを組み合わせて、しおりを設定したPDFを生成できます。
  • 簡単な操作でPDFの「しおり」を編集できます。
  • 目次ページを自動レイアウトで生成してPDFに差し込むことができます。
  • ページの削除や移動、ページ番号の書き換えなどができます。

外観とインターフェースには、ほとんど変更はありません。見た目は同じですが、製品を構成するベースコンポーネントは、すべて最新に入れ替えられています。2019年4月リリースに向けて鋭意開発中です。

『アウトライナー』のページ

 


PDFを再利用する。

PDFが登場してからほぼ4半世紀経過しました。PDFはもともと紙に印刷していたレイアウトのデジタル版として電子的に共有・閲覧するために開発されたものです。しかし、4半世紀経過し、PDFが日常的に使われるようになるとともに、PDFとして作成されたデータを再利用したいというニーズがどんどん増えています。

本日はPDFのデータ再利用の形態別に、弊社でご提供しておりますツール類をご紹介致します。

テキストを再利用
PDFの再利用の基本は、文字をテキストファイルとして取り出したいという用途でしょう。シンプルなレイアウトのものとしては契約書などの文字だけの文書があります。複雑なレイアウトのものとしては新聞の紙面、雑誌の誌面として作成されたPDFから文字を取り出したいというニーズがあります。

PDFの閲覧ソフトは画面に表示された文字を選択してコピーする機能がありますので、これを使うと簡単にできそうです。しかし、実際にやってみますとなかなか思い通りにはなりません。

これについては、なぜ思い通りにはならないかを整理してPDF資料室に用意しております。

簡単そうで簡単ではないPDFのテキスト抽出

HTMLにして再利用
また、ときどきお問い合わせをいただくのはPDFの内容をWebページ(HTML)にしたい、というニーズです。この場合の難易度はWebページの仕組みをどうするかに掛かってきます。この仕組みを大きく分類しますと、Webページの内容をHTMLで直接マークアップするか、それとも、コンテンツ管理システム(CMS)にデータを登録して、WebページをCMSで生成するかになりそうです。CMSを使う場合は、PDFからテキストと画像を取り出すことになります。PDFの内容をHTMLにして利用したいというときはPDFの内容をどのように構造化するか、という課題が付け加えられます。なお、HTMLはWebページだけではなく、社内でのデータ蓄積・分析のために使われることも多いようです。

PDFをHTML変換するツールは世の中に幾つかあります。しかし、HTMLファイルとしてからの利用形態や利用目的が多様なため、市販のツールは帯に短し襷に長しという状態になってしまうことがあるようです。

アンテナハウスでは、残念ながら、現在PDFからHTML変換ツールは用意しておりません。但し、PDFをXML形式に変換するツールとしてAHPDFXMLを提供しています。

AHPDFXML:PDFの内部のテキスト、表、図をXML形式に変換!

AHPDFXMLの特長はPDFの表を認識して、表としてマークアップして出力できることです。こうした特長を評価して採用していただいているケースがあります。

PDFの画像を取り出して再利用
PDFに入っている画像を再利用するのは簡単です。

例えば、『瞬簡PDF変換』では、PDFの中にある画像をファイルとして取り出せます(次の図)。

『瞬簡PDF変換』

PDFから画像を取り出す機能をシステムに組み込んで利用するのはPDF Tool APIをお使いいただけます。

PDF Tool API
PDF CookBook V3:2.1 画像抽出

PDFの一部を線画で切り出して再利用
PDFの一部を線画(SVG)の形式で切り出して再利用もできます。

PDF Viewer SDKには、画面で選択した範囲を線画として切り出す機能があります。

PDF Viewer SDK

PDF Viewer SDKの線画切り出し機能と同じですが、PDF加工画像化ツールもあります。こちらはもう少し高機能で数式などを選択してSVG画像化もできます。

PDFからSVGを切り取りできる PDF加工画像化ツール

お問い合わせは
こうしたツール類の他に、お客様のご要望に応じてカスタム開発なども承っております。なにかお困りのことがございましたら、ぜひご相談ください。

お問い合わせ


『JLA図書館実践シリーズ 37・38 図書館利用に障害のある人々へのサービス アクセシブルなEPUB版』販売中です。

お久しぶりです。
電子出版サービスグループの当番がやって参りました。

2018年12月20日、アンテナハウスオンラインショップから、CAS-UBで制作されたEPUBを販売しました。

JLA図書館実践シリーズ 37・38
図書館利用に障害のある人々へのサービス アクセシブルなEPUB版
(日本図書館協会障害者サービス委員会 編)

本書は、図書館の「障害者サービス」の基本テキストです。障害者サービスを「図書館利用に障害のある人々へのサービス」という幅広い概念でとらえ、図書館を利用する際の障害を取り除き、すべての人々が図書館サービスを受けられる環境づくりのために必要な考え方、ツール、資料、サービスの実践、さらには関係する制度・法規にも言及しています。(cas-supportブログより)

書籍の詳細は、アンテナハウスオンラインショップの販売ページにてご確認いただくとして、このEPUBの特長は、一般的なEPUBの特長のほかに、視覚障害者に少しだけ優しいという点です。

  1. DRMがかかっていないので、音声読み上げがスムーズです。
  2. 各所に挿入されている図や写真には代替テキストを用意しています。
  3. Windows最新Webブラウザ「Microsoft Edge」などで閲覧できるほか、プレクストークPTR3、MyBookⅤ(2019年1月以降対応予定)、Dolphin EasyReader、など、様々な機器、ソフトで再生できます。
  4. 紙の書籍と同じ「ページ」になっています。従って、「○○ページを見て」という意思疎通が可能です。

紙の書籍では上下巻構成となっていますが、EPUB版は合本です。電子書籍にご興味をお持ちの方は、少しだけお得なのでぜひ購入してみてください。紙版と見比べてみても面白いですよ。

なお、紙版については日本図書館協会販売部他、全国の書店、オンライン書店にて販売中です。
電子書籍(EPUB)は、アンテナハウスオンラインショップで販売中です。

  • アンテナハウスオンラインショップ 販売ページ
  • 電子書籍制作Webサービス:CAS-UB

DITAをPDFに(PDF5-ML)

昨日 は DITA を docx に変換する DITA-OT プラグインのことを書きましたが、やはりいまだにマニュアル系は PDF が主流です。

DITA-OT には DITA で書かれたインスタンスを PDF にするためのスタイルシート(プラグイン)が標準で入っているのですが、残念ながら機能的にしょぼくて、あまり積極的に使いたいと思うようなものではありません。多くの人がまず「日本語が文字化けするんだけど」という問題にぶつかります。

アンテナハウスはこれに替わるプラグインを公開しました。”PDF5-ML”といいます。
https://github.com/AntennaHouse/pdf5-ml

“ML”というのは”Multiple Language”の略で、その名のとおり多言語対応を得意としています。
ひとつの DITA トピックファイルの中に複数言語が混在することがありますが、このような場合でも言語毎のフォント選択をきっちり行うことができます。
DITA 採用時にぜひお試しいただければと思います。

アンテナハウスはこのプラグインのカスタマイズ作業も請け負っております。PDF 生成でお悩みの方はご一報下されば幸いです。


Pages: Prev 1 2 3 4 5 6 7 8 9 10 ... 177 178 179 Next