PDFの「墨消し(墨塗り)事故」って、例の森友文書でも発生してた! まだポピュラーな問題なのでした

しばらく前から、ブログの過去記事のページビューを調べるようになりました。そうしましたら、ここ最近、2015年7月31日投稿の「PDFの墨消しは、塗りつぶすだけではだめなんです」が高い順位に上がっていました。

さほど面白い文章でもないのに、なぜなんだろう? と調べたところ、例の森友文書で起きていたんですね~ やはり奇妙な現象には原因があるのでした。墨消しがホットな話題とは!

日経と文春のWebの解説を読みました。

日経(6月13日)
森友文書でも発生、墨塗りPDFから漏洩 間違った対策

文春(6月15日)
森友文書で黒塗りしたデータが流出! なぜこんなミスが起きたのかを専門家が検証

日経の文章は理解し易いですが、文春の文章は理解しにくいです。文春の記事は編集者がチェックしていないんでしょうかね。

弊社デスクトップ製品では、『瞬簡PDF編集7』『瞬簡PDF 書けまっせ7』に、墨消し機能があります。

また、システム製品『PDF Tool API』でも墨消しができます。
現在、開発中の『PDF Tool API V6』では、検索でヒットした範囲を墨消し範囲に選択する機能が追加になります。


「MathML 数式組版入門」の大学図書館への寄贈についてのお知らせ

2017年12月から弊社では数式など数学的記述をコンピュータ上で表現するための言語 MathML(マスエムエル)の普及・啓蒙のため、数式組版を行うための入門書「MathML 数式組版入門」を全国の大学図書館に寄贈する案内を計画、問い合わせを行ってまいりました。

これまでに 456 の大学図書館へご案内を送り、199 の図書館よりご返答をいただきました。寄贈のご希望は 66 の図書館よりいただき、それぞれの図書館へ発送いたしました。ご返答いただいた図書館の 3割以上に受け入れていただき、MathML へ関心の高さを感じました。今後も情報発信など積極的な活動を行います。

「MathML 数式組版入門」の寄贈は現在も引き続き行っています。ご希望の図書館は、xml-info@antenna.co.jp までご連絡ください。

なお、本書は全文を PDF形式で無料公開もしています。是非、ご活用ください。
MathML 数式組版入門(PDF形式)

組版に使用した『AH Formatter』の評価版は以下のページよりお申し込みいただけます。また、『AH Formatter』についてお問い合わせがございましたら、弊社システム営業グループ(sis@antenna.co.jp)までお問い合わせください。
AH Formatter 評価版のお申し込み

◆ MathML の組版について

『AH Formatter』は MathML を独自開発したエンジンにより描画します。そのため、MathML が記述された FO や HTML は事前に変換する必要はなく、そのまま組版可能です。MathML の組版については、「MathML 描画エンジン」をご覧ください。

 


[AH Formatter] HTML+LaTeX から HTML+SVG への変換

HTML の中に数式が LaTeX で記述されているとき、『AH Formatter』で数式を含めて PDF 出力したいというご要望を実現するため、弊社では HTML に記述された LaTeX部分を MathJax(※)で SVG に変換して、HTML と SVG にしてから『AH Formatter』で組版することをお勧めしています。
MathJax とは、MathML・TeX・ASCIImath で記述された数式をブラウザ上でレンダリングする JavaScript エンジンです。閲覧者は数式の表示のためにブラウザにアドオンのインストールや、フォントの用意などをすることなく、数式を表示できます。

この HTML+LaTeX から HTML+SVG の変換を実現するために弊社では SlimerJS / PhantomJS用のスクリプト「mathjaxToSVG.js」をご用意しました。次のようなコマンドラインで HTML+LaTeX を HTML+SVG にすることが可能です。(推奨環境:Linux+SlimerJS+Firefox)

使用例(入力ファイル input.html、出力ファイル output.html):

$ slimerjs mathjaxToSVG.js input.html > output.html
または
$ phantomjs mathjaxToSVG.js input.html > output.html

次のように中間生成物の HTMLファイルを出力せずに、PDFを出力することも可能です。

$ slimerjs mathjaxToSVG.js input.html | AHFCmd -d @STDIN -x 3 -o output.pdf
または
$ phantomjs mathjaxToSVG.js input.html | AHFCmd -d @STDIN -x 3 -o output.pdf

◆ mathjaxToSVG.js のお問い合わせ

SlimerJS / PhantomJS用のスクリプト「mathjaxToSVG.js」をお試しご希望の方、また、『AH Formatter』についてお問い合わせがございましたら、弊社システム営業グループ(sis@antenna.co.jp)までお問い合わせください。

◆ MathML の組版

なお、MathML については『AH Formatter』は独自開発したエンジンにより描画します。そのため、MathML が記述された FO や HTML を事前に変換する必要はなく、そのまま組版可能です。MathML の組版については、「MathML 描画エンジン」をご覧ください。

 


AH Formatter 公開サンプルページのご紹介

AH Formatter』は製品ページ上にて XSL-FO の基本仕様と『AH Formatter』の拡張機能を使用したサンプル FO を多数公開しています。
サンプル FO 集

サンプルはページ領域やブロック、表といった分野ごとに項目を分けています。また、下の画像のように一覧表の左側の欄にはサンプルの組版に必要な『AH Formatter』のバージョンと『AH Formatter』の拡張機能を使用しているものには「AH拡張」と記しています。

 AH Formatter 公開サンプル

各サンプルは FO だけでなく、出力した PDF もご用意していますので出力結果をその場でご確認いただけます。
XSL-FO & AH Formatter 使いこなし技」の項目は基本仕様とは異なり、機能を組み合わせ特定の条件を回避したり実現する裏技的なサンプルです。まだまだご用意している数は少ないですが、随時追加していきます。

そのほか、要素名などのキーワードからサンプルを見つけていただけるよう「サンプルFO集 索引」ページもご用意しています。こちらのページも是非お役立てください。

 


TextPorter におまかせ その3

■ 全文検索の結果はテキスト情報だけではなく、元の文書も閲覧したいのですが、ファイル形式がバラバラでして。

『TextPorter』 は、さまざまなアプリケーションのファイルから、作成したアプリケーションがなくてもテキストを抽出することができます。
その抽出したテキストを、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せるのです。

と、ドヤ顔で言ってはみましたが、確かに作成されている文書はテキスト情報だけではありません。挿絵の画像やグラフ・表は、文書の附帯情報として必須のものです。
やはり元の情報を過不足無く閲覧できるのがベストですね。
(次第に声が小さくなっていく)

テキスト以外の情報を切り出して再配置する。できないことはありませんが、手間が掛かる。
元ファイルをそのままリンクしても、各アプリケーションが無いと開けません。
ファイルを丸ごと画像や PDF に変換するにしても、やはり作成元のアプリケーションが必要。
アプリケーションに依存せずにテキストを抽出したのだから、閲覧ファイルも同じように作れたら・・・

「となると、やっぱり あれ の出番ですね」

『Office Server Document Converter(OSDC) にお任せください!』

Office Server Document Converter は、作成元のアプリケーションもプリンタドライバも必要とせずにドキュメントを変換できます。

Office Server Document Converter によって、文書からサムネイル画像を生成することで、全文検索システムで検索した文書の見分けも簡単にできるようになります。
目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。
また、検索結果と PDF をリンクすることで、元の文書の情報を過不足無く閲覧することができます。

システムのイメージは、
Office Server Document Converter 活用例にある
サムネイルサーバ
を発展させたものです。

『アンテナハウス にお任せください!』

Office Server Document Converter に関する詳しい情報は、
http://www.antenna.co.jp/sbc/
を、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。

<< TextPorter におまかせ その2


TextPorter におまかせ その2

■ 社内の文書ファイルをアーカイブとして利用したいのですが、どうすればよいでしょうか?

とある展示会場で、弊社ブース前でチラシを手に取る来場客に「お声掛け」をした際の返答でした。

「検索システムを作成してはどうですか。うちでは扱っていませんが・・・・」
えーっと、これでは話が終わってしまう。無理矢理こちらの土俵に引き込まなくては。

「データを XML 化すればですね、検索結果を web で閲覧できるし、任意のレイアウトで組版して再配布も・・・・」
いかん、「XML」と「組版」の時点で遠い目になってしまっている。

「XML 構造の設計と XSLT の開発は当方で請負いますが、タグ付けの作業は・・・」
逆効果じゃないか、非日常空間から呼び戻さなくては。

「そのためには、テキストの抽出が必要になります。」
お、やっと言葉が通じたか。

「文書ファイルからテキスト情報を抽出する機能は,検索システムや文書管理システムには必須機能です。TextPorter は、さまざまなアプリケーションのファイルからテキストを抽出する、サーバ組込用テキスト抽出エンジンです。」
突然、カタログ的説明口調になっている。

「TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せます。」
XML の件は無かったことにしました。

『TextPorter にお任せください!!』

その後、この話がどう展開したか。それは、また別のお話し。

「TextPorter」 は、次のようなシステム、または汎用製品に組み込まれており採用実績があります。

  • 文書管理ソフトウェア製品に組み込み
  • 全文検索エンジンと共にグループウェアに組み込み
  • 企業内文書管理システムに組み込み
  • 電子メール・サーバ製品に組み込み
  • インターネット情報検索アプリケーションに組み込み
  • イントラネット・テキスト・マイニング・サーバに組み込み
  • セキュリティ管理製品に組み込み

Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。

対応しているファイル形式は、 「抽出対象ファイル形式」http://www.antenna.co.jp/axx/function02.html
をご覧ください。

「TextPorter」に関する詳しい情報は、製品ページ
http://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
http://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

<< TextPorter におまかせ その1           TextPorter におまかせ その3 >>


TextPorter におまかせ その1

■ 様々な文書ファイルからテキスト部分を抽出できる製品はありますか?

重要文書が突然消えたかと思うとひょっこり現れたりと、ドキュメントの「神隠し」が横行しているからというわけではないでしょうが、紙文書の電子化で業務の効率化と省スペース化するサービス、まだまだ需要は尽きないようです。

「今頃紙の電子化なんて」と思われた方、文書が全て電子化できているからと安心してはいませんか。
では、過去に作成された大量のドキュメント・ファイル、どのように活用していますか。
多種多様なアプリケーション、異なるバージョンでファイル形式の百花繚乱!
いざドキュメントを開こうとしてもアプリが見つからず、サーバの中で塩漬けになっていては、紙文書を倉庫に積み上げているのと変わりません。

~ドキュメント、役に立たなきゃただのゴミ~

  1. 各種アプリケーションのデータを、編集可能な形式にコンバート
  2. 各種アプリケーションのデータを、一括でPDFや画像に変換
  3. PDFから各種アプリケーションソフトのデータにコンバート

レガシーデータの再利用には様々な方法があります。
いずれの場合も、アンテナハウスの製品を利用すれば簡単に実現できますが、今回は書面の再現・再利用ではなく、ドキュメントからテキストを抽出する方法をご提案します。

体裁ではなく中身(テキスト)が重要!
データベース化し、手軽に検索して閲覧するのが目的ならば、大量のファイルから高速にテキストを抽出できる方法が鍵になりますね。
しかし、多種多様なファイル形式とバージョンが混在していて、ファイル形式別に仕分けするのは至難の業・・・

『TextPorter にお任せください!!』

「TextPorter」 は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。
対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。昔懐かしい(年代が知れます)各種ワープロ文書にも対応しています。

「TextPorter」 は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

「TextPorter」 に関する詳しい情報は、製品ページ
http://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
http://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

TextPorter におまかせ その2 >>


Office Server Document Converter(Server Based Converter含む) 及び TextPorter のメンテナンスリリースについて

Office Server Document Converter(Server Based Converter 含む)及び TextPorter のメンテナンスリリースについて紹介させていただきます。
各製品をお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース (MR) を配布しております。

ご提供間隔としては、

  •  最新版につきましては、おおよそ4ヵ月に1回、年3回を目安とした配布
  •  最新版以外のバージョンにつきましては、バグ修正の状況に合わせ、おおよそ半年または1年に1回を目安とした配布

としております。何卒、ご活用ください。

<Office Server Document Converter(Server Based Converter 含む)>

2018/3/12 に Office Server Document Converter V6.1 MR2 と Server Based Converter V6.0 MR5 をリリースいたしました。旧バージョン(SBC5.2MR10、V5.0MR11、V4.0MR12)は、3/19から3/27順次リリースいたしました。
なお、V4.0はMR12が最終版となります。

改定情報は、以下をご参照ください。

■ 次回改訂版リリース予定
2018/7/10にOffice Server Document Converter V6.1 MR3 と Server Based Converter V6.0 MR6をリリースいたします。
旧バージョンの改訂版は、年末リリースを予定しています。

各バージョンの保守期限に関しては、保守期限のページ にてご確認ください。

Office Server Document Converter(Server Based Converter 含む)は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter(Server Based Converter含む)は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

OSDCに関する詳しい情報は、製品ページ
http://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
http://www.antenna.co.jp/sbc/trial.html
から、お申し込みください。

<TextPorter>

■ 次回改訂版リリース予定
2018年6月中に V5.4MR4 のリリースを予定しております。
前回(V5.4MR3)までの改訂内容に関しては、こちら をご参照ください。TextPorter は、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDF など様々なアプリケーションのファイルから文字列を抜き出します。
TextPorter は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

TextPorterに関する詳しい情報は、製品ページ
http://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
http://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

◎「製品ナビゲータ」好評公開中!
お客様が「やりたいこと」「したいこと」から弊社のシステムコンポーネント製品を探していただく「製品ナビゲータ」を設置しました。計画中のプロジェクトにマッチした製品をお探しならば、是非ともページ上部のバナーをクリックして下さい。
もし該当する製品が無かった場合は、お気軽に弊社システム 営業グループ宛 (sis@antenna.co.jp) にお問い合わせ下さい。


デスクトップ製品のアップデータ

弊社デスクトップ製品では、発売以降にお客様からご報告頂いた問題点や、ご要望頂いた機能などをアップデータにて反映させております。

例えば、瞬簡PDF 書けまっせ7 では3月に公開した Ver7.2.2 で「ゼロ非表示」機能を追加しております。

この機能はテキストボックスに設定した計算式の計算結果や、差し込みフィールドで差し込みを行った数値が “0” だった場合に、非表示にする機能となります。
この機能は、Excel などにもございますが、瞬簡PDF 書けまっせ7 でも同様の機能を搭載いたしましたので、必要に応じて使用頂けたらと思います。

なお、この機能を有効にするためには Ver7.2.2 のアップデータを適用後、下記の手順にてリボンを初期化して頂く必要がございます。

1.瞬簡PDF 書けまっせ 7 を起動
2.「ファイル」タブから「オプション」を選択
3.以下の画面が表示されるので左側のメニューから 「リボンのカスタマイズ」を選択

kakemasse7_01

リボンのカスタマイズ

4.「リセット」ボタンをクリック

以上の手順を行う事で「テキスト」タブ内に「ゼロ非表示」が追加されます。

kakemasse7_02

ゼロ非表示

 


Windows 10 の各バージョンへの対応

先日 Windows 10の April Update(Ver.1803) が公開されました。
弊社デスクトップ製品でも動作確認を行い、以下のページにて動作確認結果を公開しております。

http://www.antenna.co.jp/product/windows10.html

なお、古いバージョンの製品をお使いのお客様につきましては最新環境では動作保証外となることもございますので、この機会に最新バージョンの製品をお使い頂くことをお勧めいたします。


Pages: 1 2 3 4 5 6 7 8 9 10 ... 167 168 169 Next