月別アーカイブ: 2018年5月

TextPorter におまかせ その2

■ 社内の文書ファイルをアーカイブとして利用したいのですが、どうすればよいでしょうか?

とある展示会場で、弊社ブース前でチラシを手に取る来場客に「お声掛け」をした際の返答でした。

「検索システムを作成してはどうですか。うちでは扱っていませんが・・・・」
えーっと、これでは話が終わってしまう。無理矢理こちらの土俵に引き込まなくては。

「データを XML 化すればですね、検索結果を web で閲覧できるし、任意のレイアウトで組版して再配布も・・・・」
いかん、「XML」と「組版」の時点で遠い目になってしまっている。

「XML 構造の設計と XSLT の開発は当方で請負いますが、タグ付けの作業は・・・」
逆効果じゃないか、非日常空間から呼び戻さなくては。

「そのためには、テキストの抽出が必要になります。」
お、やっと言葉が通じたか。

「文書ファイルからテキスト情報を抽出する機能は,検索システムや文書管理システムには必須機能です。TextPorter は、さまざまなアプリケーションのファイルからテキストを抽出する、サーバ組込用テキスト抽出エンジンです。」
突然、カタログ的説明口調になっている。

「TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せます。」
XML の件は無かったことにしました。

『TextPorter にお任せください!!』

その後、この話がどう展開したか。それは、また別のお話し。

「TextPorter」 は、次のようなシステム、または汎用製品に組み込まれており採用実績があります。

  • 文書管理ソフトウェア製品に組み込み
  • 全文検索エンジンと共にグループウェアに組み込み
  • 企業内文書管理システムに組み込み
  • 電子メール・サーバ製品に組み込み
  • インターネット情報検索アプリケーションに組み込み
  • イントラネット・テキスト・マイニング・サーバに組み込み
  • セキュリティ管理製品に組み込み

Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。

対応しているファイル形式は、 「抽出対象ファイル形式」https://www.antenna.co.jp/axx/function02.html
をご覧ください。

「TextPorter」に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

<< TextPorter におまかせ その1           TextPorter におまかせ その3 >>


TextPorter におまかせ その1

■ 様々な文書ファイルからテキスト部分を抽出できる製品はありますか?

重要文書が突然消えたかと思うとひょっこり現れたりと、ドキュメントの「神隠し」が横行しているからというわけではないでしょうが、紙文書の電子化で業務の効率化と省スペース化するサービス、まだまだ需要は尽きないようです。

「今頃紙の電子化なんて」と思われた方、文書が全て電子化できているからと安心してはいませんか。
では、過去に作成された大量のドキュメント・ファイル、どのように活用していますか。
多種多様なアプリケーション、異なるバージョンでファイル形式の百花繚乱!
いざドキュメントを開こうとしてもアプリが見つからず、サーバの中で塩漬けになっていては、紙文書を倉庫に積み上げているのと変わりません。

~ドキュメント、役に立たなきゃただのゴミ~

  1. 各種アプリケーションのデータを、編集可能な形式にコンバート
  2. 各種アプリケーションのデータを、一括でPDFや画像に変換
  3. PDFから各種アプリケーションソフトのデータにコンバート

レガシーデータの再利用には様々な方法があります。
いずれの場合も、アンテナハウスの製品を利用すれば簡単に実現できますが、今回は書面の再現・再利用ではなく、ドキュメントからテキストを抽出する方法をご提案します。

体裁ではなく中身(テキスト)が重要!
データベース化し、手軽に検索して閲覧するのが目的ならば、大量のファイルから高速にテキストを抽出できる方法が鍵になりますね。
しかし、多種多様なファイル形式とバージョンが混在していて、ファイル形式別に仕分けするのは至難の業・・・

『TextPorter にお任せください!!』

「TextPorter」 は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。
対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。昔懐かしい(年代が知れます)各種ワープロ文書にも対応しています。

「TextPorter」 は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

「TextPorter」 に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

TextPorter におまかせ その2 >>


Office Server Document Converter(Server Based Converter含む) 及び TextPorter のメンテナンスリリースについて

Office Server Document Converter(Server Based Converter 含む)及び TextPorter のメンテナンスリリースについて紹介させていただきます。
各製品をお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース (MR) を配布しております。

ご提供間隔としては、

  •  最新版につきましては、おおよそ4ヵ月に1回、年3回を目安とした配布
  •  最新版以外のバージョンにつきましては、バグ修正の状況に合わせ、おおよそ半年または1年に1回を目安とした配布

としております。何卒、ご活用ください。

<Office Server Document Converter(Server Based Converter 含む)>

2018/3/12 に Office Server Document Converter V6.1 MR2 と Server Based Converter V6.0 MR5 をリリースいたしました。旧バージョン(SBC5.2MR10、V5.0MR11、V4.0MR12)は、3/19から3/27順次リリースいたしました。
なお、V4.0はMR12が最終版となります。

改定情報は、以下をご参照ください。

■ 次回改訂版リリース予定
2018/7/10にOffice Server Document Converter V6.1 MR3 と Server Based Converter V6.0 MR6をリリースいたします。
旧バージョンの改訂版は、年末リリースを予定しています。

各バージョンの保守期限に関しては、保守期限のページ にてご確認ください。

Office Server Document Converter(Server Based Converter 含む)は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter(Server Based Converter含む)は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

OSDCに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/sbc/trial.html
から、お申し込みください。

<TextPorter>

■ 次回改訂版リリース予定
2018年6月中に V5.4MR4 のリリースを予定しております。
前回(V5.4MR3)までの改訂内容に関しては、こちら をご参照ください。TextPorter は、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDF など様々なアプリケーションのファイルから文字列を抜き出します。
TextPorter は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

TextPorterに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

◎「製品ナビゲータ」好評公開中!
お客様が「やりたいこと」「したいこと」から弊社のシステムコンポーネント製品を探していただく「製品ナビゲータ」を設置しました。計画中のプロジェクトにマッチした製品をお探しならば、是非ともページ上部のバナーをクリックして下さい。
もし該当する製品が無かった場合は、お気軽に弊社システム 営業グループ宛 (sis@antenna.co.jp) にお問い合わせ下さい。


デスクトップ製品のアップデータ

弊社デスクトップ製品では、発売以降にお客様からご報告頂いた問題点や、ご要望頂いた機能などをアップデータにて反映させております。

例えば、瞬簡PDF 書けまっせ7 では3月に公開した Ver7.2.2 で「ゼロ非表示」機能を追加しております。

この機能はテキストボックスに設定した計算式の計算結果や、差し込みフィールドで差し込みを行った数値が “0” だった場合に、非表示にする機能となります。
この機能は、Excel などにもございますが、瞬簡PDF 書けまっせ7 でも同様の機能を搭載いたしましたので、必要に応じて使用頂けたらと思います。

なお、この機能を有効にするためには Ver7.2.2 のアップデータを適用後、下記の手順にてリボンを初期化して頂く必要がございます。

1.瞬簡PDF 書けまっせ 7 を起動
2.「ファイル」タブから「オプション」を選択
3.以下の画面が表示されるので左側のメニューから 「リボンのカスタマイズ」を選択

kakemasse7_01

リボンのカスタマイズ

4.「リセット」ボタンをクリック

以上の手順を行う事で「テキスト」タブ内に「ゼロ非表示」が追加されます。

kakemasse7_02

ゼロ非表示

 


Windows 10 の各バージョンへの対応

先日 Windows 10の April Update(Ver.1803) が公開されました。
弊社デスクトップ製品でも動作確認を行い、以下のページにて動作確認結果を公開しております。

https://www.antenna.co.jp/product/windows10.html

なお、古いバージョンの製品をお使いのお客様につきましては最新環境では動作保証外となることもございますので、この機会に最新バージョンの製品をお使い頂くことをお勧めいたします。


スープランチ

何を書こうかとこのブログを遡って読んでいたら面白かったです。
最初の投稿は2008年8月。
新ブログ: I love software! を開始しました。
もう10年近いんですね。

とはいえ、とくに面白いネタもひねり出せずに週末になってしまったので、今日のランチ紹介でも。
お昼にでるには少々歩くお店ですが。
BUCYO Coffee KAKO

001

入り口には謎の老人。

002
ランチメニューはこんな感じ。

003

ランチはこれにドリンクも付きます。

この15年くらいの間にすこしずつメニューが変わりお値段も変わりお店の名前も変わり…久しぶりにいったらお店の中が改装されて座席が増えていました。

変わるところは変えながら変わらずに在りつづけるのはすごいなあと。
帰り道途中の入れ替わりの激しいお店を眺めながら帰ってきました。
(馬肉屋さんができてた。)


Windows システムにインストールされているフォントについて

Office 文書を PDF に変換した際、作成した環境では大丈夫だったのにPDF Server を使って PDF に変換すると文字化けが生じるとのお問い合わせを頂き、調べてみた所、興味深い結果が得られました。

ユーザーからの報告では、文書中でフォント「Times New Roman」が指定されていた「※(U+203B)」が PDF ファイル上では「□」と出力されていました。
そこで、調べてみるとこのフォント「Times New Roman」は、使用している Windows 環境によって、インストールされているフォントのバージョンが異なり、そのバージョンによっては文字コードに対応する字形を持たないものがあることが確認できました。

現象の原因は、PDFServer を動作させている環境にインストールされていたフォントが、文字コードに対応する字形を持たないことにありました。
文書を作成した環境では、文字コードに対応する字形を持つフォントがインストールされていたため、文字化けすることなく表示・印刷できていましたが PDFServer を動作させていた環境にインストールされていたフォントは対応する字形を持たなかったため、文字化けが生じておりました。

このように同じ名前のフォントがインストールされているからと言って、それだけで作成した文書が意図したように表示されるとは言えません。
この様に思ってもいないようなトラブルが生じることがありますので、フォントの扱いには、十分にご注意下さい。


組版技術のカーニング

カーニングとは、プロポーショナルフォント(文字ごとに文字の幅が異なるフォント)で文字同士の間隔を調節する技法です。これによって文字の並びに美しさと、読みやすさが生まれます。

カーニングの語源は伝統的な印刷手法である活版印刷に遡ります。
活版印刷は文字のはんこを並べて本を印刷する手法です。
活版印刷では文字幅を調整するために、はんこの側面から字が彫ってある部分を意図的にはみ出させていました。そのはみ出た部分を「カーン」と呼んでいたことがその語源です。
現在はDTPが普及して、活版印刷を行う企業も少なくなりました。
しかし数百年前から職人達は地道な努力を重ねて印字の並びの美しさを追求していたのです。

今日ではカーニングはワープロソフトなどでも設定できるようになり、文字列の美を追究するのもずいぶんと楽になりました。それでも、目視で文字の間隔を調整する能力はあるに越したことはないでしょう。
ワープロソフトなどで、レイアウト調整のために文字間を手動で調整することだってありますね。

たまにはカーニングのセンスを磨くゲームで
http://type.method.ac/
鍛えてみても良いかもしれません。


PDFの未来―Webによるデジタル出版、PDFによるデジタル出版の相違

アナログ出版では、出版物は原稿素材ーレイアウトー印刷という工程で製作されます。そしてレイアウトはデザイナーの仕事です。それに対して、デジタル出版ではレイアウト処理という工程はソフトウェアによる自動処理となり、一般ユーザーには目に見えない神プロセスになります。このことは、先日、CAS-SUPPORTのブログで紹介しました[1]

今日は、続きとしてWebによるデジタル出版PDFによるデジタル出版との相違を考えてみます。

Webによるデジタル出版、すなわちWebページでは、素材はHTMLとして用意され、レイアウト指定はCSSとして用意されます。レイアウト指定は制作時に行うことになります。多くの場合CSSは、Webページ用に用意したものを調整して使います。こうして、デザイナーの仕事は大幅に変更になります。

HTML+CSSをレイアウト処理して画面に表示するのはブラウザの役割であり、レイアウトの指定とレイアウトの処理が異なるタイミング・異なるPC・異なるブラウザ環境で行われます。仮にデザイナーがデザインして公開前に動作を確認したとしても、ユーザーが持つ端末ではレイアウト結果が同じになるかどうかは保証されません。端末とブラウザの組み合わせによってはデザイナーが希望しないレイアウト結果になってしまっているかも知れません。

PDFによるデジタル出版ではAH Formatterのような自動組版ソフトを使うと便利です。AH FormatterはXMLやHTMLをPDFにする組版ソフトです[2]。特に、AH CSS Formatterは、HTML+CSSを可視化しPDFにできますので、AH Formatterが提供する機能はブラウザと似ています。

しかし、AH Formatterとブラウザには、本質的な相違が1つあります。すなわち、AH Formatterではレイアウト化・可視化処理をした結果をPDFにします。こうして作成されたPDFが配布されます。

PDFによるデジタル出版ではPDFは紙に印刷した結果と同じであり、レイアウト結果は完全に固定化されます。そして、ユーザーの画面上での表示結果が、予期しないレイアウトになることはありません。こうして考えますとPDFにより配布する方が送信側にも受け手側にも安心です。

ダイナミックなWebページに対してPDFはスタティックであると言っても良いでしょう。こうしてWebによるデジタル出版PDFによるデジタル出版にはレイアウトの固定化という面では大きな相違があります。この相違は本質的なものなので、将来も変化していく可能性は小さいと考えます。

[1] デジタル時代のレイアウトは、ユーザーの目に見えない神プロセス
[2] AH Formatter


CAS-UB ユーザーIDを使って相互リンクを張る

皆様、お早うございます。今回もCAS-UBの担当がやってきました。

さて、今回のお題は、最近、お客様から数回お問い合わせいただきました相互リンクの場合のIDの付与についてです。

【ご注意】
HTMLの世界では、同じ場所にID(id)を同時に付与できるのは一つのみ、同じHTMLファイル内でも同様です。CAS-UBもそのルールを踏襲しています(でないと、EPUBが作れませんので)。

CAS記法で、ユーザーが用語から用語説明に独自IDによるリンクを付けようとすると、以下のようになります。

本文ファイル:i01-00001.xhtml
探偵小説は[[[:#diphtheria ジフテリヤ]]]の血清に似ている。
ジフテリヤの血清をジフテリヤ患者に注射するとステキに利く。

用語説明ファイル:i01-0005.xhtml
*--[[##u.i01-0001.diphtheria ジフテリヤ]]--ジフテリア(diphtheria)の意。\\
ジフテリア菌(Corynebacterium diphtheriae )の感染によって生じる上気道粘膜疾患で…

ですが、この方法では、本文の「ジフテリヤ」から、用語説明「ジフテリヤ」へ移動はできても、その逆ができません。双方向に行き来させるには、CAS記法ではHTMLと同じく、相手へのリンク先と自分のIDを並べて記述します。

用語説明ファイル:i01-0005.xhtml
*--[[##u.i01-0001.diphtheria|:#diphthria ジフテリヤ]]--ジフテリア(diphtheria)の意。\\
ジフテリア菌(Corynebacterium diphtheriae )の感染によって生じる上気道粘膜疾患で… 

本文ファイル:i01-00001.xhtml
探偵小説は[[##.u.i01-0005.diphtheria|:#diphtheria ジフテリヤ]]の血清に似ている。
ジフテリヤの血清をジフテリヤ患者に注射するとステキに利く。

 

ポイントは2つです。

  1. リンクを付与する際に、IDも一緒にアンカーテキスト内に含める。
  2. ID付与の際に設置したブラケット”[[[” “]]]”は削除する。

ブラケットの扱いや、IDの後ろにリンクを付けてしまうなど、苦心している方は、ぜひご参考ください。

また、CAS-UBのサポート(cas-support@antenna.co.jp)までお問い合わせください。
その際、問題の出版物について、CAS-UBサポート(cas-support)を執筆者チームメンバーに追加(共有)していただくと、スムーズかつ的確にサポートを請けることが出来ます。

CAS-UBで有意義な電子書籍制作を!


Pages: 1 2 Next