年別アーカイブ: 2018年

TextPorter におまかせ その3

■ 全文検索の結果はテキスト情報だけではなく、元の文書も閲覧したいのですが、ファイル形式がバラバラでして。

『TextPorter』 は、さまざまなアプリケーションのファイルから、作成したアプリケーションがなくてもテキストを抽出することができます。
その抽出したテキストを、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せるのです。

と、ドヤ顔で言ってはみましたが、確かに作成されている文書はテキスト情報だけではありません。挿絵の画像やグラフ・表は、文書の附帯情報として必須のものです。
やはり元の情報を過不足無く閲覧できるのがベストですね。
(次第に声が小さくなっていく)

テキスト以外の情報を切り出して再配置する。できないことはありませんが、手間が掛かる。
元ファイルをそのままリンクしても、各アプリケーションが無いと開けません。
ファイルを丸ごと画像や PDF に変換するにしても、やはり作成元のアプリケーションが必要。
アプリケーションに依存せずにテキストを抽出したのだから、閲覧ファイルも同じように作れたら・・・

「となると、やっぱり あれ の出番ですね」

『Office Server Document Converter(OSDC) にお任せください!』

Office Server Document Converter は、作成元のアプリケーションもプリンタドライバも必要とせずにドキュメントを変換できます。

Office Server Document Converter によって、文書からサムネイル画像を生成することで、全文検索システムで検索した文書の見分けも簡単にできるようになります。
目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。
また、検索結果と PDF をリンクすることで、元の文書の情報を過不足無く閲覧することができます。

システムのイメージは、
Office Server Document Converter 活用例にある
サムネイルサーバ
を発展させたものです。

『アンテナハウス にお任せください!』

Office Server Document Converter に関する詳しい情報は、
https://www.antenna.co.jp/sbc/
を、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。

<< TextPorter におまかせ その2




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

TextPorter におまかせ その2

■ 社内の文書ファイルをアーカイブとして利用したいのですが、どうすればよいでしょうか?

とある展示会場で、弊社ブース前でチラシを手に取る来場客に「お声掛け」をした際の返答でした。

「検索システムを作成してはどうですか。うちでは扱っていませんが・・・・」
えーっと、これでは話が終わってしまう。無理矢理こちらの土俵に引き込まなくては。

「データを XML 化すればですね、検索結果を web で閲覧できるし、任意のレイアウトで組版して再配布も・・・・」
いかん、「XML」と「組版」の時点で遠い目になってしまっている。

「XML 構造の設計と XSLT の開発は当方で請負いますが、タグ付けの作業は・・・」
逆効果じゃないか、非日常空間から呼び戻さなくては。

「そのためには、テキストの抽出が必要になります。」
お、やっと言葉が通じたか。

「文書ファイルからテキスト情報を抽出する機能は,検索システムや文書管理システムには必須機能です。TextPorter は、さまざまなアプリケーションのファイルからテキストを抽出する、サーバ組込用テキスト抽出エンジンです。」
突然、カタログ的説明口調になっている。

「TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出せます。」
XML の件は無かったことにしました。

『TextPorter にお任せください!!』

その後、この話がどう展開したか。それは、また別のお話し。

「TextPorter」 は、次のようなシステム、または汎用製品に組み込まれており採用実績があります。

  • 文書管理ソフトウェア製品に組み込み
  • 全文検索エンジンと共にグループウェアに組み込み
  • 企業内文書管理システムに組み込み
  • 電子メール・サーバ製品に組み込み
  • インターネット情報検索アプリケーションに組み込み
  • イントラネット・テキスト・マイニング・サーバに組み込み
  • セキュリティ管理製品に組み込み

Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。

対応しているファイル形式は、 「抽出対象ファイル形式」https://www.antenna.co.jp/axx/function02.html
をご覧ください。

「TextPorter」に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

<< TextPorter におまかせ その1           TextPorter におまかせ その3 >>




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

TextPorter におまかせ その1

■ 様々な文書ファイルからテキスト部分を抽出できる製品はありますか?

重要文書が突然消えたかと思うとひょっこり現れたりと、ドキュメントの「神隠し」が横行しているからというわけではないでしょうが、紙文書の電子化で業務の効率化と省スペース化するサービス、まだまだ需要は尽きないようです。

「今頃紙の電子化なんて」と思われた方、文書が全て電子化できているからと安心してはいませんか。
では、過去に作成された大量のドキュメント・ファイル、どのように活用していますか。
多種多様なアプリケーション、異なるバージョンでファイル形式の百花繚乱!
いざドキュメントを開こうとしてもアプリが見つからず、サーバの中で塩漬けになっていては、紙文書を倉庫に積み上げているのと変わりません。

~ドキュメント、役に立たなきゃただのゴミ~

  1. 各種アプリケーションのデータを、編集可能な形式にコンバート
  2. 各種アプリケーションのデータを、一括でPDFや画像に変換
  3. PDFから各種アプリケーションソフトのデータにコンバート

レガシーデータの再利用には様々な方法があります。
いずれの場合も、アンテナハウスの製品を利用すれば簡単に実現できますが、今回は書面の再現・再利用ではなく、ドキュメントからテキストを抽出する方法をご提案します。

体裁ではなく中身(テキスト)が重要!
データベース化し、手軽に検索して閲覧するのが目的ならば、大量のファイルから高速にテキストを抽出できる方法が鍵になりますね。
しかし、多種多様なファイル形式とバージョンが混在していて、ファイル形式別に仕分けするのは至難の業・・・

『TextPorter にお任せください!!』

「TextPorter」 は、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
Microsoft Office, PDF など主要なアプリケーション・ファイルを識別し、作成したアプリケーションがなくても、ファイルからテキストを抽出可能です。
しかも、ファイルの拡張子ではなく、ファイル内部の情報に基づいて識別しますので、正確な判別が可能となります。
対応しているファイル形式は、 「抽出対象ファイル形式」 をご覧ください。昔懐かしい(年代が知れます)各種ワープロ文書にも対応しています。

「TextPorter」 は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

「TextPorter」 に関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しています。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

TextPorter におまかせ その2 >>




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


HTML on Word
WebページをWordで作る!

Office Server Document Converter(Server Based Converter含む) 及び TextPorter のメンテナンスリリースについて

Office Server Document Converter(Server Based Converter 含む)及び TextPorter のメンテナンスリリースについて紹介させていただきます。
各製品をお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース (MR) を配布しております。

ご提供間隔としては、

  •  最新版につきましては、おおよそ4ヵ月に1回、年3回を目安とした配布
  •  最新版以外のバージョンにつきましては、バグ修正の状況に合わせ、おおよそ半年または1年に1回を目安とした配布

としております。何卒、ご活用ください。

<Office Server Document Converter(Server Based Converter 含む)>

2018/3/12 に Office Server Document Converter V6.1 MR2 と Server Based Converter V6.0 MR5 をリリースいたしました。旧バージョン(SBC5.2MR10、V5.0MR11、V4.0MR12)は、3/19から3/27順次リリースいたしました。
なお、V4.0はMR12が最終版となります。

改定情報は、以下をご参照ください。

■ 次回改訂版リリース予定
2018/7/10にOffice Server Document Converter V6.1 MR3 と Server Based Converter V6.0 MR6をリリースいたします。
旧バージョンの改訂版は、年末リリースを予定しています。

各バージョンの保守期限に関しては、保守期限のページ にてご確認ください。

Office Server Document Converter(Server Based Converter 含む)は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter(Server Based Converter含む)は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

OSDCに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/sbc/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/sbc/trial.html
から、お申し込みください。

<TextPorter>

■ 次回改訂版リリース予定
2018年6月中に V5.4MR4 のリリースを予定しております。
前回(V5.4MR3)までの改訂内容に関しては、こちら をご参照ください。TextPorter は、サーバ組込用のテキスト抽出エンジンです。Microsoft Office, PDF など様々なアプリケーションのファイルから文字列を抜き出します。
TextPorter は、対応ファイルの多さなどが評価され、ウェブサービス、パブリッククラウド、プライベートクラウドなどで、検索エンジン、ウイルス対策ソフト、企業機密の漏洩を防ぐソフトなどに利用されています。

TextPorterに関する詳しい情報は、製品ページ
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

評価版もご用意しております。
評価版のお申し込み
https://www.antenna.co.jp/axx/trial.html
から、お申し込みください。

◎「製品ナビゲータ」好評公開中!
お客様が「やりたいこと」「したいこと」から弊社のシステムコンポーネント製品を探していただく「製品ナビゲータ」を設置しました。計画中のプロジェクトにマッチした製品をお探しならば、是非ともページ上部のバナーをクリックして下さい。
もし該当する製品が無かった場合は、お気軽に弊社システム 営業グループ宛 (sis@antenna.co.jp) にお問い合わせ下さい。




HTML on Word
WebページをWordで作る!


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

デスクトップ製品のアップデータ

弊社デスクトップ製品では、発売以降にお客様からご報告頂いた問題点や、ご要望頂いた機能などをアップデータにて反映させております。

例えば、瞬簡PDF 書けまっせ7 では3月に公開した Ver7.2.2 で「ゼロ非表示」機能を追加しております。

この機能はテキストボックスに設定した計算式の計算結果や、差し込みフィールドで差し込みを行った数値が “0” だった場合に、非表示にする機能となります。
この機能は、Excel などにもございますが、瞬簡PDF 書けまっせ7 でも同様の機能を搭載いたしましたので、必要に応じて使用頂けたらと思います。

なお、この機能を有効にするためには Ver7.2.2 のアップデータを適用後、下記の手順にてリボンを初期化して頂く必要がございます。

1.瞬簡PDF 書けまっせ 7 を起動
2.「ファイル」タブから「オプション」を選択
3.以下の画面が表示されるので左側のメニューから 「リボンのカスタマイズ」を選択

kakemasse7_01

リボンのカスタマイズ

4.「リセット」ボタンをクリック

以上の手順を行う事で「テキスト」タブ内に「ゼロ非表示」が追加されます。

kakemasse7_02

ゼロ非表示

 




HTML on Word
WebページをWordで作る!


アウトライナー
PDFを解析して しおり・目次を自動生成

Windows 10 の各バージョンへの対応

先日 Windows 10の April Update(Ver.1803) が公開されました。
弊社デスクトップ製品でも動作確認を行い、以下のページにて動作確認結果を公開しております。

https://www.antenna.co.jp/product/windows10.html

なお、古いバージョンの製品をお使いのお客様につきましては最新環境では動作保証外となることもございますので、この機会に最新バージョンの製品をお使い頂くことをお勧めいたします。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

スープランチ

何を書こうかとこのブログを遡って読んでいたら面白かったです。
最初の投稿は2008年8月。
新ブログ: I love software! を開始しました。
もう10年近いんですね。

とはいえ、とくに面白いネタもひねり出せずに週末になってしまったので、今日のランチ紹介でも。
お昼にでるには少々歩くお店ですが。
BUCYO Coffee KAKO

001

入り口には謎の老人。

002
ランチメニューはこんな感じ。

003

ランチはこれにドリンクも付きます。

この15年くらいの間にすこしずつメニューが変わりお値段も変わりお店の名前も変わり…久しぶりにいったらお店の中が改装されて座席が増えていました。

変わるところは変えながら変わらずに在りつづけるのはすごいなあと。
帰り道途中の入れ替わりの激しいお店を眺めながら帰ってきました。
(馬肉屋さんができてた。)




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


アウトライナー
PDFを解析して しおり・目次を自動生成

Windows システムにインストールされているフォントについて

Office 文書を PDF に変換した際、作成した環境では大丈夫だったのにPDF Server を使って PDF に変換すると文字化けが生じるとのお問い合わせを頂き、調べてみた所、興味深い結果が得られました。

ユーザーからの報告では、文書中でフォント「Times New Roman」が指定されていた「※(U+203B)」が PDF ファイル上では「□」と出力されていました。
そこで、調べてみるとこのフォント「Times New Roman」は、使用している Windows 環境によって、インストールされているフォントのバージョンが異なり、そのバージョンによっては文字コードに対応する字形を持たないものがあることが確認できました。

現象の原因は、PDFServer を動作させている環境にインストールされていたフォントが、文字コードに対応する字形を持たないことにありました。
文書を作成した環境では、文字コードに対応する字形を持つフォントがインストールされていたため、文字化けすることなく表示・印刷できていましたが PDFServer を動作させていた環境にインストールされていたフォントは対応する字形を持たなかったため、文字化けが生じておりました。

このように同じ名前のフォントがインストールされているからと言って、それだけで作成した文書が意図したように表示されるとは言えません。
この様に思ってもいないようなトラブルが生じることがありますので、フォントの扱いには、十分にご注意下さい。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

組版技術のカーニング

カーニングとは、プロポーショナルフォント(文字ごとに文字の幅が異なるフォント)で文字同士の間隔を調節する技法です。これによって文字の並びに美しさと、読みやすさが生まれます。

カーニングの語源は伝統的な印刷手法である活版印刷に遡ります。
活版印刷は文字のはんこを並べて本を印刷する手法です。
活版印刷では文字幅を調整するために、はんこの側面から字が彫ってある部分を意図的にはみ出させていました。そのはみ出た部分を「カーン」と呼んでいたことがその語源です。
現在はDTPが普及して、活版印刷を行う企業も少なくなりました。
しかし数百年前から職人達は地道な努力を重ねて印字の並びの美しさを追求していたのです。

今日ではカーニングはワープロソフトなどでも設定できるようになり、文字列の美を追究するのもずいぶんと楽になりました。それでも、目視で文字の間隔を調整する能力はあるに越したことはないでしょう。
ワープロソフトなどで、レイアウト調整のために文字間を手動で調整することだってありますね。

たまにはカーニングのセンスを磨くゲームで
http://type.method.ac/
鍛えてみても良いかもしれません。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

PDFの未来―Webによるデジタル出版、PDFによるデジタル出版の相違

アナログ出版では、出版物は原稿素材ーレイアウトー印刷という工程で製作されます。そしてレイアウトはデザイナーの仕事です。それに対して、デジタル出版ではレイアウト処理という工程はソフトウェアによる自動処理となり、一般ユーザーには目に見えない神プロセスになります。このことは、先日、CAS-SUPPORTのブログで紹介しました[1]

今日は、続きとしてWebによるデジタル出版PDFによるデジタル出版との相違を考えてみます。

Webによるデジタル出版、すなわちWebページでは、素材はHTMLとして用意され、レイアウト指定はCSSとして用意されます。レイアウト指定は制作時に行うことになります。多くの場合CSSは、Webページ用に用意したものを調整して使います。こうして、デザイナーの仕事は大幅に変更になります。

HTML+CSSをレイアウト処理して画面に表示するのはブラウザの役割であり、レイアウトの指定とレイアウトの処理が異なるタイミング・異なるPC・異なるブラウザ環境で行われます。仮にデザイナーがデザインして公開前に動作を確認したとしても、ユーザーが持つ端末ではレイアウト結果が同じになるかどうかは保証されません。端末とブラウザの組み合わせによってはデザイナーが希望しないレイアウト結果になってしまっているかも知れません。

PDFによるデジタル出版ではAH Formatterのような自動組版ソフトを使うと便利です。AH FormatterはXMLやHTMLをPDFにする組版ソフトです[2]。特に、AH CSS Formatterは、HTML+CSSを可視化しPDFにできますので、AH Formatterが提供する機能はブラウザと似ています。

しかし、AH Formatterとブラウザには、本質的な相違が1つあります。すなわち、AH Formatterではレイアウト化・可視化処理をした結果をPDFにします。こうして作成されたPDFが配布されます。

PDFによるデジタル出版ではPDFは紙に印刷した結果と同じであり、レイアウト結果は完全に固定化されます。そして、ユーザーの画面上での表示結果が、予期しないレイアウトになることはありません。こうして考えますとPDFにより配布する方が送信側にも受け手側にも安心です。

ダイナミックなWebページに対してPDFはスタティックであると言っても良いでしょう。こうしてWebによるデジタル出版PDFによるデジタル出版にはレイアウトの固定化という面では大きな相違があります。この相違は本質的なものなので、将来も変化していく可能性は小さいと考えます。

[1] デジタル時代のレイアウトは、ユーザーの目に見えない神プロセス
[2] AH Formatter




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換
Pages: Prev 1 2 3 4 5 6 7 8 9 10 ... 13 14 15 Next