カテゴリー別アーカイブ: システム製品

Server Based Converter の活用法(1)

■TextPorter と組み合わせた文書管理システム

企業や組織においては、毎日、膨大な数の文書が、Microsoft Office で作られています。それを紙に印刷していたのでは、保管も閲覧も大変です。
そこで、これらの文書を電子文書のままファイリングし、管理する文書管理システムが作られています。ここで、Server Based Converter と、弊社のサーバ製品の1つである TextPorter が活躍しています。TextPorte rは、Microsoft Office 文書や PDF から、テキストを抽出する製品です。

システムのイメージは、
サーバベース・コンバーター 活用例
にある
サムネイルサーバ
を発展させたものと思っていただけるといいです。

Server Based Converter によって、文書からサムネイルを生成することで、ファイル名だけではわかりにくい文書の見分けも簡単にできるようになります。
そして、TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。

TextPorter に関する詳しい情報は、
http://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : http://www.antenna.co.jp/

Server Based Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Server Based Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Server Based Converter に関する詳しい情報は、
Server Based Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。


PDF を Word や Excel に変換!PDF 変換機能をアプリケーションに簡単に組み込むライブラリのご紹介(2)

昨日 に続いて、『Antenna House PDF to Office 変換ライブラリ Ver.1.2.0』(以下、本ライブラリ)をご紹介します。

本ライブラリは、各種アプリケーションへの組み込み用ライブラリとしてご提供します。

以下は、ライブラリを使用してPDFからExcelに変換したサンプルです。

PDF to Office 変換サンプル

さまざまなアプリケーションへの組み込みに対応するため、ライブラリには C/C++、.NET、Java、コマンドラインの各インタフェースが用意されています。
標準的な変換を行うために必要なステップは非常に短いものです。

以下に、サンプルコード(C#の例:一部抜粋)を示します。

	using PtoDotNetCtl;

	public class MainApp
	{
		static public void Main(string[] args)
		{
			...
			PtoObj p_obj = null;
			p_obj = new PtoObj();
			p_obj.setDocumentPath(args[0], "");
			p_obj.setOutputFilePath(args[1]);
			p_obj.setPrinterName(args[2]);
			p_obj.setOptionFilePath(args[3]);
			p_obj.doConvert();
			...
			finally
			{
				if (p_obj != null)
					p_obj.Dispose();
			}
		}
	}

貴社アプリケーションにて PDF から Office への変換機能を活用するため、本ライブラリをご検討いただければ幸いです.

本ライブラリに関する詳細は、『Antenna House PDF to Office 変換ライブラリ』をご参照ください。
本ライブラリの価格・ライセンス条件等、詳しくは、oem@antenna.co.jp までお問い合わせください。

<< ご紹介(1)


PDF を Word や Excel に変換!PDF 変換機能をアプリケーションに簡単に組み込むライブラリのご紹介(1)

弊社のパッケージ製品 『瞬簡PDF 変換 9』 は、PDF を Microsoft Office Word、Excel、PowerPoint の各文書形式に変換することで PDF の再利用を可能とし、たいへんご好評をいただいております。

この変換機能をソフトウェアベンダー様が自社のアプリケーションに組み込んで利用できるライブラリとして提供するのが、『Antenna House PDF to Office 変換ライブラリ Ver.1.2.0』(以下、本ライブラリ)です。

本ライブラリで提供する機能は、PDF ファイル(Ver.1.3 – Ver.1.7)を入力して、Microsoft Word(doc/docx)、Excel(xls/xlsx)、PowerPoint(ppt/pptx)の各形式で別ファイルに保存するものです。

 

PDF to Office 処理概要

これまで、多くのソフトウェアベンダー様からご評価をいただき、PDF で配布されている積算資料や帳票類をExcelに変換するなど、主に土木・会計システムでご採用をいただいております。

本ライブラリに関する詳細は、『Antenna House PDF to Office 変換ライブラリ』 をご参照ください。
本ライブラリの価格・ライセンス条件等、詳しくは、oem@antenna.co.jp までお問い合わせください。

 ご紹介(2) >>


Server Based Converter V6.0:PDF変換, Flash変換, イメージ変換, サムネイル作成, PDFセキュリティ, Office変換

Server Based Converter  V6.0 では Microsoft Word(.docx) 用読み込みエンジンの改定を行いました。
文書の処理部分を1から作成しなおしました。

以前の読み込みは、リッチテキストコンバータから続くOffice 文書処理技術の蓄積で作成されていました。 最初は doc(OLE) ファイルの処理から始まったプログラムは年月を重ね、プログラム、データ構造などが肥大化し新しい機能への対応も難しくなっていました。

最新の Word ファイル(.docx) の中身は XML ファイルです。
XML 文書処理においては AH Formatter という技術もあり、古い doc 形式のデータ構造から見直し、作り直すこととなりました。

Word の OOXML (Office Open XML) は文書であり、本文 (document.xml) は文字列の並びに Property が付いているだけです。文書ですから先頭からシーケンシャルに処理することが可能になります。
新しいエンジンではシーケンシャルに文書のタグをハンドリングし、処理が終わればデータのメモリは順次開放していきます。このあたりのデータ構造も新しく作り直し、使用メモリ量も抑えることができました。少ないメモリで動作するということは、大きな文書の処理でもスピードが遅くなることが少なくなります。

ページ処理は AH Formatter の Area という構造を使います(以前も使ってはいた)。文書では のパラグラフごとに BlockArea を作成し、Word の段落属性を attribute として設定します。BlockArea 内には LineArea を作成し、親の BlockArea の情報で TextArea を並べ行を作成していきます。
この Area 構造は AH Formatter と同じで、行などエリアの分割なども AH Formatter の組版エンジンプログラムを呼び出し処理します。

また、文字列以外のシェープなどの処理は、今まである Excel,PowerPoint と共通化して同じ処理を行っています。このように新しいエンジンを1から作成したといっても、AH Formatter などの既存のプログラムを使っており、安定感のあるプログラムになっています。
再現性が向上したとの評価もうけています。

興味のあるかた、以前のバージョンをお使いのかたは 評価版 をお試しください。

プログラマの疑問

Word の用紙設定 はなぜ最後にあるのだろう。
用紙設定を取得するために1度最後まで解析する必要がある。
途中にもあるので読み飛ばすわけにはいかない。

30年以上前に日本語ワープロを開発していたプログラマの疑問

[1] AH Formatter


PDFのレイヤー

PDFには、レイヤーという便利な機能があります。
レイヤーは、PDFの内容をまとめて、表示を切り替えたり印刷を切り替えたりします。 Acrobatでは次のようなダイアログでコントロールします。

layer-dialog

AH Formatter には、このレイヤーを出力する機能があります。
今回は、PDFのレイヤーでの言語指定について取り上げます。

レイヤーで指定した言語は、どのように振る舞うのでしょうか。
仕様では次のように書かれています(PDF 32000-1:2008)。

Language dictionary (Optional) A dictionary specifying the language of the content controlled by this optional content group. It may contain the following two entries:

Lang (required) A text string that specifies a language and possibly a locale (see 14.9.2, “Natural Language Specification”). For example, es-MX represents Mexican Spanish.
Preferred (optional) A name whose values shall be either ON or OFF. Default value: OFF. it shall be used by conforming readers when there is a partial match but no exact match between the system language and the language strings in all usage dictionaries. See 8.11.4.4, “Usage and Usage Application Dictionaries” for more information.

Language については、次のようにも書かれています。

Language: This category shall allow the selection of content based on the language and locale of the application. If an exact match to the language and locale is found among the Lang entries of the optional content groups in the usage application dictionary’s OCGs list, all groups that have exact matches shall receive an ON recommendation. If no exact match is found, but a partial match is found (that is, the language matches but not the locale), all partially matching groups that have Preferred entries with a value of ON shall receive an ON recommendation. All other groups shall receive an OFF recommendation.

PDFに指定されたLanguageは、アプリケーションの言語と地域に基づくと書かれています。アプリケーションとは、PDFのビューア、例えばAcrobatのことです。アプリケーションがレイヤーをサポートしていなければ、もちろん何も起こりません。Acrobatはサポートしています。

PDFに、日本語用のレイヤーと英語用のレイヤーを用意しておけば、アプリケーションの言語によって自動的に一方が表示され、他方が表示されないということができます。では、アプリケーションの言語とは何でしょう。仕様書中でそのことについて書かれている部分はありません。
そこで、どうすれば言語によるコントロールが意図どおりにできるのかを、Acrobatを用いて、試行錯誤を交えながらいろいろ探ってみました。

PDFには、Catalog辞書に言語を明示することができます。これは、文書のプロパティで確認することができます。AH Formatter では、<fo:root> に記述した言語がそこに反映されます。

<fo:root ... xml:lang="ja" ...>

property-dialog

アプリケーションの言語とは、これのことでしょうか。
いいえ、この言語はレイヤーの言語とは関係ありません。
これは、PDFの言語であってアプリケーションの言語ではありません。
アプリケーションの言語とは、Acrobatでは環境設定の言語環境にあるアプリケーションを表示する言語に対応することがわかりました。

lang-env

では、アプリケーションの言語は、具体的にはどう表記されているのでしょうか。14.9.2.2 Language Identifiers には次のような記述があります。

A language identifier shall either be the empty text string, to indicate that the language is unknown, or a Language-Tag as defined in RFC 3066, Tags for the Identification of Languages.

Although language codes are commonly represented using lowercase letters and country codes are commonly represented using uppercase letters, all tags shall be treated as case insensitive.

ざっくり言えば、PDFに書かれるLangの値は、RFC 3066 に従っていて大文字小文字は区別しない、ということです。RFC 3066 の言語コードは ISO 639、国コードは ISO 3166 によります。アプリケーションの言語も、ISO 639 と ISO 3166 で表現されているはずです。
実際にAcrobatでアプリケーションを表示する言語を変更すると、どこにどういう情報が書かれるのかはわかりませんでした。しかし、日本語なら ja とか ja-JP などが設定されると、常識的には予想するでしょう。

Preferredを指定していないと、Langに指定したものとアプリケーションの言語の間では完全一致性が判断されることになっています。そこで、日本語環境のとき、どういう指定をしたら完全一致するのかを調べました。

  • ja ⇒ NG
  • jpn ⇒ NG
  • ja-JP ⇒ NG
  • jpn-JP ⇒ NG
  • jpn-JPN ⇒ NG
  • ja_JP ⇒ NG
  • jpn_JP ⇒ NG
  • jpn_JPN ⇒ NG
  • ja-jp ⇒ OK

結果は、まったく想定外でした。仕様には大文字小文字区別しないと明記してあるし、国コードは大文字で表記するのが普通とも明記されています。これはどういうことでしょうか。Acrobatは仕様どおりに動作しているようには見えません。Acrobatの不具合なんでしょうか。仕様の見落としがあるのでしょうか。

完全一致させるのにこんな試行錯誤した上、それが正しいのかどうか裏づけも取れないのでは、完全一致を使うのは現実的ではない気がします。Preferredを指定すると、かなりあいまいな指定でもマッチします。
日本語は、それを話す国は日本しかないですが、英語やポルトガル語スペイン語などはそんなことはありません。例えば、en-US(米国英語)と en-GB(英国英語)を区別したいこともあるはずです。Preferredでは、それらを区別させることはできませんでした。どちらもすべての en にマッチしてしまうようです。つまり、国コードを明示したいなら、Preferredを指定できないということになります。

次に Preferred な ja と、そうでない ja-jp の指定を混在させたらどうなるか見てみます。
日本語環境ではどちらも表示されそうなものですが、ja-jp の方だけ表示されて、ja は表示されません。完全一致するものが見つかったらそれしか表示されない、ということになっているからのようです。このことは、en-US と en-GB を用意し、両者の共通部分を en として表現したくても、できないということを意味します。

AH Formatter V6.4 では、次のようにレイヤーへの言語指定を行ないます。
実際には重なり合った領域に内容を配置するでしょうから、<fo:block-container> などを利用することになります。

<?xml version="1.0"?>
<fo:root xmlns:fo="http://www.w3.org/1999/XSL/Format"
         xmlns:axf="http://www.antennahouse.com/names/XSL/Extensions"
         axf:layer-settings="'Japanese layer' lang 'ja' preferred,
                             'English layer' lang 'en' preferred">
...
<fo:block axf:layer="'Japanese layer'">
こんにちは
</fo:block>
...
<fo:block axf:layer="'English layer'">
Hello
</fo:block>
...

AH Formatter V6.4 MR3 以降を利用してください。

 


PDFチェックツール「Easy PDF Checker」のSEO日記紹介-上位ページを真似た結果、ペナルティを食らって? 地獄に落ちた

弊社では、以前に、某大学の資料センター向けに、学生さんが作ったPDFの内容をチェックするツールを開発したことがあります。また、最近、某イベント主催者の方から、「プリントオンデマンド(POD)するために入稿されたPDFのページサイズ設定やフォント埋め込みの有無を自動チェックしたい」という要望をいただき、PDFチェックツールを開発して提供しました。弊社が開発したPDF読み込み用ライブラリーを活用して比較的簡単にできました。イベント後、主催者の方に確認しましたところ、大変役立ったと好評をいただきました。

こうしたことで、PDFを一括またはオンラインでチェックしたいというニーズがきっとあるに違いない、と考えて製品化を目指すことにしました。早速、Webページを作り3月13日から「Easy PDF Checker」として公開しています。

●Webページ:PDFの用紙サイズ、フォント埋め込み、カラースペース、セキュリティをチェックできる

さて、Webページを公開後、1ヶ月してもなかなかページビューが伸びません。

なんとかしないと。

そこで4月21日にSEOのチェックツールを使って「PDF チェッカー」という単語でGoogle検索の順位を見ました。16位です。Google検索の結果から来訪が見込めるのは上位10位以内です。16位では検索による来訪数は絶望的です。順位を上げてトップ10に食い込まないと…

ちなみに検索上位ページはこんな順位でした。

1 PDFチェックツール (pdf-checker)
http://masao.jpn.org/software/pdf-checker/

2 デジタル校正ソフトウェア「Proof Checker PRO 」| その他のソフトウェア …
http://www.too.com/product/software/proofchecker/

3 デジタルカタログ作成サービスが個別見積もり対応となります/他 …
https://www.ddc.co.jp/tokupre/blog/20170117123343.html

4 PDFのプリフライトチェック(データチェック)について|PDF|印刷データ …
https://www.ddc.co.jp/tokupre/data-guide/pdf-data-preflight-check.html

5 PDFサイズチェッカー – 株式会社 恒河沙
http://www.gougasha.co.jp/products/software/pdfsizechecker/pdfsizechecker.html

1位のページは2011年(2010年?)に公開されたフリーのソフトです。見出しは次のようになっています。1位ページからの引用:

<h1>PDFチェックツール (pdf-checker)</h1>
<p>このツールは複数のPDFファイルの情報を一括してチェックするためのツールです。
もともと、図書館等における大量の紙資料をスキャンする必要がある場合において、納品されたPDFファイルやOCRソフトウェアが出力したPDFファイルを、(ある程度まで)自動的にチェックしたいというニーズに対応するツールとして試作したものです。
現在、以下の項目をチェックして出力する機能を有しています:</p>

そうかぁ。なかなか分かりやすい! しかし、機能的にみてもうちのページが負けるはずはないんだけどねぇ… 

と、いろいろ考えて4月24日に次のように変更しました。

1.タイトルを変更

変更前)<h1>PDFのページサイズ、フォント埋め込み、カラースペースを自動で確認できる</h1>

変更後)<h1>PDFの用紙サイズ、フォント埋め込み、カラースペース、セキュリティをチェックできる</h1>

2.本文を変更
本文書き出しに次の言葉を入れる。

・PDFチェックツール 
・複数のPDFの内容を一括してチェック
・納品された・出稿されたPDFを自動的にチェックできる

4月24日変更後の書き出しは次のようにしました。

「Easy PDF Checker」は、複数のPDFの内容を一括してチェックするツールです。PDFのページサイズ(用紙の大きさ、表示領域の大きさ)、フォント埋め込みの有無、カラースペースなどのPDFの内部に設定されている情報をチェックして、テキストファイルやXML形式のファイルに出力できます。コマンドラインから動作しますので、納品されたPDFを自動的にチェックしたり、Webプリントサービスなどの入稿PDFチェックの自動化に最適です。

あと、出力データの幾つかの項目に用語の説明を少しずつ追加しました。

さて、今日4月27日にはどうなったかと言いますと、

「PDF チェッカー」という単語でGoogle検索の順位を見ました。な! なんと圏外です! じ!地獄に落ちてしまいました

うーーむ。

競争相手の言葉をいろいろ頂戴してしまったので、Google先生に「このページはDeNAってる」とペナルティを食らってしまったのだろうか? たぶんそうだろう。やはり似すぎているよね…

16位と圏外ではクリック数には差が無いんだけどね(どうせ両方ゼロだから差は無い、と開き直りつつ)。さあ、どうしたら良い? 次の一手は? やはりオリジナリティ重視かな~~


現在、桜前線北上中。SBCは海外拡販に向けて準備中。

伊那支店 海外営業グループです。

Server Based Converter』(近日中に新名称でバージョンアップ&リニューアル予定)の海外市場への販売を主なミッションとして着任したばかりの新入社員(若くはありませんが)が担当する事になりました。

ですので、そちらの紹介は後日(詳細が発表できる段階になれば改めて紹介させて頂きます)に取っておいて、今回は少しやわらかめのトピックを Up させて頂きます。

日本列島を桜前線が北上するなか、伊那支店のある長野県はちょうど桜の見ごろとなっています。

4月第一週、東京出張の際に見た千鳥ヶ淵の桜も見事でしたが、松本城や日本三大桜の名所に数えられる高遠{たかとお}(あとの二つはどこでしょう?)も地元のみならず多くの観光客の目を楽しませてくれます。

ちなみに花は英語で flower と言いますが、木に咲く花(桜など)に関しては blossom と表現する事が多いです。
So I hope you come to Nagano, and enjoy cherry blossoms with a caste or beautiful mountains!

(下の写真は先週末の松本城です)

SBC

桜と松本城

全国でお花見が終わるころには精度向上とスピードアップを実現した Server Based Converter の最新情報をお届けできそうです。
Keep your eyes on Antenna House!!


謎のファイルを見るためのソフトは意外と簡単に作れます

謎のファイルを見る機能をSDKで提供します

今週、小説「Qrosの女」(誉田哲郎著)に登場する「自在くん」というマルチビューアソフト(マルチファイルビューア)をご紹介しました。その際、このソフトと同様の機能を持つデスクトップアプリ(パソコン上で動かすソフトウエア)として、弊社の「自在眼」もご紹介しました。

実は、弊社製品「自在眼」のビューア機能をライブラリ(SDK)としても販売しております。お手元で開発されているWindowsアプリケーションに、弊社「自在眼」の機能を組み込むことができ、製品として販売することも可能です。

もし、自力で「自在くん」を作りたいという方は、ぜひ、お問い合わせください。担当はOEMグループです。

マルチ・ファイルビューア 自在眼(パッケージ製品)


Server Based Converter V6.0のメンテナンスリリースについて

Server Based Converter V6.0のメンテナンスリリースについて紹介させていただきます。
Server Based Converter V6.0をお使いのお客様で、弊社と保守契約を結んでいらっしゃるお客様には、バグ修正を行ったメンテナンスリリース(MR)を配布しております。

-V6.0 MR2
2016/04/04

前回までの、改訂内容については、

-V6.0
http://www.antenna.co.jp/support/update-sys/sbc/sbc60.html

を、ご覧ください。

※保守対象の他のバージョン(V5.2-V4.0)の改訂版リリースは8月に予定しています。

Server Based Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Server Based Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Server Based Converter に関する詳しい情報は、
Server Based Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
サーバベース・コンバーター 評価版のお申し込み
から、お申し込みください。


ソフトウェア&アプリ開発展(SODEC)に出展

~ソリューション・システムコンポーネント製品に愛をこめて~

5月10日より開催される「第26回ソフトウェア&アプリ開発展」に、アンテナハウスはシステムコンポーネント製品、ソリューション製品を出展します。
ご来場される際には、是非とも弊社ブースへお立ち寄りください。


【開催概要】
開催日程:2017年5月10日(水)~5月12日(金)
開催時間:10:00~18:00(最終日のみ17:00終了)
開催場所:東京ビッグサイト
ブース№:東11-31
http://www.sodec.jp/


今年の私たちは、去年とはちょっと違います。
去年よりひとつ年老いた(いぃえ)ひとつ年輪を重ね、そして気が付きました。

自分たちのできること、製品の機能を全面に押し出すばかりではなく、潜在顧客の声なき声に耳を傾けること。課題解決こそがモノづくりの原点だったのでは、と。

ということで、今回も出展のテーマを勝手に作らせていただきました。

「皆さんがやりたいことの課題解決にご協力します!」

とはいえ、私たちのできることは限られています。
突然、AI に囲碁を指させたり、月面探査機を飛ばしたりはできません。

私たちの得意技(ソリューション・システムコンポーネント製品)は、

  • 文書レンダリング技術
    ワープロ、表計算、図形、Web ファイル形式等のあらゆるデータを、高精度で相互変換する技術の開発と商品化をします。
  • PDF 技術
    PDF を電子配信の時代の紙に相当する基盤技術と考え、PDF の表示、生成、編集、変換・再利用など PDF 技術の開発と製品化を推進します
  • XML 文書を利用した組版技術
    W3C の XSL-FO 仕様に準拠し、世界中のお客様にご利用いただける大容量・多言語データに最適な自動組版技術と、独自開発した PDF 出力エンジンで、アクセシブルなタグ付き PDF や印刷用の PDF/X、長期保存 PDF/A などさまざまな PDF 形式で出力ができます。

これらの分野で課題を抱えている方、解決策も模索している方は、お気軽に足をお運び下さい。
解決できるまで、とことん、お付き合いをさせていただきます。
万が一何の解決にならなかったとしても、気晴らしの話し相手くらいにはなれます・・・。

それまで待てない、今すぐ何とかしたいという方は、下記お問い合せ先へご連絡下さい。
どこへでも駆け付けます !

お問い合せ先
アンテナハウス株式会社 S1営業グループ
sis@antenna.co.jp
http://www.antenna.co.jp/system/

今年のアンテナハウスは、ちょっと違うかも・・・。


Pages: Prev 1 2 3 4 5 6 7 8 9 Next