カテゴリー別アーカイブ: PDF Server

『AH PDF Server V3』のOCR機能について

 「AH PDF Server V3」ではPDFに変換する時にOCR(Optical Character Recognition:光学文字認識)を行う事が出来ます。OCRについてはこのブログでも時々出てきますので、詳細については省略しますが、時々サポートにも質問が寄せられる事がありますので、その辺について触れたいと思います。

 OCR機能と言うのは平たく言えば画像の中の文字を認識してそれをテキストとして作成するPDF上にレイアウトします。そのため、「AH PDF Server V3」では入力ファイルが画像ファイルもしくはPDFファイルの時にOCRを行う設定の場合には処理を実行します。当然、入力ファイルがテキストファイルやオフィスファイルの時にはOCRを行う設定になっていても無視します。

 OCR自体は画像認識処理なので、画像ファイルの場合には特に問題ありませんが、PDFファイルが対象の場合は少し事情が違います。ひとくちに「PDF」と言っても中身が全部同じとは限らないからです。

 「AH PDF Server V3」ではOCRの対象となるPDFファイルは1ページに画像が1枚だけ存在するPDFとなり、これが基本的な考え方です。少し難しい表現をしましたが、ハッキリ言えば画像をスキャナでスキャンして出力されたPDFファイルを対象としています。ただし、最近の複合機などで出力される「高圧縮されたPDF」の場合はスキャンされたPDFでもOCRの対象ではありません。

 変換設定の「OCR処理設定」で「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックがオフの場合、スキャンされたPDF以外では「OCR対象外」として無視されます(エラーにはなりません)。

 しかし、デフォルトでは「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックはオンになっています。この設定の場合は入力ファイル全てがOCR処理の対象となります。極端な話をすれば、テキストで構成されたPDFファイルもOCR対象にしてしまいます。

 この場合はどういう処理を行うのかと言えば、PDFを1ページ単位で画像に変換してからOCR処理を実行して再びPDFに変換します。これをすべてのPDFを対象に(上記の「1ページに画像が1枚だけ存在するPDF」も同様に)実行します。見た目には同じPDFですが、中身はまったく違ったPDFになってしまうため、以下のようなお問い合わせが時々寄せられる事があります。

 ・PDFファイルをOCR処理したらファイルサイズが大きくなった
 ・埋め込んであったフォント情報が無くなってしまった

 ファイルサイズが大きくなるのは一度画像にしてしまうからなのですが、例えばテキストだけのPDFだと数キロバイトが百数十キロバイト程度になります。本来対象となる「1ページに画像が1枚だけ存在するPDF」以外のPDFは軒並みファイルサイズはかなり大きくなります。また、フォント情報も一度画像に変換してしまうために全て失われてしまいます。

 「AH PDF Server V3」でPDFファイルを処理する場合、OCR処理に関しては基本的には「すべてのPDFファイルでOCRテキスト付きPDFを作成する」のチェックをオフにしておく事をおすすめします。そうすればテキストがすでに存在してフォント情報なども埋め込まれているPDFに対して不用意にOCR処理を実行してしまう事もありませんから。

 デフォルト状態がオンなのはV2.0の頃からの名残なのですが、設定する時には一度どんなPDFを処理するかを確認した上で設定を行うようにして頂ければ幸いです。

——-

AH PDF Serverについて、詳細情報は製品ページをご確認ください。
また、評価版もWebページからダウンロード可能です。ぜひお試しください!
評価版お申込みページ

製品についてのお問い合わせ:
アンテナハウス株式会社システム営業までどうぞ。
TEL:03-5829-9021 e-mail:sis@antenna.co.jp


「AH PDF Server V3」次期改訂版(3)機能拡張コマンドプログラム

「AH PDF Server V3」次期改訂版について、最終回です。

 「AH PDF Server V3」のフォルダ監視変換では実装しにくい機能を個別のコマンドプログラムとして提供するのが「機能拡張コマンドプログラム」になります。実際には一部のお客様には提供した機能なのですが、次期改訂版からすべてのお客様に提供する事にしました。ただし、対応するのはプロフェッショナル版とコマンド版のみとなります。

 前々回にも少し触れましたが、フォルダ監視変換では設定は基本的に全てのファイルで同じ設定を使う事になります。そのため、例えばセキュリティ解除では同じパスワードなら問題ないですが、ファイルによって異なるパスワードの場合は対応出来ません。そういった機能で要望があったものを「AH PDF Server V3」の本体設定とは別に個別のコマンドプログラムとして対応し、機能拡張として提供します。

 主にWebアプリケーションや他システムから「AH PDF Server V3」のコマンドプログラムを呼び出して利用している(利用を考えている)お客様に対しての機能提供となりますが、提供する拡張機能については少し説明します。

【セキュリティ解除】

 「AH PDF Server V3」で処理するPDFにはセキュリティが掛っていないことが前提になっています。本来、セキュリティを掛けたPDFファイルというものは処理される事を前提にしていないため、このような仕様にしています。

 この考え方は基本的には変わりは無いのですが、それでも組織内に限って言えばセキュリティを外したい場面はあるようです。そのために今回、機能拡張として提供を決めました。セキュリティを解除するにはパスワードを知ってる必要があるので、パスワードが分からないPDFのセキュリティを解除する事は当然出来ません。

【ページ削除】

 PDFファイルの特定のページ、もしくはページの範囲を削除する事が出来ます。これにより、不要なページを省く事が可能です。

【ページ抽出】

 ページ削除とは逆に、必要なページのみを抽出します。指定方法が個別のページや範囲などを組み合わせて指定できるので(例えば「2,4,5-9,23」と指定すると2ページ、4ページ、5ページから9ページ、23ページを抽出する事が出来ます)ページ削除よりも柔軟に使う事が出来ます。

【ファイル添付】

 PDFファイルに任意のファイルを添付する事が出来ます。1ファイルだけならコマンドにパラメータを記述するだけで添付できますし、複数の場合は添付したいファイルのパスを複数記述したテキストファイルを指定する事により複数ファイルを一度に添付できます。

 いずれの機能拡張コマンドプログラムも元ファイルの削除や変更を行う事は無く、新たなPDFファイルを生成します。

 これらのコマンドは次期改訂版がリリースされたら評価版でも確認して頂けます。お役立て頂ければ幸いです。


「AH PDF Server V3」次期改訂版(2)アドイン変換

 「AH PDF Server V3」の次期改訂版で追加される「Word」と「Excel」のアドイン変換について少し触れたいと思います。

 アドイン変換自体は前回も書きましたが「PDF Driver」の機能の1つで、アドインを登録するとMicrosoft Office(Word/Excel/PowerPoint)の各編集画面に「アドイン」メニューが追加されてアンテナハウスのアドインボタン(設定と変換)が表示されます。そこで設定したりPDFに変換したりする事によって通常のPDF変換(印刷によるPDF変換)では出来ない事を可能にしています。

 具体的な設定画面は以下のようになっています。

「Word」の変換設定画面

「Word」の変換設定画面

「Excel」の変換設定画面

「Excel」の変換設定画面

 実際にアドイン登録された状態でMicrosoft Office(Word/Excel)を開き、アドインメニュー内の設定のアイコンをクリックして表示してみると分かると思いますが、ほぼ同じ設定が可能になっています。

 要望として多いものは「Word」の「見出し」などのスタイルをしおりにする事と、「ハイパーリンク」をPDFでも有効にする事です。この2つは割合定期的に要望が寄せられます。また、PDFに変換した時に、オリジナルのファイルと少しレイアウトなどが変わってしまうケースがあるのですが、お客様によってはオリジナルのファイルを添付する事によってそういう事態を回避したいという要望もあります。

 注意点としては従来の変換の設定とアドイン設定は排他設定になっている事です。要するに「従来の設定での変換」か「アドインを使った変換」かのいずれかになります。これに関しては変換方法が異なるため、どうしても両立出来ません。

 いずれにしても「Word」や「Excel」の変換が多いお客様にとっては便利な機能追加だと思います。

PDF Server 製品ページ
●製品お問い合わせ先 システム製品営業
 e-mail:sis@antenna.co.jp
TEL:03-5829-9021


「AH PDF Server V3」次期改訂版について

 「AH PDF Server V3」は現在、改訂版リリースに向けて作業を行っています。リリース時期は8月末から9月にかけてを予定しています。

 今回の改訂版はお客様から要望があった機能を少し追加しました。バージョンアップというほどの大きな機能追加ではありませんが、意外に「あれば嬉しい」機能の追加だと思います。
 そして、今回の機能追加は以下の2点となります。

 ・「Word」「Excel」ファイルのアドイン変換
 ・機能拡張コマンドプログラム

 「Word」と「Excel」のアドイン変換というのは、PDF Driverの機能の1つに「Word」や「Excel」の編集画面上で「アドイン」メニュー内に表示されるアドインボタンを使用してPDFに変換する機能があるのですが、それを「AH PDF Server V3」上から利用して変換するものです。

 この機能を用いると、例えば「Word」なら「見出し」などのスタイルをしおりに変換したり、ハイパーリンクを有効にしたり、目次をリンクに変換したりする事が出来ます。

 機能詳細についてはこちら(http://www.antenna.co.jp/pdv/function04.html)です。

 機能拡張コマンドプログラムと言うのは、特定の機能だけをコマンドラインプログラムにしたものになります。具体的には「PDFのセキュリティ解除」「PDFのページ削除」「PDFのページ追加」「添付ファイルの追加」になります。

 「AH PDF Server V3」のフォルダ監視による変換では定型の設定による変換が出来ますが、これらの機能はなかなか定型の設定では対応出来ない機能であり、ファイルによって設定内容が異なる事が当たり前の機能と言えます。

 ただ、「AH PDF Server V3」のコマンドライン機能を使ってWebアプリケーションや他システムから呼び出すような形でご利用の場合、変換のたびに設定を変更する事が可能なため、「AH PDF Server V3」の機能を拡張するために「コマンドラインプログラム」として提供する事にしました。

 「機能拡張コマンドプログラム」はプロフェッショナル版とコマンド版のみのご提供となりますのでご注意下さい。

 次期改訂版で追加する2つの機能については2回に分けてもう少し説明したいと思います。

PDF Server 製品ページ

製品についてお問い合わせ
e-mail:sis@antenna.co.jp
TEL:03-5829-9021


「AH PDF Server V3」に無い機能?

 「AH PDF Server V3」のホームページには、お客様の許可を頂いてお買い上げ頂いた「AH PDF Server V3」をどのような形で実際の業務にご利用になっているかをご紹介する「事例紹介」ページがあります。

 こちらのページを見て頂ければ実際の使用例のため、「AH PDF Server V3」をお考えの方には参考になると思います。

 ところでお気づきになられた方もひょっとしていらっしゃるかも知れませんが、事例紹介の中にはどこを探しても見つからない機能がいくつか列挙されています。具体的には「PDFのセキュリティ解除」「PDFのページ削除」「PDFへファイルの添付」の3つです。

 「AH PDF Server V3」は機能的にはフォルダ監視変換がメインです。入力フォルダ内に変換したいファイルをコピーして出力フォルダに変換後のファイルを保存します。これはどういう事かと言えば、変換するための設定が常に「同じ」という事が前提となります。これに対して先に挙げた3つの機能は基本的に「同じ」設定ではない事が普通です。

 しかし最近は「Webインタフェース」からのPDF変換が増えてきています。そのため、「AH PDF Server」ではV2.3からコマンドライン変換もサポートするようになりました。コマンドライン変換の利点は任意のタイミングで任意の設定で変換を行う事が出来るようになる事です。
 「PDFのセキュリティ解除」「PDFのページ削除」「PDFへファイルの添付」の3つの機能はフォルダ監視変換機能に組み込めないため、それぞれ独立したコマンドラインプログラムとして存在しています。利用するにはお客様でプログラムなりスクリプトを組むなどする必要があります。

 現在は評価版でも提供をしていないのですが(いずれ組み込みたいとは考えていますが)、ご希望があれば提供する事は可能です。評価版のお申し込みの項目にある「お問い合わせ・ご質問など」に「利用(評価)してみたい」と書いて頂ければ対応させて頂きます。

 まずは評価版からお試しください。

 AH PDF Server V3 評価版お申込み
 AH PDF Server V3 製品ページ


DocuWorksとPDFについて

 お客様から「DocuWorks形式のファイルをPDFに変換したい」というご相談を時々頂くことがあります。聞いてみると保存してある大量のDocuWorksファイルをPDFに変換したいとの考えている方が大半のようです。

 「DocuWorks」とはご存知の方も多いと思いますが、富士ゼロックス社製の電子文書と電子化した紙文書を一元管理するオフィス向けドキュメント・ハンドリング・ソフトウェアの事です。使い勝手の話をすればPDFとよく似た規格と言えます。見るだけならビューアーも用意されていますので本当にPDFとよく似ています。

 「DocuWorks」を導入するきっかけの大半はご利用になっている複合機の兼ね合いが大きいようです。富士ゼロックス社製の複合機でスキャンしたデータなどは基本的に「DocuWorks」形式になります。そのため、その流れで「DocuWorks」で資料をアーカイブされている事も多いです。

 しかし、他社からデータをもらったり逆に他社へデータを送ったりする場合には大抵の場合はPDFだと言われます。そのため、送るときはPDFに変換し、もらった時はDocuWorks形式に変換する手間が発生します。

 最近ではタブレットやスマートフォンでもドキュメントを閲覧する機会が増えてきました。もちろん、「DocuWorks」もiPhoneやiPad、Android用の閲覧ソフトはあります。 しかし、DropBoxなどのクラウドサービスを使った場合、PDFはたいていの場合は開くと表示できますが、「DocuWorks」のファイルは表示されない事の方が多いです。

 「DocuWorks」と「PDF」を比べてどちらが良いかは使う方次第なので何とも言えませんが、汎用性と言う部分についてはPDFの方に軍配が上がるようです。

 「AH PDF Server V3」では「アプリケーション変換」という機能を使えば「DocuWorsk」のファイルを変換する事が出来ます。「DocuWorks」もしくはビューアーは必要ですが、一度設定してフォルダ監視変換を使用すればあとは入力フォルダに「DocuWorks」ファイルをコピーするだけで自動で変換を行う事が出来て便利です。

 どのように行うかは資料(DocuWorks_Convert.pdf)をご用意しましたので、一度評価版と共にお試し下さい。

 AH PDF Server V3 評価版お申込みページ
AH PDF Server 製品ページ


サービスかコマンドラインか

おはようございます。
今日は、PDF Server の動かし方について、いろいろ考えてみます。

2つの変換方法

 「PDF Server V3」でPDFに変換する場合、2つの方法があります。

「フォルダ監視」変換
Windowsサービスを使用して定期的にフォルダを監視して変換を行う
「コマンドライン」変換
ユーザーが任意のタイミングで変換を行う事が出来る

どちらの場合も変換を行うコアの部分は全く同じなので(当然ですが)、出力されるファイルはいずれの方法でも設定が同じなら同じものとなります。

なぜ2つの変換方法を提供するのか

 それは、お互いのデメリットをなるべく解消できる方法として一番効果的だからです。

それそれの変換について、特徴を記載します。

「フォルダ監視」変換の特徴

動作の仕組みとメリット

 入出力フォルダと変換設定を行ってサービスを起動すればあとは設定に従って停止されるまで処理を行います。

設定さえしてしまえば、後は入力フォルダにファイルをコピーすればそのうち出力フォルダにPDFが作成されます。

デメリット

取り扱いが容易な反面、変換が終わるのがいつになるのか分からないデメリットがあります。

特に入力フォルダを複数設定した場合(「PDF Server V3」ではタスク設定と言います)、監視時間のサイクルとファイルの変換頻度によっては数十分やひどい時になると1日経っても変換されない可能性もあります。

もっともこの辺は運用前に設定をチューニングすれば、ある程度は解消されるので極端な事はあまりありませんが、それでもコピーした順番と変換する順番が同じとは限らないため、変換までの時間や他システムとの連携に関してはやや余裕が必要になると言えます。

「コマンドライン」変換の特徴

メリットとデメリット

 逆に「コマンドライン」変換はユーザー側で実行しないと変換が始まらないため、変換までの応答性がかなり良いです。

その代わり使用するにはプログラムやスクリプトを作成する必要があり、利用するにはそれなりの知識が必要となります。

 また、「フォルダ監視」変換は基本的に決まった設定でしか変換出来ませんが、「コマンドライン」変換ではユーザー側がプログラムで動的に変換設定を作成する事によりその時々に合った設定で変換を行う事が出来ます(変換設定の仕様はユーザー様には無償で公開しています)。

 「PDF Server V3」はほとんどのお客様が何らかのシステムと連携して利用されており、それぞれのニーズに合わせて「フォルダ監視」変換か「コマンドライン」変換を選択されています。どちらでも対応できるのは「PDF Server V3」の大きな特長です。

 評価版ではほぼすべての機能が制限なく利用できますので、その利便性も一度試してもらえればと思います。

AH PDF Server V3 製品ページ

AH PDF Server 評価版お申込みページ


Windowsの種類による動作の違いについて(2)

おはようございます。

今日は、昨日のその1例をご紹介します。

 「PDF Server V3」では「TIFF」の出力が可能になっています。
TIFFでは画像を圧縮する事が出来ますが、「PDF Server V3」でもいろいろな圧縮が可能になっていますが、「Windows Server 2003/R2」をご利用の場合、設定によっては少し困った事になります。

実は「Windows Server 2003/R2」では、TIFFの「JPEG圧縮」と「DEFLATE圧縮」の2つは読み込みに対応していません。実際にこの2つの圧縮を行ったTIFFを「Windows Server 2003/R2」で表示(Windows 画像とFAXビューア)すると「プレビューを利用できません」と表示されます。

 変換(圧縮)自体は「PDF Server V3」内で行うためにどの圧縮方法を指定しても問題ないですし、「Windows Server 2003/R2」で表示できなくても「Windows 7/8」であれば問題なく表示されます。
通常、「PDF Server V3」で変換したファイルは、サーバー上ではなくクライアント上で必要になる事がほとんどですので、問題になる事はあまりありません。

 ただし、PDFファイルをOCR処理する場合に不都合が出て来ます。

 「PDF Server V3」ではPDFファイルをOCR処理する場合、一度TIFFファイルに変換しています。
この時、変換設定の「出力設定」→「TIFF設定」の内容で変換を行っています。
これはTIFF出力の処理を使っているためなのですが、この時に「JPEG圧縮」か「DEFLATE圧縮」を指定しているとOCR処理が失敗してエラーが起きます。

 これはTIFFファイルの読込みにWindowsの機能を使っているためで、「JPEG圧縮」もしくは「DEFLATE圧縮」で出力は出来ても、今度はそれを読み込むことが出来ないため、エラーになってしまいます。

ところが、これらの処理を「Windows Server 2008/R2」で行なうと何の問題も無く変換出来てしまいます。

 このようにOSのバージョンによってはうまく動作しないケースも出て来ます。
出来るだけ対応するように心がけてはいますが、機能のすべてを網羅するのは古いOSでは難しい事もあります。

そのために評価版も用意しておりますので、お客様におかれましては、動作環境と同等の環境を用意した上で検証されることをお勧め致します。

 あと、「PDF Server V3」は最新MRから「Windows Server 2012」にも対応しております。

PDF Server 動作環境

どうぞお試しください。

PDF Server 製品ページ(http://www.antenna.co.jp/psv/


Windowsの種類による動作の違いについて(1)

おはようございます。
今日は、「PDF Server V3」の動作周りを話題にします。
 「PDF Server V3」は今までのバージョンと異なり、対応するOSがWindowsサーバーのみになっています。もっとも「PDF Server」をご利用いただいているお客様の対応を見てみるとほとんどのお客様がWindowsサーバーで運用されているため、この点でのV3について苦情は出ておりません。
 それではクライアントOSでは動作しないのか、と言えば実はそんな事もなく、簡単な動作確認であればクライアントOSでもなんら問題はありません(公式ではこれには触れておりません)。
そもそも開発自体、最初の動作試験はクライアントOSで行っております。
 ではナゼ「クライアントOSを除外したのか」と言えば、
1)製品名が示す通り、「サーバー上で動作させる事を目的としたソフトウェア」であるから
2)第二にクライアントOSの仕様上の都合があるから
 見た目にはWindowsのサーバーとクライアントOSに大きな違いはありません(もっともサーバーOSの構成方法によってはかなり違いますが)。
 ただし、細かい部分では結構違いがあります。
 例えばソフトウェア的に見ればメモリの管理方法が異なっています。
 これは端的に言えば同じマシンスペックでも、サーバーOSとクライアントOSで「PDF Server」を動作させた場合、変換出来るファイルサイズの上限に違いが出て来ます。
 実際、クライアントOSでは変換出来ない大きなファイルでも、サーバーOS上では変換出来たと言う例はあります。
 あとはネットワークの接続制限でしょうか。
 WindowsはXPからクライアントOSへの端末接続を10までと制限しています。サーバーOSはライセンスを購入する事により10台以上の接続も可能になっています。
 「PDF Server」は複数の人が利用できるように考慮されていますのでこの辺も考慮してサーバーOSを推奨しています。
 それ以外にも「ユーザーアクセス制限(UAC)」やセキュリティの問題もあり、いろいろ面倒な手続きが必要になってしまいます。これらを勘案した結果「サーバーOS」限定にしました。
 ただ、サーバーOSでも少し注意が必要です。
 「PDF Server」は開発時の最新OSをターゲットに作成・テストを行っています。その上で他のOSもテストを行い動作を検証します。V3では「Windows Server 2008 R2」がメインになっています。機能設計や確認を行う時も当然最新のOSがターゲットなのですが、そのために古いバージョンのOSでは若干注意が必要になるケースも存在します。
明日は、その事例について、紹介します。
AH PDF Server 製品ページ


AH PDF Server 「Web変換オプション」、大企業でのファイル変換(2)

おはようございます。
昨日から引き続き、AH PDF Server Web変換オプションのお話です。

アンテナハウスでは、大手企業様向けのマルチファイル変換基盤構築のお手伝いを多数手がけさせて頂いている中で、最近特に多いのは、この「Web変換」からのPDF作成や、CADからのPDF変換、PDFをMS-Officeへの逆変換です。

Web変換の仕組みは
『Web 変換オプション』の特長にて簡単に紹介しています。

流れは、Webブラウザからを通じて、認証→変換設定→ファイル登録→自動変換です。

特に「変換設定」に関しては、大きく2種類あります。

  • ユーザーがWebブラウザから パスワードや透かし等を設定して、変換が可能なもの
  • 管理者が「変換設定ツール」を利用して、詳細な設定を(複数)登録し、ユーザーはそれをプルダウンで選択するもの

作業者のその場のニーズを(ある程度)叶えつつ、必要なサポートを効率よく行えるよう、上位で管理者による変換設定ルールを定められる、当たり前ですが、外せない機能が、AH PDF Server Web変化オプションにもきちんと備わっています。

余談ですが、AH PDF Server Web変換オプションを利用する際の、ログイン画面をはじめとする、基本の画面デザインは、ASP.NET4の知識があれば、カスタマイズ可能です(※サポート対象外)。

自社システムに組込んでお使いになる場合など、カスタマイズしてご利用ください。

AH PDF Server V3 製品ページ

AH PDF Server 評価版お申込ページ

お問い合わせ:システム営業グループ sis@antenna.co.jpまでどうぞ!


Pages: Prev 1 2 3 4 5 Next