カテゴリー別アーカイブ: コラム

新発売『瞬簡PDF 変換 7』は、OCR処理を高速化!!

10月14日から販売開始した『瞬簡PDF 変換 7』では、OCR処理を見直し、画像化されたPDFから従来の製品より正確な文字認識処理を行うことができるようになりました。さらにOCR変換時の処理速度も大幅にアップしました。
下のグラフは、旧製品(リッチテキストPDF6.1)と『瞬簡PDF 変換 7』を使用して、画像データを既定の条件でWordへ変換した結果を比較したものです。

旧製品との速度比較
旧製品と『瞬簡PDF 変換 7』のOCR変換速度比較
(画像をクリックすると拡大します)

平均して、OCRを使用した変換では旧製品比で40~50% の速度アップを実現しています。この数値は、実行環境や元画像の状態、自動で回転や傾き補正を行うかどうかなどの条件によっても異なってきますが、多くの場合で処理速度の向上を実感していただけるものと思います。

また、操作画面においてもOCR処理がしやすくなる改善を行っております。

OCR変換条件の設定
(画像をクリックすると拡大します)

これまで、OCRを行う際の変換条件は、画面上に登録された複数のファイルに対して一括で適用されるようになっていましたが、今回これを見直して、ファイル個別に変換条件を指定できるようにしました。
手順としては、

  1. 最初にメニューバーから[ツール]→[OCR設定の既定値…]を選択します。これにより全体のOCR変換条件を指定できます。
    例えば、日本語文書を変換する機会が多い場合は、言語指定で[日本語]を選択して置きます。
  2. 次に登録されたファイル欄に表示された[OCR設定]ボタン(上図で赤枠内にあるオレンジ色のボタン)をクリックします。これによりファイル毎に異なるOCR変換条件を指定できます。
    例えば、選択したファイルが他と違い英文の文書であったなら、OCR変換条件で言語指定を[英語]に変更します。

このように指定を行ってから[実行ボタン]をクリックすると、ファイル毎に指定した条件により、OCRを利用した変換処理が一括で実行できます。

『瞬簡PDF 変換 7』について、詳細は製品紹介サイトをお訪ねください。
明日は透明テキスト付きPDF作成時の改善についてご説明します。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

PDFをOfficeファイルに高精度変換!!  『瞬簡PDF 変換 7』 新発売

アンテナハウスでは、PDFをWordやExcelに変換して再編集可能にするソフト『瞬簡PDF 変換 7』を10月14日に販売開始しました。

先行してダウンロード版を発売し、パッケージ版は10月21日から出荷を開始していますので、このブログが掲載される頃には店頭で新しいパッケージを見ることができるかも知れません。

リッチテキストの名前が消えた!?

これまで弊社の『リッチテキストPDF』シリーズをお使いいただいていたユーザー様は、今回の製品名をみて「あれ!?」と思われたかも知れません。そうです、今回より製品名から『リッチテキスト』の文字が消えてしまいました。

『リッチテキストPDF』シリーズは2005年の6月に最初のバージョンを発売しまして、これまで何度も改良を重ねて参りました。PDFからOffice文書に変換するソフトウェアとしては、けっこう老舗の部類に入ると思います。
また、最初のバージョンは日経誌の記事”PDFをWordファイルに見事に変換「リッチテキストPDF」“にも取り上げられて、ここでお褒めをいただいたことや、ご指摘を受けたことなどが、以後の開発に随分と励みになったものです。

そのような、歴史?のある「リッチテキスト」の名称を今回使用しなかったのは、「瞬簡PDF」シリーズへの統合をより明確にするためでした。

『瞬簡PDF 変換』という命名には、ビジネスや日常で欠かせないものになってきたPDFの活用をサポートするツールとして、アンテナハウスがどのような製品を提供し、それで何ができるかを、分かりやすく明快にお客様にお伝えしたいとの思いを込めています。

「瞬簡」は、「瞬時」に「簡単」からなる造語です。「瞬簡PDF」という名称を共通に冠した弊社製品群が、この名に恥じないように、お客様のPDFご活用の一助となれば幸いに存じます。

今回の新製品では、今ご覧いただいているブログの右側を見ていただくとお分かりいただけますように、「瞬簡PDF 作成」と「瞬簡PDF 変換」のパッケージもこれまでと違って、幅の広い存在感のあるものにリニューアルしました。さらに、企業・官庁様向けに”超”お得な価格設定を新規に導入するなど、全体に力の入ったものとなっています。

さて、外側の話しはこれくらいにして、明日からは、内部でどのような改善を行ったかにつきまして、ご説明していきたいと思います。次回も是非お読みください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


HTML on Word
WebページをWordで作る!

事業所内でインストール数を管理しなくても良い事業所一括ライセンス体系を導入しました

アンテナハウスは、10月17日に、AH-ULL(エーエイチ-ユーエルエル:Antenna House-Unlimited License)という新しい企業向けライセンス体系を発表・提供開始しました。
詳しくはこちらをご覧ください。
https://www.antenna.co.jp/purchase/sitelisence.html#AH-ULL
AH-ULLは、事業所の規模に応じた価格になっており、その事業所の中ではインストール本数を気にすることなく何本でもインストールすることができるライセンスとなります。
現在、200人規模まで、500人規模、1000人規模で提供しています。たとえば、200人規模の「AH-ULL200」は、
・瞬簡PDF 作成 5        69,300円 
・瞬簡PDF 変換 7        170,100円
・瞬簡PDF 作成・変換パック  182,700円
・書けまっせPDF 5プロフェッショナル 239,400円
・書けまっせPDF 5スタンダード 94,500円
・PDFサイン           151,200円
(いづれも税込み価格です)
となっています。各製品の1本単価と比較してAH-ULLは非常に割安です。それに、事業所の中でインストールした本数を管理する手間が省けますので、管理が楽になるという二重にお得なライセンスとなります。
通常、ソフトウェアのライセンス価格はインストールした枚数に単価を掛けて算出する仕組みになっています。このためにはインストールした本数をカウントして管理する必要があります。
以前、ある自治体の庁舎の中で、インストールされているソフトウェアの本数を調べたところ、購入・登録した本数と比べて数倍の本数が使われていたということで問題になったことがありました。
便利なソフトウェアは、隣が使っていれば自分も使いたくなるものですが、だからと言って自分もインストールすれば不正コピーとなります。
これを避ける方法は二つあります。(1)マイクロソフトのようにアクティベーションを管理する方法と、(2)コピー枚数をカウントしなくても良くする方法です。
アンテナハウスのAH-ULLは、(2)の考えに基づくものです。新しいソフトウェアのライセンス体系として普及させたいと考えています。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

CAS-UBのセミナー各種

昨日は、アンテナハウスのクラウド型汎用書籍編集・制作サービス「CAS-UB」を使うと、同じ原稿から、EPUB版、PDF版の電子書籍を同時並行で製作できることを紹介しました。また、PDFで入稿して印刷・製本することで、電子書籍と印刷の両方に対応した出版ができることを紹介し、この出版形態をアンテナハウスでは、「ハイブリッド出版」と呼んでいることも紹介しました。
 今日は、CAS-UBのセミナーについてお知らせします。
 まずは、まもなく、2011年10月26日(水)に開催する第3回CAS-UB紹介セミナー。
 これは、CAS-UBの実演をして、CAS-UBがどんなものか、出版の未来がどう変わっていくかを紹介するものです。現在、開発中の最もホットなCAS-UBを知ることができます。
 もちろん、参加は無料です。
 参加、ご希望の方は、
CAS-UB お知らせ
にある、「第3回CAS-UB紹介セミナー開催」を、ご覧ください。
 次は、実際にCAS-UBを使いながら、本を作る体験学習ができるハンズオン形式のトレーニングセミナー。
 これは、無料で、毎週、開催しています。
 詳しくは、
CAS-UB トレーニング・セミナー
を、ご覧の上、お申し込みください。
 定員が、毎回5名と少数なので、すぐ埋まってしまいます。お申し込みは、お早めにお願いします。
 先週、2011年10月12日から16日まで、ドイツのフランクフルトで行なわれたヨーロッパ最大の、本と出版に関する展示会「フランクフルト ブックフェア」に、ドイツのリセラーさんの協力でCAS-UBを出展しました。
 そのときの模様は、残念ながらまだ報告が上がってきてないのですが、CAS-UBは、今後も、日本国内、海外を問わず、積極的に展示会やセミナーで紹介していきます。
 ぜひ、一度、展示会のブースやセミナーで、CAS-UBを実際にご覧になり、説明を受けてください。
 クラウド型汎用書籍編集・制作サービス「CAS-UB」について詳しいことは、
アンテナハウスEPUB情報ページ

CAS-UBのPRサイト
をご覧ください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

CAS-UBで本のEPUB版, PDF版を同時に作る

 アンテナハウスのクラウド型汎用書籍編集・制作サービス「CAS-UB」については、以前、このブログでも紹介しました。
 たとえば、
クラウド型汎用書籍編集・制作サービス CAS-UBを発表
にあります。
 このときCAS-UBは、まだ、実験的なサービスでしたが、9月1日から正式なサービスになりました。この間、多くの方から改良点のお寄せいただき、開発チーム一同、大変に感謝しております。
 いまのCAS-UBは、上記で紹介したときからは、ずいぶん変貌を遂げています。
 現在の画面を出しても、また、すぐに変わってしまうので、出しません。
 というのは、まだまだお客様からの要望がいくつもあり、日々、開発と改良が続いているからです。
 そこで今回は、CAS-UBのマニュアルについて紹介します。
 CAS-UBのマニュアルは、なんと、開発の初期の段階から、CAS-UB自体で執筆し、製作しています。
 CAS-UBを使うと、同じ原稿から、簡単に、EPUB版とPDF版の本を作ることができます。つまり、EPUB版とPDF版を同時並行で製作できるのです。さらに、PDFで入稿して印刷することで、紙の本も作れます。
 電子書籍と印刷の両方に対応した、この出版形態をアンテナハウスでは、「ハイブリッド出版」と呼んでいます。
 CAS-UBのマニュアルもそうやって、EPUB版とPDF版を作っています。
 CAS-UB 関連資料集にある「CAS-UB マニュアル」をご覧ください。
 そこに、スタートアップ・ガイド、チュートリアル、ユーザー・ガイドのそれぞれについて、EPUB版、PDF版があります。自由にダウンロードできますので、ぜひ、ダウンロードして、中身をご覧ください。
スタートアップ・ガイド
CAS-UB「ユーザー登録から退会処理まで」(EPUB形式)
CAS-UB「ユーザー登録から退会処理まで」(PDF形式)
チュートリアル
CAS-UBチュートリアル(EPUB形式)
CAS-UBチュートリアル(PDF形式)
ユーザー・ガイド
CAS-UBユーザー・ガイド(EPUB形式)
CAS-UBユーザー・ガイド(PDF形式)
 開発チームとして注目していただきたい点は多々ありますが、やはり、目次、注釈一覧、図表一覧、索引といったものが、自動的に作られていることです。
 日本の本、特に新書では、索引がないものが多く、読者からは、編集者、著者の怠慢と指摘されています。CAS-UBを使えば、このように簡単に索引が作れるのです。ぜひ、活用していただきたいと思います。
 もう1つ、注目していただきたいのは、テーマによって、がらりと違う雰囲気のEPUBが作れることです。
 CAS-UB 関連資料集にある「CAS-UBで作成したPDFとEPUB」をご覧ください。
 次の2つは、同じ原稿から、テーマを切り替えることで、見栄えだけを変えて作ったものです。印象が全然違うことがおわかりいただけると思います。CAS-UBでは、これが、簡単にできるのです。
CAS-UBで作成したEPUBのサンプル(1)テーマ:オルディーズ(EPUB)
CAS-UBで作成したEPUBのサンプル(2)テーマ:グリーン(EPUB)
 なお、Adobe Digital Editionsでは、「テーマ:オルディーズ」が正しく表示されません。Firefoxのアドオン、
EPUBReader
で、ご覧ください。
 同じ原稿から作ったPDF版と見比べるのも、面白いかもしれません。
CAS-UBで作成したPDFのサンプル(PDF)
 クラウド型汎用書籍編集・制作サービス「CAS-UB」について詳しいことは、
アンテナハウスEPUB情報ページ

CAS-UBのPRサイト
をご覧ください。




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

PDFからのテキスト抽出で困っていること

 昨日は、TextPorterがさまざまなソフトのファイルからテキストを抜き出してくるソフトであること。一般の人の目に触れないところで、実は、数多く採用され、活躍していることをお話しました。
 そのTextPorterを使ったPDFからのテキスト抽出で、最近、困ったことが起きています。
 1つ目は、壊れたPDFが氾濫していることです。
 PDFは、Adobe社が独自に開発したものですが、仕様はすでに、
PDF Reference and Adobe Extensions to the PDF Specification
として、公開されています。また、ISO 32000という国際規格にもなっています。
 規格に沿ったPDFであれば、TextPorterは困らないのですが、世の中には、規格を逸脱したPDFがたくさんあります。
 お客様から、このPDFからテキストが抽出できないという問い合わせがあり、調べてみると、規格に準拠してない、壊れたPDFであることがほとんどです。
 それらは、オープンソースのPDFライブラリや自作の独自ライブラリを用いて作られたものが多いようです。そのPDFライブラリのバグなのか、そのPDFライブラリを使うプログラマのレベルが低くて、バグを入れてしまっているのかは、定かではありません。とにかく、壊れた汚いPDFがあちこちで流通してしまっているのが現状です。
 中には、Adobe Readerでも表示できなかったり、Adobe Readerがハングアップしてしまうものまであります。
 TextPorterは、なるべくテキストを抽出しようとがんばってはいますが、自ずと限界はあり、壊れ方がひどいと、どうしようもありません。
 出来の悪いプログラマが作るPDFには勝てません。どうか、プログラマのみなさん、仕様書を読んで、まともなPDFを作ってくださいと願うばかりです。
 2つ目は、画像ばかりのPDFからは、テキストが抽出できないということです。
 お客様から、このPDFからテキスト抽出ができないと送られてきたPDFが、実は、テキストは1文字も入っておらず、全ページが画像のPDF。つまり、スキャナで紙の書類を画像として取り込んでPDFにしたものだったというケースが増えています。
 技術知識のない一般のお客様の場合、Adobe Readerで見て文字が読めるのだから、テキストが抽出できると思ってしまわれるようですが、そうなりません。実は、TextPorterは、画像認識をしてまでテキストを抽出しようとはしていないのです。
 これには理由があって、画像認識までして文字列を抽出しようとすると、処理スピードの低下など、あれこれ弊害が出てしまうからです。TextPorterは日夜、膨大な数のファイルからテキスト抽出をする用途に使われているので、処理スピードの低下は、大きな問題になるのです。
 ハードウェアの性能がもっと向上すれば、挑戦すべきテーマとは思いますが、現在のところ、そこまでやることは控えています。
 画像ばかりのPDFからは、テキスト抽出はできない。これを覚えておいていただきたいと思います。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

サーバ組込用テキスト抽出エンジンTextPorter

 TextPorterは、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジンです。
 何ができるかを一言でいうと、Word, Excel, PDFなど色々なアプリケーションのファイルから文字列を抜き出してくるソフトです。
 「ファイルから文字列を抜き出してくるだけなのに、そんなに大変なことなの?」と思われるかもしれませんが、世の中には、実に数多くの種類のファイルがあり、そこから文字列を抜き出すだけでも、けっこう大変な仕事です。
 ファイルの解析から始め、テキスト部分がどこかを探り当て、それを抽出するプログラムを書いて、いろんなケースをテストして製品の完成度を高めないといけません。
 TextPorterが対応しているファイル形式の一覧「抽出対象ファイル形式」をご覧いただくとおわかりのように、これだけのファイルに対応するのは、一朝一夕ではできません。アンテナハウスが長年にわたって開発を続け、蓄積してきた成果なのです。
 「大変なのはわかった。でも、テキストが抽出できると何がうれしいの?」と思われるかもしれませんが、この技術は、検索エンジン、ウィルス対策ソフト、ドキュメント管理システムなど、さまざまな用途に使うことができるのです。
 システム開発をする人が、サーバに組み込んで使うソフトなので、直接、一般の人たちの目には触れませんが、縁の下の力持ちとして、大いに役立っているソフトなのです。
 採用事例は数多くあり、世界的なソフトウェアやサービスにも組み込まれていますが、契約の関係上、採用事例をご紹介できるのは、次の事例です。

採用事例(ケーススタディ)

のあるように、エヌ・ティ・ティ アイティ株式会社(NTT-IT)様InfoBeeにご採用いただいております。
 ほかにも、
スマートフォンでの活用 互換性 Server Based Converter
にあるような活用法も考えられます。
 TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
 TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
 詳しくは、
システム製品技術相談会
をご覧の上、お申し込みください。
 最近、PDFからテキスト抽出をするときに困っていることが起きているので、明日は、それについて書いてみます。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

AH Formatterの強い味方「XSL Report Designer」

 アンテナハウスのAH Formatterは、世界各国で使われ、高い評価を得ています。最近では、「米国国税庁でAH Formatter 案件が進む」にあるように、アメリカの国税庁(IRS)でも採用されました。
 このように大変優秀なソフトですが、レイアウトを決めるには、XSL-FOとXSLTの知識と経験が必要です。
 習得すると、思い通りのレイアウトができますが、習得には時間がかかります。
 そこで、登場するのが、「XSL Report Designer」です。
 XSL Report Desingerを使うと、GUIの画面で、簡単に帳票のレイアウトを設計できます。
 設計したレイアウトとXMLのデータを組み合わせて、XSL-FOを生成して、AH FormatterでPDFにしたり、印刷したりできるようになるのです。
 どういうレポートが設計できるかは、
XSL Report Designer レポート設計サンプル

をご覧ください。
 AH Formatterを活用するソフトとして、XSL Report Designerは、海外でもご好評をいただいています。
 以前、通貨の出力を、ヨーロッパで使う形式、つまり、小数点を「,」、3桁の区切りを空白にできるかという質問がありました。
 たとえば、「1,234.56」ではなく、「1 234,56」で出力したいという要望です。
 XSL Report Designerは、国際化対応をしていますので、この要望にもお応えすることができました。
 XSL Report Designerについての詳しい説明は、
XSL Report Desinger
をご覧ください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


アウトライナー
PDFを解析して しおり・目次を自動生成

スマートフォンでの活用 セキュリティ Server Based Converter

iPhon4S発売されましたね。銀座のアップルストアでは、先頭に並んだ人が「火曜日から」とTVで言っていました。また、EM(イー・モバイル)からは、最小のスマートフォンも発表されましたね。色々と話題に事欠かないスマートフォンですが、ビジネス向けに考えた場合には欠かすことができない「セキュリティ」に関して考えてみたいと思います。
セキュリティのアプローチとしては、「端末」側と「サーバ」側での実装が考えられます。

    「端末」側

  • ロックをかける
  • 表示ファイルを残さない
  • 盗難、及び紛失時の対処
    「サーバ」側

  • 接続端末の選別
  • ログイン・ユーザの選別
  • アクセスできるファイルの選別

それぞれ、「アプリ」で対応でき色々な方法で実現できますが、「なりすまし」を防ぐのは難しく、完全に流出を防ぐことはできないのではないかと思われます。
そこで、4番目の対応です。
Server Based Converter にて、端末側からの要求ファイルに、「透かし」を入れてみてはどうでしょうか?
「社外秘/Confidential」「アクセス日時」「所属」「氏名」等を入れることにより流出元の特定にも役立ち、且つ、透明度を指定をすることができますので、文書の視認度も損なわずに済みます。
さらに、もう一段セキュリティを設けるとすれば、

  1. 画像(JPEG/PNG)へ「透かし」入りで変換
  2. 「1.」をユーザパスワード、及びPDFの各種セキュリティ付きPDFを作成

をしてしまうことのより、より強固に保護することができます。
上記は、一例ですが、Server Based Converter を使用することにより、使用感を損なわないでセキュリティをより強固にすることができますので、是非一度ご検討の上お試しください。
最後に、Server Based Converter の機能強化の予定として、「ユーザパスワード付きのMicrosoft Officeファイルへの対応」を検討しております。まだまだ、この機能を実装したバージョンのリリース日をお伝えすることはできませんが、この機能を実装することにより、変換元ファイルと同じパスワードでPDFを作成することも可能となり、自然災害など予期せぬ自体が発生し、パスワードを知る人がいなくなった場合においても、諦めることなく文書資産を生かせることができるようになります。
Server Based Converter
 
Server Based Converter デモサイト1(PC用、サムネイル作成)
Server Based Converter デモサイト2(透かし対応)




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

スマートフォンでの活用 互換性 Server Based Converter

PC並の性能を持ち始めている、と言いますか、ある種PCよりも利便性に長けているスマートフォン、欲しいですね。個人での購入であれば、仕事に打ち込み成果を得るか、何かを節約して購入することも可能ですが、大企業や中小企業でもビジネスで一括に大量購入するとなると、かなり難しいのではないかと思われます。
となると、段階的に購入することとなり、社内のシステムや利用しているサービス等は一世代前の携帯電話との互換性が求められてきます。
そこで、 Server Based Converter 及び、弊社他製品を利用してスマートフォンと一世代前の携帯電話と互換性のあるシステムを考えたいと思います。
携帯電話向けのシステムやサービスでは、接続している機種が型番までわかると思います。その情報を利用して

  1. 一世代前の携帯電話に関しては、低解像度のラスターを作成してブラウザ表示する。
  2. スマートフォンに関しては、高解像度のラスターを作成してブラウザ表示する。
  3. 上記2つに当てはまらない世代の携帯電話には、 TextPorter を利用しテキスト化してブラウザに表示する。

%E3%83%97%E3%83%AC%E3%82%BC%E3%83%B3%E3%83%86%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B31.png
非常に簡潔に記載しましたが、ラスター(JPEG/PNG/TIFF/MTIFF)化以外にも Server Based Converter ではPDFやFlash(SWF)、SVGに変換できますので、次世代スマートフォンへの対応も視野に入れることができると思っております。
Server Based Converter
 
Server Based Converterデモサイト1(PC用、サムネイル作成)
Server Based Converterデモサイト2(透かし対応)




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換
Pages: Prev 1 2 3 ... 59 60 61 62 63 64 65 ... 110 111 112 Next