カテゴリー別アーカイブ: 使用方法・利用例

OCRを使いこなそう…(1)

朝夕だいぶ冷え込むようになってきました。
弊社伊那支店の裏手には小さな川があって、その先はずっと田んぼが広がっています。
夏の頃には緑一色の中に真っ白なコサギが何羽も舞い降りてエサを探す様子が見えましたが、この頃は枯れ草色の田んぼに秋のやわらかな日が差し、遠くの山々の紅葉が秋の深まりを感じさせてくれるようになりました。

さて、皆さんは「OCR(オーシーアール)」というコトバをご存じでしょうか?

OCR は、Optical Caracter Recognition(光学的文字認識)の頭文字をとったもので、紙に印刷された文字をスキャナなどで読み取り、コンピュータで利用できる文字データに変換するソフトウェア技術です。

紙に印刷された情報はいったんスキャナなどでイメージデータに変換し、さらに OCR 処理をかけることで文字検索したり文書ソフトで編集するなど、再利用が可能なデジタル情報となります。
弊社の PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 は OCR 処理を搭載して、スキャナで作成した PDF やイメージデータから Word や Excel への変換を実現しています。

ただし、OCR は100%の読取りを保証できるものではありません。
OCR はイメージデータの中から特徴的な点の集合を抽出して文字の形を認識しますが、元の画像に歪み、汚れ、滲み、かすれなどがあると正しい認識ができません。
また、イメージデータには文字だけでなく写真や線の情報なども含まれるので、それらを適確に判別できないと正しい認識ができません。

OCR で文字化けが発生する原因としては概ね以下のことが考えられます。

  1. 紙の原稿にかすれや汚れがある場合
  2. 文字の上に網掛けや線が重なったり、文字と文字の間隔が狭い場合
  3. スキャナで読み取る際に文字の解像度が低かったり、歪みがある場合
  4. 文字に傾きや装飾があったり、文字の字体が特殊である場合
  5. OCR 処理で文字領域、画像領域などのレイアウトを正しく判別できない場合

瞬簡PDF 変換 9』 の OCR 処理でも残念ながらの上記の1.~4.は対応が難しく、その場合は原稿の取り直しをしていただくか、変換結果を手作業で修正していただくことをお願いしております。
ただし、5.に関しては手作業ではありますが、変換前に誤認識を予防する手段として OCR 補正機能をご用意しています。
OCR補正機能

次回 は、この機能について詳しくご説明します。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

OCRを使いこなそう…(2)>>


「PDF Tool API V6.0」新機能紹介

段々と涼しくなってきました。
秋になると紅葉を思い浮かべる方は多いと思いますが、これから咲く花もあります。職場の近くの散歩コースに四季桜があるのですが、ぼちぼち咲き始めています。これから満開になるのが楽しみです。冬の散歩は寒いですが…

現在、『PDF Tool API V6.0』の開発を行っています。
V6.0に搭載される機能を1つ紹介したいと思います。
その新しい機能というのは文字を検索してヒットしたらハイライト注釈でマークするというものです。下記は「美しい」という文字を検索して、ハイライト注釈でマークされたものです。

PDF Tool API

このPDFですが実は文字を書かれた順に取り出してみると「美うつくしい日本にほん」となっています。見た目と実際の文字の順番が違っている訳です。それ故、Adobe Reader で「美しい」を検索してもヒットしません。

『PDF Tool API V6.0』ではこのような場合でもヒットするようになっています。乞うご期待を。

● 製品詳細ページ
『Antenna House PDF Tool API 』

● PDF Tool API 説明書
『PDF Tool API V5.0 説明書 』


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
https://www.antenna.co.jp/pdfxml/


DITA の便利ツール

DITA でオーサリングをする際、初めにコンテンツ構造の計画を立てていると思います。
そして計画に対しレビューを行い、コンテンツの全体を把握した後に DITA ファイルを作成。このファイルを作成する作業がなかなか大変。
しかも一度 DITA ファイルを作成してしまうと手直しがまた大変。
コンテンツは大量にあるのでファイルを探すだけで一苦労です。

この作業が自動化できたらいいな、そんなことを考えたことはありませんか?

その悩みを解消してくれるツールがこの「ATL to DITA」(仮)です。

1.Excel ファイルでコンテンツ構造の計画を立てます。
グループ(第一階層)や階層レベル、chunk、タイトル、メタデータの情報を記載していきます。

atl_excel

Excel 画面

2.ツールの画面で Excel ファイルや出力先などを指定します。

atl_gui1

ツール画面1

atl_gui2

ツール画面2

※画面は開発中のものです

3.出力先のフォルダに DITA ファイルが作成されます。

atl_out1

出力ファイル1

atl_out2

出力ファイル2

atl_out3

出力ファイル3

階層に応じたマップが生成され、トピックには予め Excel で記載したタイトルやメタデータが挿入されます。

atl_out4 atl_out5

4.計画に手直しが入った場合はもう一度ツールを実行してください。

如何でしょうか?ちょっとした機能ですが、なかなか便利ですよね!

このツールは Java、Ant、XSLT を組み合わせて構成しています。

atl_architecture

構成

皆様は日々の業務でこういうものがあったら便利なのにな、といったものはございますか?
こういった便利なツールのご要望がございましたらアンテナハウスまでご相談ください!


focheck を使って XSL-FO のマークアップの妥当性を検証する

海外営業担当です。
本日は弊社アイルランドの社員 Tony Graham が開発しました focheck についてご紹介させていただきます。oXygen XML Editor をお使いの方必見です。最後までお読みいただくと focheck の使い方がわかります。ぜひお使いになってください。

XSL-FO を oXygen XML Editor でチェック

XSL-FO は、まずフォーマットオブジェクトとそのプロパティを表すために設計されました。 スキーマに準拠するようには設計されておらず、検証技術を考慮して設計されていませんでした。 その結果、XSL-FO ドキュメントの正当性をチェックする最良の方法は、AH Formatter でフォーマットしてログファイルを確認することでした。
Antenna House の focheck フレームワーク は、oXygen XML Editor を使用中に、Antenna House 拡張機能も含め、XSL-FO ファイルをチェックして修正することをついに可能としました。

フォーマッティングオブジェクトの構造

それぞれの FO に含めることができるものを定義する XSL 1.1 勧告 のコンテンツモデルは、単純です。 しかし、勧告にある記述は、しばしばコンテンツモデルに含まれない FO をも許容しています。
fo:marker はコンテンツモデルには表示されませんが、ほとんどの(ただしすべてではありません)FO の最初の子として使用が可能です。

1-focheck-marker.png
fo:change-bar-begin と fo:change-bar-end は、コンテンツモデルには表示されませんが、ほぼどこでも許可される、 地点を定義する  FO です。

2-focheck-change-bar-begin.png

fo:change-bar-begin と fo:change-bar-end には、スキーマで表現できないプロパティの制約もあります。
XSL 1.1 には、一部のFOが特定のタイプのFOの祖先または子孫として許可されないという制約も更に含まれています。 たとえば、fo:footnote は子孫として別の fo:footnote を持つことはできません。 明らかに、fo:footnote の祖先を持つこともできません。

3-focheck-footnote.png

プロパティ値

各 XSL-FO プロパティで許可されるタイプは、XSL 1.1 勧告で定義されています。 ただし、XSL-FO ファイルのプロパティ値は、必ずしも単一の値であるとは限りません。 ほとんどのプロパティは、 ‘2pt + 6em’ のような式にすることもできます。 AH Formatter は  ‘2pt + 6em’ を評価してから結果が正しいかどうかを判断する必要があります。 focheck は、AH Formatter のように、式を解析するパーサーを含んでいます。 focheck はプロパティ値の式を評価し、結果のタイプをチェックします。 ‘ from-table-column()’ などの XSL 1.1 で定義されているすべての関数名や Antenna House 拡張機能を認識し、パラメータをチェックしますが、まだ関数を評価していません。 AH Formatter とは異なり、focheck は、 ‘font-family’ や  ‘border’ など、異なる構文を使用するプロパティを一部解析しません。

4-focheck-property.png

警告を追加

focheck は、エラーではない条件についても警告することができるので、AH Formatter には問題はありませんが、おそらく意図したものではありません。 たとえば、fo:flow または fo:static-content に非標準の  ‘flow-name’ 値があり、 ‘region-name’ の値が一致するページ領域がない場合は、エラーではありません。fo:flow または fo:static-content は単に使用されないだけです。 これは設計によってというよりも偶発的に発生する可能性が高いため、focheck はこれらの不一致と、決して使用されない ‘region-name’ の値について警告します。

5-focheck-flow-name.png

XSL-FO のリストは、’provisional-label-separation’ と ‘provisional-distance-between-starts’ プロパティをfo:list-blockに設定し、なおかつ 各 fo:list-item-label  に ’end-indent’ を、各 fo:list-item-body に ’start-indent’ を設定してリスト項目のラベルと本文との間隔を指定します。 これらのいずれかが見つからない場合は、エラーにはなりません。 AH Formatter は、XSL 1.1 勧告に従って、各プロパティに対して継承または初期値を使用します。 しかし、これはおそらく期待したものではないので、プロパティのいずれかが見つからないときに focheck が警告します。

6-focheck-list.png

オーサリングのサポート

XSL-FO は手作業で作成することを目的としたものではありません。 ほとんどの人は XSLT を使用して XSL-FO を生成しています。開発者以外や、サポートスタッフあるいは AH Formatter をテストまたは文書化している人以外に手作業で XSL-FO をオーサリングする必要のある人はほとんどいません。 ほとんどの人にとって、XSL-FO をオーサリングする唯一の理由は、後で XSLT 変換の出力として自動的に生成されるものを試作することです。

XSL-FO をオーサリングする必要がある場合、focheck は、現時点で許可されている FO またはプロパティのリストを提供してくれるので、役に立ちます。

7-focheck-structure-editing.png

また、FO 又はプロパティを説明するポップアップツールチップを表示することもできます。

8-focheck-tool-tip.png

また、focheck では問題の報告だけでなく、XSL-FO の一般的な問題をいくつか修正する「クイック修正」も行うことができるようになっています。例えば、上記のような警告があれば、クイック修正をします。

focheck を入手する

focheck は、2015年にリリースされた oXygen 17 以降の oXygen XML Editor にバンドルされています。ただし、oXygen の focheck バージョンは 2015 年以降に更新されていません。最新の focheck バージョンを入手して、 oXygen アドオンとして focheck をインストールすることができます。
GitHub から focheck をインストールするには:

  1.  [ヘルプ] メニューから [新しいアドオンをインストールする] を選択します。 9-focheck-help-new-add-on-install.png
  2. アドオンの場所にhttps://github.com/AntennaHouse/focheck/raw/master/add-on-ja.xml を入力し、「focheck」を選択してインストールを続行します。10-focheck-new-add-on-install.png

仕組みの説明

focheck は、RELAX NG スキーマと Schematron を oXygen フレームワークに同梱しています。 RELAX NG スキーマは、FO の構造に関する規則の大部分、およびプロパティがどの FO に適用されるかの規則を提供しています。 Schematron は、プロパティ値の解析など、RELAX NG で表現できない制約をチェックします。 パーサーは、XSLT として実装され、それは REx パーサジェネレータによる言語構文用の EBNF のバージョンから生成しています。
正確度を保証するために、RELAX NG、Schematron for XSL 1.1 FO およびプロパティの大部分は、XSL 1.1 勧告の XML バージョンにある XSLT を実行することによって自動的に生成します。

ライセンス

focheck はオープンソースであり、Apache License、Version 2.0 の元、ライセンス許容されています。

アンテナハウス海外サイト
http://www.antennahouse.com/
http://rainbowpdf.com/

AH Formatter関連ページ:focheck(oXygen アドオン) – XSL-FO と AH Formatter 拡張仕様のバリデータ


『AntennaHouse AHPDFXML 変換ライブラリ』の用途は?

『AntennaHouse AHPDFXML 変換ライブラリ』は PDF を XML に変換するライブラリです。お客様から、XML に変換することでどのような用途に利用できるか?との問い合わせを度々頂きます。

そこで今回は、XML 変換することで、どのような事が出来るのか、活用方法をいくつかご紹介致します。

  • PDF コンテンツの活用
    ・PDF に入っている画像を抜き出し、画像の活用。
    ・表だけを抜き出し、データベースへ転用。
  • 位置情報の取得で、意味のあるテキストを抜き出し
    ・帳票の決まった位置にあるテキストを取得して帳票の振り分けや、データベースへ転用。
  • PDF からの変換、再構築
    弊社 AHFormatter を合わせて利用することで、
    ・PDF から HTML、EPUB、DocBook 形式等への変換に利用。
    ・元の PDF のレイアウトを変更して再度 PDF の生成に利用。
  • PDF チェッカーとして活用
    ・出力した XML を比較して改定箇所のチェックに利用。
    ・フォント(フォントタイプ・サイズ)情報、版面のサイズを取得。

評価版をご用意しております。
AntennaHouse AHPDFXML 変換ライブラリ 評価版のお申し込み

是非使ってみてください。

AntennaHouse AHPDFXML 変換ライブラリ
https://www.antenna.co.jp/pdfxml/


Office Server Document Converter の活用法(2)

■ TextPorterと組み合わせた文書管理システム

企業や組織においては、毎日、膨大な数の文書が、Microsoft Office で作られています。それを紙に印刷していたのでは、保管も閲覧も大変です。そこで、これらの文書を電子文書のままファイリングし、管理する文書管理システムが作られています。
ここで、Office Server Document Converter と、弊社のサーバ製品の1つである TextPorter が活躍しています。TextPorter は、Microsoft Office 文書やPDFから、テキストを抽出する製品です。

システムのイメージは、
Office Server Document Converter 活用例
にある
サムネイルサーバ
を発展させたものと思っていただけるといいです。

Office Server Document Converter によって、文書からサムネイルを生成することで、ファイル名だけではわかりにくい文書の見分けも簡単にできるようになります。
そして、TextPorter で文書からテキストを抽出して、全文検索システムで検索できるようにしておくことで、目的の文書をすばやく探し出して、そのサムネイルをみて、実際の文書を引っ張り出せるようにするわけです。

TextPorterに関する詳しい情報は、
https://www.antenna.co.jp/axx/
を、ぜひ、ご覧ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail:sis@antenna.co.jp
URL : https://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。


Office Server Document Converter の活用法(1)

■ ファイルの無害化

Office Server Document Converter は、Microsoft Office 文書の変換においてマクロを実行しません。 したがって、マクロ内に不正なコードが合った場合にもその実行は行われずに PDF や画像、SVG, Flash といった形式のファイルを生成できます。
PDF に関しても Script を実行することはないので画像や SVG, Flash といった形式のファイルを生成できます。また、PDF から PDF への変換も可能です。
企業ユーザ様、特にグローバル企業では、様々なファイルを日々受け取っていることと思われます。そのような場合でもよりセキュアな状態でファイルを取り扱うことが可能となります。
また、官公庁や学校等で使用するファイルに関しても、Office Server Document Converter でいろいろな形式に変換することにより、より確実に無害化されたファイルを取り扱えるようになります。

Office Server Document Converter:PDF生成サーバ

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : https://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Office Server Document Converter 評価版のお申し込み
から、お申し込みください。


Web Interface for OSDC のリリース

Web Interface for OSDC』は、サーバ上のファイル変換ソフトをインターネット経由で遠方のクライアントから簡単に使用できる便利なソフトウェアです。サーバ側とクライアント側のパソコンに必要なソフトをインストールするだけで、新規にプログラムを開発することもなく、すぐに運用を開始できます。
変換には、『Office Server Document Converter V6.1』以降で使用できます。

インターネット経由でサーバ上のファイル変換ソフトにリクエストを送信し、結果をクライアントで受け取る方式です。クラウドを利用した大規模な Web サービスシステムも簡単に構築できます。

サーバ側とクライアント側のパソコンに必要なソフトをインストールするだけで、すぐに運用を開始できます。クライアントからのリクエストは『Office Server Document Converter』のコマンドラインインターフェイスと同じパラメータを用いたバイナリを提供します。コマンドのサンプルも多種ご用意しています。

Web Interface for OSDC』は、サーバプログラムとクライアントプログラム、フォルダ監視サービスから構成されます。各プログラムは Java で設計されており異なるプラットフォームの相互間でインターネットを超えて連携することができます。

【基本機能】

  • プログラムレスでサーバ運用が可能
  • 簡単なコマンドでリクエスト送信
  • Windows、Linux の相互間で通信
  • フォルダ監視サービスで更に簡単利用

詳しくは、Web Interface for OSDCをご覧ください。

〒103-0004
東京都中央区東日本橋2-1-6 東日本橋藤和ビル5F
アンテナハウス株式会社
◆ご購入に関するお問い合わせ(祝日を除く月~金曜日9:30~18:00)
TEL : 03-5829-9021
FAX : 03-5829-9023
E-mail: sis@antenna.co.jp
URL : https://www.antenna.co.jp/

Office Server Document Converter は、Microsoft Office, PDF などのファイルを、PDF, Flash, SVG, 各種画像形式にダイレクトに変換する変換エンジンです。 ダイレクト変換の意味は、たとえば、Microsoft Office がない環境でも、ファイルさえあれば、それをダイレクトに内容を見える形式に変換できるのです。ダイレクト変換には、Microsoft Office のライセンスも不要です。
Office Server Document Converter は、ダイレクト変換というユニークさが評価され、多くのウェブサービス、パブリッククラウド、プライベートクラウドなどで利用されています。

Office Server Document Converter に関する詳しい情報は、
Office Server Document Converter
を、ぜひ、ご覧ください。

評価版もご用意しております。
Web Interface for OSDC 評価版のお申し込み
から、お申し込みください。


Pages: Prev 1 2 3 4 5 6 7 8 9 10 11 12 Next