タグ別アーカイブ: PDF

「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「瞬簡PDF統合版」と「瞬簡PDF統合版官公庁向け」の違い

「瞬簡PDF統合版10」の発売は来週です!!

来る10月27日、お待たせしております「瞬簡PDF 統合版 10」(以下、通常版と表記)の販売を開始いたします。家電量販店の店頭販売やネットショップ、弊社のオンラインショップ等で一斉に販売されます。

瞬簡PDF 統合版 10」は、前バージョン「瞬簡PDF 統合版 9」と製品の構成は変わっていません。「瞬簡PDF 作成 7」を「瞬簡PDF 作成 8」へ、「瞬簡PDF 編集 6」を「瞬簡PDF 編集 7」へ、それぞれバージョンアップしています。特に新バージョン「瞬簡PDF 編集 7」は多くの機能追加や機能向上を実現した、今回一押しの製品です。

ところで、「瞬簡PDF 統合版 10」(通常版)に先んずること3か月も前の8月から、「瞬簡PDF 統合版 10 官公庁向け」という製品を先行販売しています。以下、官公庁向けと通常版の違いやご購入等について簡単にご紹介します。

「瞬簡PDF統合版10 官公庁向け」は2つの製品を追加

瞬簡PDF 統合版 10」(通常版)に対して、「瞬簡PDF to Image」と「瞬簡PDF サイン2」を追加した製品が「瞬簡PDF 統合版 10 官公庁向け」になります。

「瞬簡PDF to Image」は単体販売していますので、個別に追加購入することも可能ですが、「瞬簡PDF サイン2」は単独での販売は行っておりません。もし、PDFの電子署名付与や検証などが製品の要件としてあるようでしたら、「瞬簡PDF サイン2」を含む「瞬簡PDF 統合版 10 官公庁向け」をぜひご検討ください。

なお、「瞬簡PDF 統合版 10 官公庁向け」は製品名に「官公庁」と入っておりますが、ご利用を官公庁様のみに限定しているものではなく、民間の企業様、団体様も特に支障なくご利用いただける製品です。

瞬簡PDF 統合版 10 官公庁向け」の販売形態はサイトライセンス(10ライセンス以上)など企業・団体様向けライセンス販売のみで、単品でのお取り扱はございません。価格はデスクトップ製品のライセンスのページをご覧ください。


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(2)

PDFを再利用する場合、元となるPDFは内容によって以下の2種類に分けることができます。

1)テキストが含まれているPDF
2)テキストが含まれない画像だけのPDF

1)の「テキストが含まれているPDF」とは、WordやExcelなどで文字入力しPDF化したものが該当します。
このようなPDFからの変換には、『瞬簡PDF 変換 9』が適しています。

瞬簡PDF 変換 9』は、PDFにテキスト・データが含まれていればそれを解析してWordやExcelに変換します。テキスト・データをそのまま変換するため文字化けしたりすることなくWordやExcel形式に移して再利用可能になります。

変換されたいPDFにテキスト・データが含まれるかどうかは、Adobe Reader などでPDFを表示して[編集]メニューから[すべて選択]をクリックしてみてください。
テキスト・データが以下のように反転表示されれば、テキストが含まれるPDFだと判別できます(※)。

pdf

テキストをすべて選択

 

※ スキャナーで作成された画像には、スキャナーがOCR処理をかけてテキスト・データをPDFに埋め込むことがあります(透明テキストつきPDF)。この場合は同じようにテキスト部分が反転して表示されます。

2)の「テキストが含まれない画像だけのPDF」とは、紙の書類をスキャナーで読み取ってPDF化したものなどが該当します。
このようなPDFは文字と見える部分も画像でしかないため、そのままWordやExcel形式に変換しても編集のできない画像が貼り付きます。
このようなデータに対しては「OCR」といって画像から文字を認識する機能を使うことでテキスト・データを取り出すことができます。ただし、OCR処理では画像の状態により文字が正しく認識できず、文字化けしてしまうことがあるため注意が必要です。

紙に印刷された内容をWordやExcelで再利用されたい場合は、『瞬簡PDF OCR』が適しています。

瞬簡PDF OCR』はOCR専用製品で、スキャナーからの直接読み込みにも対応しています。
読み込んだ画像はOCR処理し、誤認識した文字を画面上で修正したり編集したりしながら、変換結果に反映させることができます。
(製品の仕様上、常にOCR処理をかけるため、テキスト・データがあらかじめ含まれているPDFを変換する用途には適しません。)

なお、『瞬簡PDF 変換 9』にもOCR機能があり、画像データからテキスト・データを認識して変換することができます。
ただし、スキャナーからの読み込み機能や誤認識した文字を画面上で修正する機能はありません。

瞬簡PDF OCR』は紙の書類の再利用をされたい場合に適しているのに対し、『瞬簡PDF 変換 9』は内容に関わらず複数のPDFを一括して変換されたいような場合に適していると言えます。

どういったPDFを再利用されたいかによって、いずれの製品を選択するかご検討いただければ幸いです。

PDFをWordやExcelに変換したいけれど、望み通りに変換してくれるか心配…

PDFをWordやExcelに変換したいとお考えの場合、どれだけ正確に変換できるかが気になることと思います。
上記2つの製品にはそれぞれ体験版をご用意しておりますので、その変換精度や使い勝手を事前にご確認いただくことができます。

ただし、体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつのPDFについて、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』、または『瞬簡PDF OCR 体験版のお申し込み』をそれぞれご参照ください。


PDFをWordやExcelに変換したいけれど、どんな製品がいいのかよく分からない…(1)

弊社伊那支店の近くには、春に桜で賑わう高遠という町があります。
江戸時代は高遠藩の城下町だったところで、そこかしこに古い時代の面影が残り普段はとても閑かな町です。
そこは、高遠石工と呼ばれる石工集団が活躍したところでもあり、城下の寺には名工といわれた守屋貞治が刻んだ数々の仏さまが遺されています。

正観世音菩薩

正観世音菩薩

写真が下手でうまく伝えられませんが、石なのに柔らかくて温かい表情が何ともいえず好きです。時間と興味のある方は、是非一度現地を訪ねてみてください。

閑話休題。

PDFは紙に代わるデジタルな文書形式として、すっかり身近なものになりました。もともとは閲覧や印刷用途で普及したPDFですが、WordやExcelのように自由に編集して再利用したいというニーズも必然的に増えています。

そのようなニーズに応えてご用意しているのが、弊社のパッケージ製品『瞬簡PDF 変換 9』と『瞬簡PDF OCR』です。

いずれも、PDFをWord(ワード)/Excel(エクセル)/PowerPoint(パワーポイント) の各文書形式に変換することでPDFの再利用が可能な製品です。

なぜPDFから変換をするのに2つも種類があるの? とは、よくお問い合わせをいただくご質問です。

次回は、2つの製品の違いを元になるPDFの観点からご説明します。


「Antenna House AHPDFXML 変換ライブラリ V2.0」の利用例

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

「AHPDFXML形式」で表現された様々な情報から、必用な情報を読み取ることでPDFのデータを簡単に再利用できます。

  • 文字や画像の位置情報を利用することで、任意の範囲に含まれるデータを取り出せます。
    例えば、アンケートに使用したPDFの回答欄の文字列だけ取り出すことができます。
    例えば、特定の文字列や画像を含むPDFを探すことができます。
  • 表構造をデータベースに取り込むことにより、データのグループ化がおこなえます。
    PDFには表と言う概念はありませんが「AHPDFXML形式」は、表構造(行列及びセル)を生成します。
    これにより、文字としてでは無く、表としてデータを再利用できます。
    例えば、表構造をCSVに落とすことにより、表計算ソフトに取り出込めます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の概要

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

PDFのデータは、文字、線、画像などが配置されているだけで、文字は見た目順に格納されているとは限らず、段落や表と言う概念もありません。本ライブラリでは、PDFのデータを単にXML化するだけで無く、文書構造を生成して、再利用に適したXMLデータを出力します。「AHPDFXML形式」として出力される主な情報は次の通りです。

  • 段落、行、パラグラフなどの文書情報を生成。
  • 線画情報から、水平/垂直の線分を抜き出して、表構造(行列及びセル)を生成。
  • 文字を見た目順に再配置してから出力。
  • 文字情報は、位置、フォント情報などを出力。
  • 画像情報は、位置、種別などを出力。
  • 画像本体は外部ファイルとして出力。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「瞬簡PDF 書けまっせ 7」ユーザーズマニュアル好評発売中

『瞬簡PDF 書けまっせ 7』など瞬簡PDFシリーズのパッケージ版に同梱する紙のマニュアルは、かなり以前よりスタートアップガイドだけになっていて、製品マニュアルはPDFファイルという形で電子データとして製品に同梱されています。

しかし紙のマニュアルを読みたいというご希望も多くいただいているため、『瞬簡PDF 書けまっせ 7』のユーザーズマニュアルを冊子(紙の本)でお求めいただけるようになっています。これはAmazonなどのプリント・オン・デマンドサービスを利用していて、下記サイトからお買い求めいただくことができます。

『瞬簡PDF 書けまっせ 7 ユーザーズマニュアル オンデマンド(ペーパーバック)』
 Amazon https://www.amazon.co.jp/dp/4900552313/
 楽天ブックス http://books.rakuten.co.jp/rb/14513699/
 honto https://honto.jp/netstore/pd-book_28123752.html

製品インストール後に利用できるPDFマニュアルはA4の用紙にプリンターで印刷することを想定していますが、POD(プリント・オン・デマンド)版のマニュアルは、冊子用に最適化した版面、誌面レイアウトになっています。
紙のマニュアルでじっくり読みたいという方はぜひご利用ください。

他にも『瞬簡PDF 作成 7』製品マニュアルが好評発売中です。
『瞬簡PDF 作成 7 ユーザーズマニュアル オンデマンド(ペーパーバック)』
 Amazon https://www.amazon.co.jp/dp/4900552240/


「瞬簡PDF 書けまっせ 7」で差込印刷(3)

前回までで納品書はいったん完成しました。
しかし、データが納品書の行数を超えるほど多い場合はどうなるのでしょうか? たとえば1ページでは収まらないほど納品データがあった場合、データが無くなるまでページを複写して繰り返すことになります。
データを繰り返し差し込むときの挙動には大きく分けて2種類あります。「全ページ差込」というパラメータがONのときとOFFのときです。(デフォルトはONです)

全ページ差込がONの場合、次の図のようにデータが無くなるまで全ページを複写して繰り返します。

全ページ差込がOFFの場合、[データリピート]というパラメータが関係します。下図のように初めて[データリピート]ONのフィールドがでてきたページのみをデータが無くなるまで繰り返します。

全ページ差し込みOFFはデータを繰り返したいフィールドと繰り返したくないフィールドが混在している場合に使います。

納品書のケースで実際に試してみましょう。
まずデフォルト状態のままで大量のデータを送るとどうなるか試してみます。このデータはテスト用に明細を8行から20行に増やしてあります。
これをセットして印刷するとどうなるか? 印刷プレビューで確認してみましょう。

1ページ目は問題ありませんが、2ページ目を見ると表示がおかしいことが分かります。これは納品先の会社名や日付、納品元の情報が入るべきフィールドに明細データが流し込まれているためです。
デフォルトではすべてのフィールドがデータを繰り返し差し込む対象となるため、このようになってしまうわけです。

まず[差込]タブにある[全ページ差込]のチェックを外したあと、納品先、日付、納品元に関するフィールドをすべて選択状態にして[データリピート]のチェックを外してください。

これで2ページ目も正しく出力されます。

このようにデータを繰り返し挿入したくないフィールドは[データリピート]をOFFにしてください。

 


「瞬簡PDF 書けまっせ 7」で差込印刷(2)

前回に続き「瞬簡PDF 書けまっせ 7」での差込印刷機能について解説していきます。

前回で文書にフィールドを挿入してデータを差し込むところまでできました。このまま印刷でもかまわないのですが、もう少し見た目をよくするためアレンジすることにします。

「商品名」は左端に少し余白を入れ、「数量」は右揃え、「単位」は中央揃え、「単価」、「金額」は右揃えにしてカンマをつけたいところです。

まず「選択モード」が選択されていることを確認してください。

「品番・商品名」列のフィールドをすべて選択します。[Ctrl]を押しながらクリックしていけば複数選択ができます。もしくは列全体を含む範囲をドラッグすることで一度に選択することも可能です。
選択できたら[テキスト]タブを選び、[文字配置]カテゴリの「左右余白」の数値を「2.0」にします。

「数量」列のフィールドをすべて選択して[テキスト]タブ[文字配置]カテゴリのドロップダウンから「右寄せ(中央)」を選びます。このままだと右端ギリギリに配置されてしまうので「左右余白」を「2.0」にします。同じく「単位」列のフィールドを選択して「中央揃え(中央)」を指定します。
「単価」列、「金額」列のフィールドは「右寄せ(中央)」にして「左右余白」を「2.0」に、[表示形式]カテゴリにある「」ボタンを押してください。これで3桁ごとにカンマがつくようになります。

すべてできると次のようになります。(見やすくするためにガイド色、差込順序を非表示にしてあります)

完成した状態をプロジェクトファイルとしてダウンロードできるようにしておきました。差込サンプル
Excelデータと一緒にZIP圧縮されていますので解凍して「瞬簡PDF 書けまっせ 7」で「差込サンプル.wppx」を開けば上記を再現することができます。


Pages: 1 2 Next