カテゴリー別アーカイブ: 使用方法・利用例

瞬簡PDF 変換の便利機能 -その2-

『瞬簡PDF 変換』の変換以外の機能を紹介していますが、
今回、第2回目は「テキストの抽出」機能です。

PDFファイルに入っている文字だけを再利用したい。
そんな場合に便利なのが『瞬簡PDF 変換』の抽出機能です。

抽出元となるPDFが、テキスト情報が格納されているPDFの場合、
『瞬簡PDF 変換』の操作画面の上部に並んでいるアイコンから
「抽出」のアイコンを選択すると、
画面中央の抽出ファイルに「テキストを抽出(.txt)」が
選択できるようになります。

テキストの抽出

テキストの抽出

この状態で「実行」ボタンをクリックすると
PDF内に格納されているテキストデータのみを取り出して
テキストファイルとして出力することができます。

また、スキャナなどで作成した、画像データのみが格納され
文字情報が入っていないPDFの場合は、
『瞬簡PDF 変換』の操作画面の上部に並んでいるアイコンから
「OCR」のアイコンを選択してください。

OCRを使ったテキストの抽出

OCRを使ったテキストの抽出

すると、画面中央の抽出ファイルに「OCR結果をテキストとして出力(.txt)」が
選択できるようになりますので、選択して実行を行うと、
OCRがPDF内の画像を読み取り、読み取った結果の文字を
テキストファイルとして出力します。

なお、抽出前に設定を行うことで、抽出するテキストファイルの
文字コードも指定可能となっています。

是非一度お試しください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


アウトライナー
PDFを解析して しおり・目次を自動生成

瞬簡PDF 変換の便利機能 -その1-

PDFファイルをOfficeファイルに変換する『瞬簡PDF 変換』ですが、
実はOfficeファイルへの変換以外にも便利な機能を搭載しています。
そんな機能を3回に分けて紹介していきたいと思います。
第1回目となる今回は「OCR結果をPDFファイルに埋め込む」機能です。

OCR機能を搭載していないスキャナで紙の原稿を取り込みPDF化すると、
画像データのみが格納されたPDFが作成されます。
このようなPDFファイルは内部に文字情報が入っていないため
ファイル内の文字検索を行うことができません。
しかし、そんなPDFでも『瞬簡PDF 変換』を使用して
PDF内に透明テキストを埋め込むことで、
文字検索が可能なPDFにすることができます。

『瞬簡PDF 変換』の操作画面には、
画面上部に変換先を選択するアイコンが並んでいます。
その中にある「OCR」のアイコンを選択すると
画面中央の変換形式に「OCR結果をPDFファイルに埋め込む(.pdf)」が
選択できるようになります。

透明テキスト付きPDFの作成

透明テキスト付きPDFの作成

この状態で「実行」ボタンをクリックすると
OCRがPDF内の画像を読み取り、読み取った結果の文字をPDF内に
透明テキストとして埋め込んで出力します。

簡単な操作で、より使いやすいPDFファイルが作成できるので
是非一度お試しください。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

「書けまっせPDF5」で確定申告!その(1)

この時期になるとそろそろ確定申告の心配をされる方もおられるのではないでしょうか?
この稿では、「書けまっせPDF5」を使って確定申告書へ記入される場合の便利な機能についてお伝えします。

住所、氏名、生年月日

確定申告書でまず初めに記入するところは、住所、氏名、生年月日などの欄ですね。
ここでは、「確定申告書A」を例にとって説明します。

確定申告書の特長は数字を入れる欄が1字ごとの枠になっていることです。このため、それぞれにテキストボックスを作成して数字を入れていくのでは、かなり手間がかかってしまいます。
その場合は、「書けまっせPDF5」の桁割り機能がとても便利です。

桁割り機能については、本ブログの以前の記事『「書けまっせPDF」定番の便利機能(2/3)― 桁割とは?』でもご紹介しましたので、ご記憶の方も多いかと思います。

ここでは、申告書の郵便番号欄を例にとって簡単に説明します。詳細については上記記事をご参照ください。

  1. 初めに、親番号の欄を囲む形でテキストボックスを作成して、3桁の数字を入力します。
    郵便番号

    郵便番号

  2. 次に、テキストボックス・プロパティで「自動フォントサイズ」にチェックをつけます。これで、枠の大きさに合わせて自動的に数字のサイズを変更することができます。
    自動フォントサイズ

    自動フォントサイズ

  3. 最後に、同じくテキストボックス・プロパティで「桁割り」の欄を指定し、桁数を”3″に変更します。これで、3桁の郵便番号欄に数字をきれいに配置できます。
    自動フォントサイズ②

    自動フォントサイズ②

同様の手順で残りの郵便番号、住所、氏名、生年月日と、ついでに印鑑も入れてみましょう。
できあがりは、こんな感じです。

住所、氏名、生年月日

住所、氏名、生年月日

いかがでしょうか?

ここまでで使用した「書けまっせPDF5」の機能は、以下の4つになります。

  • テキストボックスの作成
  • 自動フォントサイズの指定
  • 桁割りの指定
  • 印鑑の作成

慣れないうちは思い通りに行かなくてイライラしてしまうこともあるかも知れませんが、同じことの繰り返しですので、まずは「習うより慣れろ」でやってみてください。

明日は、金額欄に挑戦してみましょう。

※「書けまっせPDF5」は弊社オンラインショップ からご購入いただけます。「書けまっせPDF5」の詳細は製品の紹介サイトをご覧ください。




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


HTML on Word
WebページをWordで作る!

「AH PDF Server V3」次期改訂版(3)機能拡張コマンドプログラム

「AH PDF Server V3」次期改訂版について、最終回です。

 「AH PDF Server V3」のフォルダ監視変換では実装しにくい機能を個別のコマンドプログラムとして提供するのが「機能拡張コマンドプログラム」になります。実際には一部のお客様には提供した機能なのですが、次期改訂版からすべてのお客様に提供する事にしました。ただし、対応するのはプロフェッショナル版とコマンド版のみとなります。

 前々回にも少し触れましたが、フォルダ監視変換では設定は基本的に全てのファイルで同じ設定を使う事になります。そのため、例えばセキュリティ解除では同じパスワードなら問題ないですが、ファイルによって異なるパスワードの場合は対応出来ません。そういった機能で要望があったものを「AH PDF Server V3」の本体設定とは別に個別のコマンドプログラムとして対応し、機能拡張として提供します。

 主にWebアプリケーションや他システムから「AH PDF Server V3」のコマンドプログラムを呼び出して利用している(利用を考えている)お客様に対しての機能提供となりますが、提供する拡張機能については少し説明します。

【セキュリティ解除】

 「AH PDF Server V3」で処理するPDFにはセキュリティが掛っていないことが前提になっています。本来、セキュリティを掛けたPDFファイルというものは処理される事を前提にしていないため、このような仕様にしています。

 この考え方は基本的には変わりは無いのですが、それでも組織内に限って言えばセキュリティを外したい場面はあるようです。そのために今回、機能拡張として提供を決めました。セキュリティを解除するにはパスワードを知ってる必要があるので、パスワードが分からないPDFのセキュリティを解除する事は当然出来ません。

【ページ削除】

 PDFファイルの特定のページ、もしくはページの範囲を削除する事が出来ます。これにより、不要なページを省く事が可能です。

【ページ抽出】

 ページ削除とは逆に、必要なページのみを抽出します。指定方法が個別のページや範囲などを組み合わせて指定できるので(例えば「2,4,5-9,23」と指定すると2ページ、4ページ、5ページから9ページ、23ページを抽出する事が出来ます)ページ削除よりも柔軟に使う事が出来ます。

【ファイル添付】

 PDFファイルに任意のファイルを添付する事が出来ます。1ファイルだけならコマンドにパラメータを記述するだけで添付できますし、複数の場合は添付したいファイルのパスを複数記述したテキストファイルを指定する事により複数ファイルを一度に添付できます。

 いずれの機能拡張コマンドプログラムも元ファイルの削除や変更を行う事は無く、新たなPDFファイルを生成します。

 これらのコマンドは次期改訂版がリリースされたら評価版でも確認して頂けます。お役立て頂ければ幸いです。




HTML on Word
WebページをWordで作る!


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

「AH PDF Server V3」次期改訂版(2)アドイン変換

 「AH PDF Server V3」の次期改訂版で追加される「Word」と「Excel」のアドイン変換について少し触れたいと思います。

 アドイン変換自体は前回も書きましたが「PDF Driver」の機能の1つで、アドインを登録するとMicrosoft Office(Word/Excel/PowerPoint)の各編集画面に「アドイン」メニューが追加されてアンテナハウスのアドインボタン(設定と変換)が表示されます。そこで設定したりPDFに変換したりする事によって通常のPDF変換(印刷によるPDF変換)では出来ない事を可能にしています。

 具体的な設定画面は以下のようになっています。

「Word」の変換設定画面

「Word」の変換設定画面

「Excel」の変換設定画面

「Excel」の変換設定画面

 実際にアドイン登録された状態でMicrosoft Office(Word/Excel)を開き、アドインメニュー内の設定のアイコンをクリックして表示してみると分かると思いますが、ほぼ同じ設定が可能になっています。

 要望として多いものは「Word」の「見出し」などのスタイルをしおりにする事と、「ハイパーリンク」をPDFでも有効にする事です。この2つは割合定期的に要望が寄せられます。また、PDFに変換した時に、オリジナルのファイルと少しレイアウトなどが変わってしまうケースがあるのですが、お客様によってはオリジナルのファイルを添付する事によってそういう事態を回避したいという要望もあります。

 注意点としては従来の変換の設定とアドイン設定は排他設定になっている事です。要するに「従来の設定での変換」か「アドインを使った変換」かのいずれかになります。これに関しては変換方法が異なるため、どうしても両立出来ません。

 いずれにしても「Word」や「Excel」の変換が多いお客様にとっては便利な機能追加だと思います。

PDF Server 製品ページ
●製品お問い合わせ先 システム製品営業
 e-mail:sis@antenna.co.jp
TEL:03-5829-9021




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

「AH PDF Server V3」次期改訂版について

 「AH PDF Server V3」は現在、改訂版リリースに向けて作業を行っています。リリース時期は8月末から9月にかけてを予定しています。

 今回の改訂版はお客様から要望があった機能を少し追加しました。バージョンアップというほどの大きな機能追加ではありませんが、意外に「あれば嬉しい」機能の追加だと思います。
 そして、今回の機能追加は以下の2点となります。

 ・「Word」「Excel」ファイルのアドイン変換
 ・機能拡張コマンドプログラム

 「Word」と「Excel」のアドイン変換というのは、PDF Driverの機能の1つに「Word」や「Excel」の編集画面上で「アドイン」メニュー内に表示されるアドインボタンを使用してPDFに変換する機能があるのですが、それを「AH PDF Server V3」上から利用して変換するものです。

 この機能を用いると、例えば「Word」なら「見出し」などのスタイルをしおりに変換したり、ハイパーリンクを有効にしたり、目次をリンクに変換したりする事が出来ます。

 機能詳細についてはこちら(https://www.antenna.co.jp/pdv/function04.html)です。

 機能拡張コマンドプログラムと言うのは、特定の機能だけをコマンドラインプログラムにしたものになります。具体的には「PDFのセキュリティ解除」「PDFのページ削除」「PDFのページ追加」「添付ファイルの追加」になります。

 「AH PDF Server V3」のフォルダ監視による変換では定型の設定による変換が出来ますが、これらの機能はなかなか定型の設定では対応出来ない機能であり、ファイルによって設定内容が異なる事が当たり前の機能と言えます。

 ただ、「AH PDF Server V3」のコマンドライン機能を使ってWebアプリケーションや他システムから呼び出すような形でご利用の場合、変換のたびに設定を変更する事が可能なため、「AH PDF Server V3」の機能を拡張するために「コマンドラインプログラム」として提供する事にしました。

 「機能拡張コマンドプログラム」はプロフェッショナル版とコマンド版のみのご提供となりますのでご注意下さい。

 次期改訂版で追加する2つの機能については2回に分けてもう少し説明したいと思います。

PDF Server 製品ページ

製品についてお問い合わせ
e-mail:sis@antenna.co.jp
TEL:03-5829-9021




瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!


アウトライナー
PDFを解析して しおり・目次を自動生成

PDF Viewer SDK で PDFテキスト抽出

Antenna House PDF Viewer SDKはPDF表示のためのSDKですが、表示以外にも PDFファイル内のテキストを抽出することができます。今回はこの機能をご紹介したいと思います。

テキスト抽出に利用するのはSDKの PDFViewerAPI です。
開発言語は C/C++ が利用できます。

矩形内テキスト取得(getTextInRect)

ページとそのページの矩形を指定してテキストを抽出します。

 例)矩形 (4535, 3798)-(7933, 4535) → テキスト “UVWXYZ”

矩形内テキスト取得画面

 座標系は、原点は左上、x軸は右方向、y軸は下方向に増加します。
 長さの単位はTWIPで1/20ポイント、1/1440インチに相当します。
 TWIP は「Twentieth of an Inch Point」の略だそうです。

 1インチは 25.4mm ですので、
 1 mm = 1440/25.4 TWIP ≒ 56.69 TWIP の計算になります。

 例1 の矩形は、mm 単位では (80.0, 67.0) – (141.0, 80.0) になります。

文字単位でのテキストおよび座標の抽出(getPageTextString/getPageTextRegion)

ページと、そのページ内での文字の開始位置と終了位置を指定して、テキスト(getPageTextString)もしくはテキスト領域(getPageTextRegion)を取得します。

  • 例)開始位置 20、終了位置 26 → テキスト “UVWXYZ”
  • 例)開始位置 0、終了位置 1  → テキスト “A”
文字単位でのテキストおよび座標の抽出 (getPageTextString/getPageTextRegion)

文字単位でのテキストおよび座標の抽出
(getPageTextString/getPageTextRegion)

(開始位置, 終了位置)=(0, 1), (1, 2)のように進めることで、PDF内の文字との文字領域を順に取得することもできます。

なお、テキストの順序は PDFのページに文字コードが現れる順になります。
PDFによっては必ずしも見た目の順と一致しない場合がありますので、注意が必要です。

以上、PDF表示以外での利用方法のご紹介でした。
 
評価版のお申し込み:
https://www.antenna.co.jp/oem/ViewerSDK/trial.html
お問い合わせ:
SDKはOEM販売となります。OEMご相談窓口へお問い合わせください。




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識
Pages: Prev 1 2 3 ... 5 6 7 8 9 10 11 12 13 14 15