作成者別アーカイブ: AHEntry

アンテナハウスのシステム製品を「やりたいこと」から選ぶページを用意しました。

本日(11月16日)より、アンテナハウスのシステム製品を「やりたいこと」、「したいこと」から選ぶことのできる製品ナビゲータ(目次)を用意しました。

このページでは、過去にシステム製品の問い合わせ窓口にいただきました質問を下記の9つの大分類に分けました。

1. 自動組版
2. Office文書の変換
3. PDFデータ利用
4. テキスト抽出
5. CAD変換
6. スキャナ保存
7. 署名・タイムスタンプ
8. 動作環境
9. 処理性能など

さらに、各大分類で、より詳しい小分類をたてて、質問を登録した上で、質問-回答の形式で整理してみました。

ぜひ、一度お試しいただきたいと存じます。


OCRを使いこなそう…(3)

前回 に続いて、PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 の OCR 補正機能についてご説明します。

「OCR結果を補正…」を選択すると、OCR 補正機能で元の画像を表示します。

リボンメニューから「領域認識」ボタンをクリックしてください。
領域認識を実行

OCR 処理で画像をどのようなレイアウトで認識したかが分かりやすく表示されます。
赤枠で示された部分は横書きのテキスト領域、青枠で示された部分は画像領域、緑色で示された部分は表の領域を示しています。

問題の宛名部分は青枠で囲まれ、画像領域として認識されていたことが分かります。
これをテキスト領域に変更してやればよさそうです。

変更したい部分を選択して、リボンメニューから「文字横書き」ボタンをクリックします。
領域を変更

これで選択した箇所が赤枠で示されて横書きのテキスト領域に変更されます。
リボンメニューから「変換実行」ボタンをクリックしてみましょう。
変換を実行

変換が終了後、変換結果を Excel で表示すると宛名部分がテキストで変換されたことが確認できます。
補正された変換結果
OCR による誤認識を100%防止することは難しいものですが、OCR 補正機能を利用して作業の効率アップにつなげていただければ幸いです。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

<< OCRを使いこなそう…(2)


OCRを使いこなそう…(2)

本日は、PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 の OCR 補正機能についてご説明します。

以下のような画像を Excel に変換してみます。
サンプル画像

『瞬簡PDF 変換 9』 の既定値で変換すると以下のようになります。
既定値の変換結果

納品書の宛先部分が Excel で画像になってしまっています。
これは、本来テキストで認識してもらいたい部分ですが、OCR 処理では画像と誤認識してしまったようです。
Excel 上で元のテキストに編集し直すのは手間がかかります。

このような時、OCR 補正機能がお役にたちます。
元のファイル名を右クリックして表示されたメニューから「OCR結果を補正…」を選択してください。
OCR補正機能の呼び出し

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

<< OCRを使いこなそう…(1)      OCRを使いこなそう…(3) >>


OCRを使いこなそう…(1)

朝夕だいぶ冷え込むようになってきました。
弊社伊那支店の裏手には小さな川があって、その先はずっと田んぼが広がっています。
夏の頃には緑一色の中に真っ白なコサギが何羽も舞い降りてエサを探す様子が見えましたが、この頃は枯れ草色の田んぼに秋のやわらかな日が差し、遠くの山々の紅葉が秋の深まりを感じさせてくれるようになりました。

さて、皆さんは「OCR(オーシーアール)」というコトバをご存じでしょうか?

OCR は、Optical Caracter Recognition(光学的文字認識)の頭文字をとったもので、紙に印刷された文字をスキャナなどで読み取り、コンピュータで利用できる文字データに変換するソフトウェア技術です。

紙に印刷された情報はいったんスキャナなどでイメージデータに変換し、さらに OCR 処理をかけることで文字検索したり文書ソフトで編集するなど、再利用が可能なデジタル情報となります。
弊社の PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 は OCR 処理を搭載して、スキャナで作成した PDF やイメージデータから Word や Excel への変換を実現しています。

ただし、OCR は100%の読取りを保証できるものではありません。
OCR はイメージデータの中から特徴的な点の集合を抽出して文字の形を認識しますが、元の画像に歪み、汚れ、滲み、かすれなどがあると正しい認識ができません。
また、イメージデータには文字だけでなく写真や線の情報なども含まれるので、それらを適確に判別できないと正しい認識ができません。

OCR で文字化けが発生する原因としては概ね以下のことが考えられます。

  1. 紙の原稿にかすれや汚れがある場合
  2. 文字の上に網掛けや線が重なったり、文字と文字の間隔が狭い場合
  3. スキャナで読み取る際に文字の解像度が低かったり、歪みがある場合
  4. 文字に傾きや装飾があったり、文字の字体が特殊である場合
  5. OCR 処理で文字領域、画像領域などのレイアウトを正しく判別できない場合

瞬簡PDF 変換 9』 の OCR 処理でも残念ながらの上記の1.~4.は対応が難しく、その場合は原稿の取り直しをしていただくか、変換結果を手作業で修正していただくことをお願いしております。
ただし、5.に関しては手作業ではありますが、変換前に誤認識を予防する手段として OCR 補正機能をご用意しています。
OCR補正機能

次回 は、この機能について詳しくご説明します。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

OCRを使いこなそう…(2)>>


「PDF Tool API V6.0」新機能紹介

段々と涼しくなってきました。
秋になると紅葉を思い浮かべる方は多いと思いますが、これから咲く花もあります。職場の近くの散歩コースに四季桜があるのですが、ぼちぼち咲き始めています。これから満開になるのが楽しみです。冬の散歩は寒いですが…

現在、『PDF Tool API V6.0』の開発を行っています。
V6.0に搭載される機能を1つ紹介したいと思います。
その新しい機能というのは文字を検索してヒットしたらハイライト注釈でマークするというものです。下記は「美しい」という文字を検索して、ハイライト注釈でマークされたものです。

PDF Tool API

このPDFですが実は文字を書かれた順に取り出してみると「美うつくしい日本にほん」となっています。見た目と実際の文字の順番が違っている訳です。それ故、Adobe Reader で「美しい」を検索してもヒットしません。

『PDF Tool API V6.0』ではこのような場合でもヒットするようになっています。乞うご期待を。

● 製品詳細ページ
『Antenna House PDF Tool API 』

● PDF Tool API 説明書
『PDF Tool API V5.0 説明書 』


「ハッカソン」について

最近、一部エンジニアの間で「ハッカソン」という開発の競技が話題を呼んでいます。
そもそも皆さん、「ハッカソン」というワードを聞いたことがあるでしょうか?

ハッカソンとは、ハック(Hack)とマラソン(Marathon)の2つの英単語を繋いだ造語で、プログラマー、デザイナー、プランナー、ディレクター、マーケターが一丸となって、出題されたテーマに対して短期間でプロダクト、サービスを開発する競技イベントです。出来上がった成果物は、審査員によって評価され、評価された点数によって勝敗が決まります。

また、ハッカソンは、技術やアイディアの革新、投資の場として、新しいアイディア・サービスの提案と共有をすることを目的に実施されております。

ハッカソンの歴史は、まず言葉は、OpenBSDの開発者や、サン・マイクロシステムズのマーケティングチームによってそれぞれ自主的に考えだされたと思われ、1999年から使われ始めたと言われています。
OpenBSDは、1999年6月4日にカルガリーで行われた暗号開発イベントであり、アメリカ合衆国から10人の開発者が暗号ソフトウェアの輸出規制によって発生する法的問題をどうすれば回避できるかというテーマで参加し、サン・マイクロシステムズは、1999年6月15日から19日まで開催されたJavaOneカンファレンスで、出席者に新製品のPalm Vを使って他のPalmユーザーと赤外線通信やインターネットへ登録するためのプログラムをJavaで挑戦させたことが、始まりと言われております。
その後、2000年代半ばから後半にかけてハッカソンは、企業やベンチャーキャピタルから注目されるようになりました。
(歴史について Wikipediaより引用)

ハッカソンに出場する事でのメリットは数多く、とても大きいです。
以下のような内容が上げられます。

  • アイディアの提案、開発していく中で、新たな価値観を見つける事ができ、興味やスキルの幅が広がる。
  • 自身の持つスキルを見直す機会になる。
  • 他の出場者が作ったアイディア・プロダクトを見て、質問して知って、更に新しい刺激を受ける。
  • チーム出場の場合、チームメンバーの結束力の重要性を知る事ができる。
  • 他の業界、企業とのコネクションが広がる。大会中、懇親会がある場合は、尚更広がる。
  • イベントによっては、賞を取れば賞金、賞品が得られる。
  • 出場した事、開発したものを実績として残せる。大きい大会に出場して、賞を取っていれば尚更効果的。それらを履歴書に書いてみるのも良い。

特にチームメンバー全員で、成果物がしっかり出来上がった時の悦びは、何よりも大きいのと、普段の業務では全く味わえない楽しみ方ができるのが、ハッカソン楽しさであったりします。

しかし、メリットが大きいからといって、浮ついた下心を持っての参加は、避けて頂きたいです。
競技の出場者は、真剣に開発を行っている人ばかりで、競技を主催するスタッフの方たちも、情熱を注いで出場者達をバックアップして下さる方ばかりです。開発にも限られた時間があるため、事前に作戦に練って開発者とスタッフ、当日に臨機応変な対応して行動を起こす開発者とスタッフ。その日のために、何か掛けているものを持って競い合い、イベントの関わる全員の結束力があって、ハッカソンが成り立っています。

それでは、日本において有名なハッカソンを、簡単に3つご紹介します。
Yahoo! Hack Day https://hackday.jp/
Yahoo! Japan が主催する、24時間耐久でプロトタイプを開発し、90秒のプレゼンテーションで発表し合う、ハッカソンになります。
テーマは自由で、規約に反していなければ作りたいものを作って良く、また、子供向けの開発者部門もあります。

SPAJAM (スマートフォンアプリジャム) http://spajam.jp/
Moblie Content Forum が主催する、「温泉でハッカソン」を合言葉に、合言葉の通り温泉地を舞台に、出題されたテーマに沿ってスマートフォンアプリを開発して、イノベーションを起こし、出場者のスキルを向上するための競技と交流の場が設けられた、ハッカソンになります。

Mashup Awards http://mashupaward.jp/
多くの協賛パートナー企業が集って開催する、様々なデバイスやAPI、ハードウェア、技術をMashupし、さらに人や企業もMashupしながら、作品を生み出すことを楽しむ「ものづくりの祭典」イベントです。この中に、ハッカソンバトルの部門が存在し、2nd Stage, Final Stage, そして優勝を掛けて、競い合います。

他にもWebベンチャー企業主催の「ラーメン二郎」をテーマにしたジロッカソンといった、コアなハッカソンなども存在します。

ハッカソンは、出場者にとって自身の何かを変えてくれる場です。
もし興味があれば、一歩踏み出して出場してみては、いかがでしょうか。


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


CAS-UBの経過とV5の計画

今日は、アンテナハウスの出版物制作サービスCAS-UBのこれまでの経過と今後の予定について紹介致します。

CAS-UBのPRサイト

CAS-UBは2011年にサービスを開始して以来、既に満6年を経過しました。現在のバージョンはV4.0ですが、近々CAS-UB V5とするべく鋭意開発を進めております。

CAS-UBの目標は、本の制作やページ組版についての知識がない人が、原稿を書いただけであとはできるだけ自動的に一定品質の出版物を作成できることです。CAS-UBサービス開始時点では、印刷物のためのPDFの作成、および、EPUB3とKindle形式の電子書籍制作機能が大きなテーマでした。

当初はPDFを街のプリントショップに持ち込んで、プリントオンデマンドで本にしていました。2016年頃から流通によるプリントオンデマンドが実用的に使えるようになってきました[1]。そこで、CAS-UBで制作した本をアマゾン、楽天ブックス、hontoなどのオンラインストアで販売開始しました。

オンラインストアは少部数の本を、在庫を気にせず気軽に販売できるという長所がある版面、購入者が実際に手に取って内容や現物を確認してみることができない、という欠点があります。技術書典のようなイベントでは実際に手にとってご覧いただくことができるというのが良い点です[2]

さて、現在、V5の開発を勧めていますが、V5では主に次の機能を強化する予定です。

出版物オフラインテキスト形式(仮称)のインポートとエクスポート
現在のCAS-UBの編集作業は、ブラウザの画面で、クラウドサーバー上の出版物を対話的に操作します。出版物がいくつかの記事に分かれているとき、各記事のテキストを編集して保存し、次の記事に進む操作が必要ですが、これは若干まだるっこしく、また大きな出版物では通信の遅延が馬鹿になりません。そこで、編集中の出版物を丸ごとテキスト形式で取り出して、外部のテキストエディタで編集し、編集が終ったら戻すという出版物のオフラインテキスト形式を実用化します。実は、この機能は最初の頃からありましたが、今年になって販売済みタイトルのいくつかは、この方式で編集を実践しており、便利なことを実感しております。

現在、より使い易い物となるよう本機能を見直しております。

Webページ作成機能の強化
CAS-UBで編集した出版物はWebページとして作成できます。一年ほどまえから弊社の製品マニュアルの多くはCAS-UBで制作して、PDF、Windowsヘルプ(CHM)形式、Webページとして作成して公開しています[3]

特に製品マニュアルや一般に公開する出版物はPDFやEPUBのみではなく、Webページとして公開するのが大変効果的と感じています。

但し、現在のWebページ作成機能は、レスポンシブなWebページを生成できないなど、まだ不十分なものです。そこで、今回はWebページ作成機能をさらに強化してレスポンシブなWebページ作成もできるようにします。実用的に使っていただけるようなレベルを目指したいと考えています。

ご期待ください。

【参考資料】
[1] 流通によるプリントオンデマンドでの出版が現実のものとなった今、その活用の課題を考える。(2017年1月時点)
[2] 10月22日 技術書典3参加報告
[3] 例えば、XSL-FO の基礎 第2版 – XML を組版するためのレイアウト仕様


Pages: 1 2 3 4 5 6 7 8 9 10 ... 143 144 145 Next