作成者別アーカイブ: AHEntry

OCRを使いこなそう…(2)

本日は、PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 の OCR 補正機能についてご説明します。

以下のような画像を Excel に変換してみます。
サンプル画像

『瞬簡PDF 変換 9』 の既定値で変換すると以下のようになります。
既定値の変換結果

納品書の宛先部分が Excel で画像になってしまっています。
これは、本来テキストで認識してもらいたい部分ですが、OCR 処理では画像と誤認識してしまったようです。
Excel 上で元のテキストに編集し直すのは手間がかかります。

このような時、OCR 補正機能がお役にたちます。
元のファイル名を右クリックして表示されたメニューから「OCR結果を補正…」を選択してください。
OCR補正機能の呼び出し

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

<< OCRを使いこなそう…(1)      OCRを使いこなそう…(3) >>


OCRを使いこなそう…(1)

朝夕だいぶ冷え込むようになってきました。
弊社伊那支店の裏手には小さな川があって、その先はずっと田んぼが広がっています。
夏の頃には緑一色の中に真っ白なコサギが何羽も舞い降りてエサを探す様子が見えましたが、この頃は枯れ草色の田んぼに秋のやわらかな日が差し、遠くの山々の紅葉が秋の深まりを感じさせてくれるようになりました。

さて、皆さんは「OCR(オーシーアール)」というコトバをご存じでしょうか?

OCR は、Optical Caracter Recognition(光学的文字認識)の頭文字をとったもので、紙に印刷された文字をスキャナなどで読み取り、コンピュータで利用できる文字データに変換するソフトウェア技術です。

紙に印刷された情報はいったんスキャナなどでイメージデータに変換し、さらに OCR 処理をかけることで文字検索したり文書ソフトで編集するなど、再利用が可能なデジタル情報となります。
弊社の PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 は OCR 処理を搭載して、スキャナで作成した PDF やイメージデータから Word や Excel への変換を実現しています。

ただし、OCR は100%の読取りを保証できるものではありません。
OCR はイメージデータの中から特徴的な点の集合を抽出して文字の形を認識しますが、元の画像に歪み、汚れ、滲み、かすれなどがあると正しい認識ができません。
また、イメージデータには文字だけでなく写真や線の情報なども含まれるので、それらを適確に判別できないと正しい認識ができません。

OCR で文字化けが発生する原因としては概ね以下のことが考えられます。

  1. 紙の原稿にかすれや汚れがある場合
  2. 文字の上に網掛けや線が重なったり、文字と文字の間隔が狭い場合
  3. スキャナで読み取る際に文字の解像度が低かったり、歪みがある場合
  4. 文字に傾きや装飾があったり、文字の字体が特殊である場合
  5. OCR 処理で文字領域、画像領域などのレイアウトを正しく判別できない場合

瞬簡PDF 変換 9』 の OCR 処理でも残念ながらの上記の1.~4.は対応が難しく、その場合は原稿の取り直しをしていただくか、変換結果を手作業で修正していただくことをお願いしております。
ただし、5.に関しては手作業ではありますが、変換前に誤認識を予防する手段として OCR 補正機能をご用意しています。
OCR補正機能

次回 は、この機能について詳しくご説明します。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

OCRを使いこなそう…(2)>>


「PDF Tool API V6.0」新機能紹介

段々と涼しくなってきました。
秋になると紅葉を思い浮かべる方は多いと思いますが、これから咲く花もあります。職場の近くの散歩コースに四季桜があるのですが、ぼちぼち咲き始めています。これから満開になるのが楽しみです。冬の散歩は寒いですが…

現在、『PDF Tool API V6.0』の開発を行っています。
V6.0に搭載される機能を1つ紹介したいと思います。
その新しい機能というのは文字を検索してヒットしたらハイライト注釈でマークするというものです。下記は「美しい」という文字を検索して、ハイライト注釈でマークされたものです。

PDF Tool API

このPDFですが実は文字を書かれた順に取り出してみると「美うつくしい日本にほん」となっています。見た目と実際の文字の順番が違っている訳です。それ故、Adobe Reader で「美しい」を検索してもヒットしません。

『PDF Tool API V6.0』ではこのような場合でもヒットするようになっています。乞うご期待を。

● 製品詳細ページ
『Antenna House PDF Tool API 』

● PDF Tool API 説明書
『PDF Tool API V5.0 説明書 』


「ハッカソン」について

最近、一部エンジニアの間で「ハッカソン」という開発の競技が話題を呼んでいます。
そもそも皆さん、「ハッカソン」というワードを聞いたことがあるでしょうか?

ハッカソンとは、ハック(Hack)とマラソン(Marathon)の2つの英単語を繋いだ造語で、プログラマー、デザイナー、プランナー、ディレクター、マーケターが一丸となって、出題されたテーマに対して短期間でプロダクト、サービスを開発する競技イベントです。出来上がった成果物は、審査員によって評価され、評価された点数によって勝敗が決まります。

また、ハッカソンは、技術やアイディアの革新、投資の場として、新しいアイディア・サービスの提案と共有をすることを目的に実施されております。

ハッカソンの歴史は、まず言葉は、OpenBSDの開発者や、サン・マイクロシステムズのマーケティングチームによってそれぞれ自主的に考えだされたと思われ、1999年から使われ始めたと言われています。
OpenBSDは、1999年6月4日にカルガリーで行われた暗号開発イベントであり、アメリカ合衆国から10人の開発者が暗号ソフトウェアの輸出規制によって発生する法的問題をどうすれば回避できるかというテーマで参加し、サン・マイクロシステムズは、1999年6月15日から19日まで開催されたJavaOneカンファレンスで、出席者に新製品のPalm Vを使って他のPalmユーザーと赤外線通信やインターネットへ登録するためのプログラムをJavaで挑戦させたことが、始まりと言われております。
その後、2000年代半ばから後半にかけてハッカソンは、企業やベンチャーキャピタルから注目されるようになりました。
(歴史について Wikipediaより引用)

ハッカソンに出場する事でのメリットは数多く、とても大きいです。
以下のような内容が上げられます。

  • アイディアの提案、開発していく中で、新たな価値観を見つける事ができ、興味やスキルの幅が広がる。
  • 自身の持つスキルを見直す機会になる。
  • 他の出場者が作ったアイディア・プロダクトを見て、質問して知って、更に新しい刺激を受ける。
  • チーム出場の場合、チームメンバーの結束力の重要性を知る事ができる。
  • 他の業界、企業とのコネクションが広がる。大会中、懇親会がある場合は、尚更広がる。
  • イベントによっては、賞を取れば賞金、賞品が得られる。
  • 出場した事、開発したものを実績として残せる。大きい大会に出場して、賞を取っていれば尚更効果的。それらを履歴書に書いてみるのも良い。

特にチームメンバー全員で、成果物がしっかり出来上がった時の悦びは、何よりも大きいのと、普段の業務では全く味わえない楽しみ方ができるのが、ハッカソン楽しさであったりします。

しかし、メリットが大きいからといって、浮ついた下心を持っての参加は、避けて頂きたいです。
競技の出場者は、真剣に開発を行っている人ばかりで、競技を主催するスタッフの方たちも、情熱を注いで出場者達をバックアップして下さる方ばかりです。開発にも限られた時間があるため、事前に作戦に練って開発者とスタッフ、当日に臨機応変な対応して行動を起こす開発者とスタッフ。その日のために、何か掛けているものを持って競い合い、イベントの関わる全員の結束力があって、ハッカソンが成り立っています。

それでは、日本において有名なハッカソンを、簡単に3つご紹介します。
Yahoo! Hack Day https://hackday.jp/
Yahoo! Japan が主催する、24時間耐久でプロトタイプを開発し、90秒のプレゼンテーションで発表し合う、ハッカソンになります。
テーマは自由で、規約に反していなければ作りたいものを作って良く、また、子供向けの開発者部門もあります。

SPAJAM (スマートフォンアプリジャム) http://spajam.jp/
Moblie Content Forum が主催する、「温泉でハッカソン」を合言葉に、合言葉の通り温泉地を舞台に、出題されたテーマに沿ってスマートフォンアプリを開発して、イノベーションを起こし、出場者のスキルを向上するための競技と交流の場が設けられた、ハッカソンになります。

Mashup Awards http://mashupaward.jp/
多くの協賛パートナー企業が集って開催する、様々なデバイスやAPI、ハードウェア、技術をMashupし、さらに人や企業もMashupしながら、作品を生み出すことを楽しむ「ものづくりの祭典」イベントです。この中に、ハッカソンバトルの部門が存在し、2nd Stage, Final Stage, そして優勝を掛けて、競い合います。

他にもWebベンチャー企業主催の「ラーメン二郎」をテーマにしたジロッカソンといった、コアなハッカソンなども存在します。

ハッカソンは、出場者にとって自身の何かを変えてくれる場です。
もし興味があれば、一歩踏み出して出場してみては、いかがでしょうか。


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (表)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”表”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。

ahpdfxml_pdf

上記のPDFをAHPDFXML形式に変換した結果です。
表(ahp:table)、行(ahp:row)、セル(ahp:cell)が出力されています。

ahpdfxml_xml

社内で試験用に使用している簡易ビューアの表示です。

表(ahp:table)、行(ahp:row)、セル(ahp:cell)座標をマーキングした表示です。

ahpdfxml_table

文字(ahp:run)の座標をマーキングした表示です。
文字列”ROOM”の文字”R”の文字のスタイルID(ahp:s-id)”s10″、Zオーダー(ahp:z-order)”457″です。

ahpdfxml_run

スタイル情報を、文字のスタイルID(ahp:s-id)”s10″で参照すると、文字属性がわかります。

ahpdfxml_style

AHPDFXMLに出力された表構造をデータベースに取り込むことにより、データのグループ化などがおこなえます。
AHPDFXMLに出力された表構造をCSV(表の項目値をカンマ区切りで表すテキストファイル)に落とすことにより、表計算ソフトなどで利用可能となります。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


「Antenna House AHPDFXML 変換ライブラリ V2.0」の出力例 (文字)

「Antenna House AHPDFXML 変換ライブラリ V2.0」は、PDFファイルの内部データを、XML(Extensible Markup Language:拡張可能なマークアップ言語)形式に変換するプログラムです。
このライブラリが出力するXML形式を「AHPDFXML形式」と呼びます。
PDF解析技術により文書構造を生成して、再利用に適したXMLデータを出力します。

今回は”文字”がAHPDFXMLに出力される例を見てみます。
変換元PDFのプレビューは次のような感じです。
ahpdfxml_pdf_1030

上記のPDFをAHPDFXML形式に変換した結果です。
フレーム情報(ahp:frame)、段落(ahp:p)、行(ahp:line)、文字(ahp:run)が出力されています。

ahpdfxml_xml
社内で試験用に使用している簡易ビューアの表示です。

フレーム(ahp:frame)の座標をマーキングした表示です。

ahpdfxml_frame
文字(ahp:run)の座標をマーキングした表示です。

ahpdfxml_run1

文字(ahp:run)の座標をマーキングした拡大表示です。
文字列”カレー”の文字のスタイルID(ahp:s-id)”s8″、Zオーダー(ahp:z-order)”22″です。

ahpdfxml_run2

スタイル情報を、文字のスタイルID(ahp:s-id)”s8″で参照すると、文字属性がわかります。

ahpdfxml_style
AHPDFXMLに出力された文字情報には、位置情報が含まれます。位置情報を利用することで、任意の範囲に含まれる文字を取り出せます。

XMLで表現することによって、データの扱いが容易になります。
XMLのメリットを最大限に活かしてPDFデータを活用できます。
弊社ウエブサイトより評価版の申し込みが可能です。是非ご評価ください。

製品に関するご質問は
sis@antenna.co.jp(SYSTEM担当)
または
oem@antenna.co.jp(OEM担当)
まで、お気軽にお問い合わせください。

評価版のお申込
評価版のお申込ページ

Webページ
http://www.antenna.co.jp/pdfxml/


CAS-UBの経過とV5の計画

今日は、アンテナハウスの出版物制作サービスCAS-UBのこれまでの経過と今後の予定について紹介致します。

CAS-UBのPRサイト

CAS-UBは2011年にサービスを開始して以来、既に満6年を経過しました。現在のバージョンはV4.0ですが、近々CAS-UB V5とするべく鋭意開発を進めております。

CAS-UBの目標は、本の制作やページ組版についての知識がない人が、原稿を書いただけであとはできるだけ自動的に一定品質の出版物を作成できることです。CAS-UBサービス開始時点では、印刷物のためのPDFの作成、および、EPUB3とKindle形式の電子書籍制作機能が大きなテーマでした。

当初はPDFを街のプリントショップに持ち込んで、プリントオンデマンドで本にしていました。2016年頃から流通によるプリントオンデマンドが実用的に使えるようになってきました[1]。そこで、CAS-UBで制作した本をアマゾン、楽天ブックス、hontoなどのオンラインストアで販売開始しました。

オンラインストアは少部数の本を、在庫を気にせず気軽に販売できるという長所がある版面、購入者が実際に手に取って内容や現物を確認してみることができない、という欠点があります。技術書典のようなイベントでは実際に手にとってご覧いただくことができるというのが良い点です[2]

さて、現在、V5の開発を勧めていますが、V5では主に次の機能を強化する予定です。

出版物オフラインテキスト形式(仮称)のインポートとエクスポート
現在のCAS-UBの編集作業は、ブラウザの画面で、クラウドサーバー上の出版物を対話的に操作します。出版物がいくつかの記事に分かれているとき、各記事のテキストを編集して保存し、次の記事に進む操作が必要ですが、これは若干まだるっこしく、また大きな出版物では通信の遅延が馬鹿になりません。そこで、編集中の出版物を丸ごとテキスト形式で取り出して、外部のテキストエディタで編集し、編集が終ったら戻すという出版物のオフラインテキスト形式を実用化します。実は、この機能は最初の頃からありましたが、今年になって販売済みタイトルのいくつかは、この方式で編集を実践しており、便利なことを実感しております。

現在、より使い易い物となるよう本機能を見直しております。

Webページ作成機能の強化
CAS-UBで編集した出版物はWebページとして作成できます。一年ほどまえから弊社の製品マニュアルの多くはCAS-UBで制作して、PDF、Windowsヘルプ(CHM)形式、Webページとして作成して公開しています[3]

特に製品マニュアルや一般に公開する出版物はPDFやEPUBのみではなく、Webページとして公開するのが大変効果的と感じています。

但し、現在のWebページ作成機能は、レスポンシブなWebページを生成できないなど、まだ不十分なものです。そこで、今回はWebページ作成機能をさらに強化してレスポンシブなWebページ作成もできるようにします。実用的に使っていただけるようなレベルを目指したいと考えています。

ご期待ください。

【参考資料】
[1] 流通によるプリントオンデマンドでの出版が現実のものとなった今、その活用の課題を考える。(2017年1月時点)
[2] 10月22日 技術書典3参加報告
[3] 例えば、XSL-FO の基礎 第2版 – XML を組版するためのレイアウト仕様


10月22日 技術書典3参加報告

先週日曜日(10月22日)超大型台風21号のため、東京も大雨の中、秋葉原UDXにて第3回目の技術書典が開催されました。技術書典はTechBoosterと達人出版会が主催する技術書のイベントです。アンテナハウスCAS電子出版は、初回から連続3回技術書典に参加しています。

以下では第3回目の参加報告と過去3回分の感想まとめてみます。

技術書典3の参加者は、技術季報 Vol. 2で数えますと、個人サークル171、企業23(合計194)となっています。初回は2016年6月開催で合計57サークル、第2回は2017年4月開催で合計195サークルでした。今回は開催期間が半年になりましたが、参加サークル数は前回並となったようです。

終了時の主催者の説明では入場者は、2,750人(延べでは3,000人超)となったとのことです。来場者は初回1,400人、第2回3,400人となっています。台風接近の状況としては来場者も多かったと思います。

CAS電子出版の出品書籍は次の通りです。

書籍名 発行日
“XSL-FOの基礎 XML を組版するためのレイアウト仕様 第2版” 2017年3月
“スタイルシート開発の基礎 XML と FO で簡単な本を作ってみよう” 2016年5月
“DITAのすすめ 第3版” 2017年8月
“MathML数式組版入門 Ver 1.1” 2017年7月
“PDFインフラストラクチャ解説 電子の紙PDFとその周辺技術を語り尽す 第1.1版” 2017年3月
“タグ付きPDF 仕組と制作方法解説” 2017年10月

今回始めて販売したタイトルは”タグ付きPDF 仕組と制作方法解説”です。”DITAのすすめ 第3版”と”MathML数式組版入門 Ver 1.1″が改訂版です。それ以外は、前回と同一のタイトルでした。

さて気になる販売数ですが、一番多くの方が手に取ってご覧になったのが”タグ付きPDF 仕組と制作方法解説”です。販売実績も本書が一番多くて12冊でした。タグ付きPDFは、PDFの中ではかなりニッチな仕様で日本ではあまり普及していないものです。このようなテーマの本ですので、手に取ってご覧になるのはタイトルを見てどんなものなのか? という関心をもたれたことによると思います。

その次に多くの方が手に取ってご覧になったのが、”MathML数式組版入門 Ver 1.1″です。これは手に取る方が多かったのですが、購入しないで帰る比率が高いようです。そういう方に「MathMLを使っていますか?」と聞きますと、大抵がTeXのユーザーだとお答えになります。技術書典の来場者はTeXユーザーがすごく多いようでMathMLはマイナーな存在であることを痛感します。これは、技術者にTeXが有力なのか、あるいは、主催者がTeXファンということもあるかもしれません。TeXユーザーはMathMLに関心を持ちますが、しかし、本を買って勉強するまでには至らないようです。

良く聞かれるのは、MathMLって何のためにあるのか? という質問でした。「MathMLは数式を交換・配布するためのフォーマットです。」と答えることにしています。考えてみますと、TeXをWebページで配布してMathJaxで表示する、という手段もあります。もう少し、なぜMathMLか、という説得力のある差別化の説明が欲しいところです。

技術書典3の来場者は、初回から毎回通っている人も多いようです。このため毎回同一のタイトルでは売れ行きがどんどん鈍くなります。毎回新しいテーマの本を用意しないといけない、ということですね。

【参考】
技術書典3
6月25日技術書典 大盛況でした。XMLの本にも大きな関心を寄せていただきました。(初回参加報告)
技術書典2と『PDFインフラストラクチャ解説』第1.1版、『XSL-FOの基礎 第二版』のご紹介(第2回にそなえて)


DITA の便利ツール

DITA でオーサリングをする際、初めにコンテンツ構造の計画を立てていると思います。
そして計画に対しレビューを行い、コンテンツの全体を把握した後に DITA ファイルを作成。このファイルを作成する作業がなかなか大変。
しかも一度 DITA ファイルを作成してしまうと手直しがまた大変。
コンテンツは大量にあるのでファイルを探すだけで一苦労です。

この作業が自動化できたらいいな、そんなことを考えたことはありませんか?

その悩みを解消してくれるツールがこの「ATL to DITA」(仮)です。

1.Excel ファイルでコンテンツ構造の計画を立てます。
グループ(第一階層)や階層レベル、chunk、タイトル、メタデータの情報を記載していきます。

atl_excel

Excel 画面

2.ツールの画面で Excel ファイルや出力先などを指定します。

atl_gui1

ツール画面1

atl_gui2

ツール画面2

※画面は開発中のものです

3.出力先のフォルダに DITA ファイルが作成されます。

atl_out1

出力ファイル1

atl_out2

出力ファイル2

atl_out3

出力ファイル3

階層に応じたマップが生成され、トピックには予め Excel で記載したタイトルやメタデータが挿入されます。

atl_out4 atl_out5

4.計画に手直しが入った場合はもう一度ツールを実行してください。

如何でしょうか?ちょっとした機能ですが、なかなか便利ですよね!

このツールは Java、Ant、XSLT を組み合わせて構成しています。

atl_architecture

構成

皆様は日々の業務でこういうものがあったら便利なのにな、といったものはございますか?
こういった便利なツールのご要望がございましたらアンテナハウスまでご相談ください!


Pages: Prev 1 2 3 4 5 6 7 8 9 10 ... 150 151 152 Next