月別アーカイブ: 2017年11月

OCRを使いこなそう…(1)

朝夕だいぶ冷え込むようになってきました。
弊社伊那支店の裏手には小さな川があって、その先はずっと田んぼが広がっています。
夏の頃には緑一色の中に真っ白なコサギが何羽も舞い降りてエサを探す様子が見えましたが、この頃は枯れ草色の田んぼに秋のやわらかな日が差し、遠くの山々の紅葉が秋の深まりを感じさせてくれるようになりました。

さて、皆さんは「OCR(オーシーアール)」というコトバをご存じでしょうか?

OCR は、Optical Caracter Recognition(光学的文字認識)の頭文字をとったもので、紙に印刷された文字をスキャナなどで読み取り、コンピュータで利用できる文字データに変換するソフトウェア技術です。

紙に印刷された情報はいったんスキャナなどでイメージデータに変換し、さらに OCR 処理をかけることで文字検索したり文書ソフトで編集するなど、再利用が可能なデジタル情報となります。
弊社の PDF 変換ユーティリティ 『瞬簡PDF 変換 9』 は OCR 処理を搭載して、スキャナで作成した PDF やイメージデータから Word や Excel への変換を実現しています。

ただし、OCR は100%の読取りを保証できるものではありません。
OCR はイメージデータの中から特徴的な点の集合を抽出して文字の形を認識しますが、元の画像に歪み、汚れ、滲み、かすれなどがあると正しい認識ができません。
また、イメージデータには文字だけでなく写真や線の情報なども含まれるので、それらを適確に判別できないと正しい認識ができません。

OCR で文字化けが発生する原因としては概ね以下のことが考えられます。

  1. 紙の原稿にかすれや汚れがある場合
  2. 文字の上に網掛けや線が重なったり、文字と文字の間隔が狭い場合
  3. スキャナで読み取る際に文字の解像度が低かったり、歪みがある場合
  4. 文字に傾きや装飾があったり、文字の字体が特殊である場合
  5. OCR 処理で文字領域、画像領域などのレイアウトを正しく判別できない場合

瞬簡PDF 変換 9』 の OCR 処理でも残念ながらの上記の1.~4.は対応が難しく、その場合は原稿の取り直しをしていただくか、変換結果を手作業で修正していただくことをお願いしております。
ただし、5.に関しては手作業ではありますが、変換前に誤認識を予防する手段として OCR 補正機能をご用意しています。
OCR補正機能

次回 は、この機能について詳しくご説明します。

—————————
「瞬簡PDF 変換 9」は体験版をご用意しております。
これにより、変換精度や使い勝手を事前にご確認いただくことができます。

体験版では以下のような制限がありますので、あらかじめご了承ください。

  • インストールしてから 15日を過ぎると利用できなくなります。
  • ひとつの PDF について、3ページまで変換可能です。
  • 評価以外の目的で日常業務に利用することはできません。

体験版に関する詳細は、『瞬簡PDF 変換 9 体験版のお申し込み』 をご参照ください。

OCRを使いこなそう…(2)>>


「PDF Tool API V6.0」新機能紹介

段々と涼しくなってきました。
秋になると紅葉を思い浮かべる方は多いと思いますが、これから咲く花もあります。職場の近くの散歩コースに四季桜があるのですが、ぼちぼち咲き始めています。これから満開になるのが楽しみです。冬の散歩は寒いですが…

現在、『PDF Tool API V6.0』の開発を行っています。
V6.0に搭載される機能を1つ紹介したいと思います。
その新しい機能というのは文字を検索してヒットしたらハイライト注釈でマークするというものです。下記は「美しい」という文字を検索して、ハイライト注釈でマークされたものです。

PDF Tool API

このPDFですが実は文字を書かれた順に取り出してみると「美うつくしい日本にほん」となっています。見た目と実際の文字の順番が違っている訳です。それ故、Adobe Reader で「美しい」を検索してもヒットしません。

『PDF Tool API V6.0』ではこのような場合でもヒットするようになっています。乞うご期待を。

● 製品詳細ページ
『Antenna House PDF Tool API 』

● PDF Tool API 説明書
『PDF Tool API V5.0 説明書 』


「ハッカソン」について

最近、一部エンジニアの間で「ハッカソン」という開発の競技が話題を呼んでいます。
そもそも皆さん、「ハッカソン」というワードを聞いたことがあるでしょうか?

ハッカソンとは、ハック(Hack)とマラソン(Marathon)の2つの英単語を繋いだ造語で、プログラマー、デザイナー、プランナー、ディレクター、マーケターが一丸となって、出題されたテーマに対して短期間でプロダクト、サービスを開発する競技イベントです。出来上がった成果物は、審査員によって評価され、評価された点数によって勝敗が決まります。

また、ハッカソンは、技術やアイディアの革新、投資の場として、新しいアイディア・サービスの提案と共有をすることを目的に実施されております。

ハッカソンの歴史は、まず言葉は、OpenBSDの開発者や、サン・マイクロシステムズのマーケティングチームによってそれぞれ自主的に考えだされたと思われ、1999年から使われ始めたと言われています。
OpenBSDは、1999年6月4日にカルガリーで行われた暗号開発イベントであり、アメリカ合衆国から10人の開発者が暗号ソフトウェアの輸出規制によって発生する法的問題をどうすれば回避できるかというテーマで参加し、サン・マイクロシステムズは、1999年6月15日から19日まで開催されたJavaOneカンファレンスで、出席者に新製品のPalm Vを使って他のPalmユーザーと赤外線通信やインターネットへ登録するためのプログラムをJavaで挑戦させたことが、始まりと言われております。
その後、2000年代半ばから後半にかけてハッカソンは、企業やベンチャーキャピタルから注目されるようになりました。
(歴史について Wikipediaより引用)

ハッカソンに出場する事でのメリットは数多く、とても大きいです。
以下のような内容が上げられます。

  • アイディアの提案、開発していく中で、新たな価値観を見つける事ができ、興味やスキルの幅が広がる。
  • 自身の持つスキルを見直す機会になる。
  • 他の出場者が作ったアイディア・プロダクトを見て、質問して知って、更に新しい刺激を受ける。
  • チーム出場の場合、チームメンバーの結束力の重要性を知る事ができる。
  • 他の業界、企業とのコネクションが広がる。大会中、懇親会がある場合は、尚更広がる。
  • イベントによっては、賞を取れば賞金、賞品が得られる。
  • 出場した事、開発したものを実績として残せる。大きい大会に出場して、賞を取っていれば尚更効果的。それらを履歴書に書いてみるのも良い。

特にチームメンバー全員で、成果物がしっかり出来上がった時の悦びは、何よりも大きいのと、普段の業務では全く味わえない楽しみ方ができるのが、ハッカソン楽しさであったりします。

しかし、メリットが大きいからといって、浮ついた下心を持っての参加は、避けて頂きたいです。
競技の出場者は、真剣に開発を行っている人ばかりで、競技を主催するスタッフの方たちも、情熱を注いで出場者達をバックアップして下さる方ばかりです。開発にも限られた時間があるため、事前に作戦に練って開発者とスタッフ、当日に臨機応変な対応して行動を起こす開発者とスタッフ。その日のために、何か掛けているものを持って競い合い、イベントの関わる全員の結束力があって、ハッカソンが成り立っています。

それでは、日本において有名なハッカソンを、簡単に3つご紹介します。
Yahoo! Hack Day https://hackday.jp/
Yahoo! Japan が主催する、24時間耐久でプロトタイプを開発し、90秒のプレゼンテーションで発表し合う、ハッカソンになります。
テーマは自由で、規約に反していなければ作りたいものを作って良く、また、子供向けの開発者部門もあります。

SPAJAM (スマートフォンアプリジャム) http://spajam.jp/
Moblie Content Forum が主催する、「温泉でハッカソン」を合言葉に、合言葉の通り温泉地を舞台に、出題されたテーマに沿ってスマートフォンアプリを開発して、イノベーションを起こし、出場者のスキルを向上するための競技と交流の場が設けられた、ハッカソンになります。

Mashup Awards http://mashupaward.jp/
多くの協賛パートナー企業が集って開催する、様々なデバイスやAPI、ハードウェア、技術をMashupし、さらに人や企業もMashupしながら、作品を生み出すことを楽しむ「ものづくりの祭典」イベントです。この中に、ハッカソンバトルの部門が存在し、2nd Stage, Final Stage, そして優勝を掛けて、競い合います。

他にもWebベンチャー企業主催の「ラーメン二郎」をテーマにしたジロッカソンといった、コアなハッカソンなども存在します。

ハッカソンは、出場者にとって自身の何かを変えてくれる場です。
もし興味があれば、一歩踏み出して出場してみては、いかがでしょうか。


Pages: Prev 1 2