最新！TextPorter V5.2について　その２　壊れたPDFからもテキスト抽出

　昨日に続いて、TextPorter V5.2について、述べます。
　「V5.2の改訂情報」をみて、PDFが非常に多いことにお気づきと思います。
　これらは、前回のブログ担当だったときに書いた「PDFからのテキスト抽出で困っていること」に書いた、コマッタチャンなPDFによって発生したバグの修正です。
　ちゃんとしたソフトで、人間がPDFを作っていれば、異常な長さの文字列を含むPDFなどできないはずですが、いま、コンピュータがいろんな文章やデータをかき集めてPDFを生成したり、PDFをあれこれ加工するようになっています。
　その過程で使われているソフトにバグがあると、とんでもないPDFができてしまうのです。
　以前は、少しでも壊れていると思われるPDFは、テキストの抽出処理をやめて、エラーにしていました。そのころは、コンピュータがPDFを自動生成することも少なく、平和な時代でした。
　PDFが普及するにつれ、コンピュータによる自動生成も増えてきました。お客様から、すぐにエラーにするのではなく、少しでも中身を知りたいから、壊れたPDFからもテキストを抽出してくれないかという要望が出てくるようになりました。
　PDF乱世の時代です。
　そこで、なるべく処理を続行するようにしました。つまり、エラーとする制限をゆるくしたわけです。すると、こちらが想定していないPDFにも遭遇する確率が、一気に上がってしまったわけです。
　PDFの抽出エンジンは、バグが出尽くして、かなり枯れたと思っていましたが、PDF乱世に対応したことで、バグが出るようになってしまったのです。
　時代の要請とはいえ、苦労が絶えません。
　TextPorterについての詳しい説明は、
TextPorter
をご覧ください。
　TextPorterをはじめ、アンテナハウスのシステム製品につきましては、事前に技術相談会を行っております。お気軽にお問い合わせください。
　詳しくは、
アンテナハウス　システム製品技術相談会
をご覧の上、お申し込みください。