カテゴリー別アーカイブ: コラム

テキスト抽出ライブラリーでOffice 2010, AutoCAD 2010, DocuWorks7 新対応

2010年12月10日より、さまざまなアプリケーションのファイルからテキストを抽出する、クラウドコンピューティング時代のサーバ組込用テキスト抽出エンジン「TextPorter V5.1 サーバ版 」のリリースを開始します。
 
■V5.1では次のアプリケーションからのテキスト抽出に新対応しました。
* Office 2010の正式対応
V5.0で暫定的に対応を開始しましたが、V5.1で正式対応となりました。
* AutoCAD 2010対応
V5.0で対応したAutoCAD 2007/2008/2009に加え、AutoCAD 2010に対応しました。
* DocuWorks 7/7.1対応
従来のDocuWorksに加え、DocuWorks 7/7.1に対応しました。
 
■本製品の主な機能
* 主要なアプリケーション・ファイルからテキスト抽出
文書を作成したアプリケーションが無くても、指定したファイル、または埋め込まれたOLEオブジェクトからテキスト文字列を取り出せます。
* さまざまな文字コードに対応
抽出するテキストの文字符号化方式を切り替えることができます。また、テキストファイルの文字符号化方式や改行コードの種別を変換することができます。
* クラウド時代のサーバ組込に最適
テキスト検索、データマイニング等と組み合わせるなど、クラウドコンピューティング時代のサーバに最適です。
■本製品の詳細は次のウェブページをご覧ください。
* https://www.antenna.co.jp/axx/
バージョンアップの詳細についてはこちらをご参照ください。
* https://www.antenna.co.jp/axx/version-up.html




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


HTML on Word
WebページをWordで作る!

「瞬簡/リッチテキストPDF6」の先行ダウンロード販売を開始します

「瞬簡/リッチテキストPDF6」は、PDFや画像ファイルをWord・Excel・PowerPointや一太郎に変換したり、画像ファイルをOCR処理して透明テキスト付きPDFを作成できる「リッチテキストPDF6」と、PDF作成、複数のPDFを結合、PDFの分割、文書情報、セキュリティ設定・解除などの編集を行うことのできる「瞬簡PDF3」のセット商品です。
本製品は「リッチテキストPDF5.2」の後継製品で、主に次の項目が新しくなりました。
○ 画像をOCR処理して透明テキスト付きPDFが作成可能に!
○ PDFからOfficeファイルへの変換精度を従来より改善!
○ 日英2ヶ国語対応のOCR機能を強化して文字の認識精度を改善!
○ 操作画面を一新しました!より簡単な操作で効率よく作業!
○ 「瞬簡PDF3」と統合してPDF作成機能を強化!
☆「リッチテキストPDF6」の画面
SPR60.png
 
☆「瞬簡/リッチテキストPDF6」ちらし
ちらし(A42ページ)PDF 約1.7MB
 
□直販ショップでのみ先行ダウンロード販売致します。
ご購入(クレジット決済のみ)はこちらから
「瞬簡/リッチテキストPDF」ダウンロード販売ページ
■「瞬簡/リッチテキストPDF6」へのバージョンアップ購入について
リッチテキストPDF旧製品ユーザ様には、お得なバージョンアップ価格を用意しております。
※旧製品のユーザ登録が必要です(https://www.antenna.co.jp/online/
ユーザ登録後発行されるユーザID、ご自身で登録いただいたパスワードでオンラインショップにログイン後、ご購入いただけます。
【瞬簡/リッチテキストPDF6へのバージョンアップ価格(税込)】
・リッチテキストPDF5.2(5.0)プロフェッショナルユーザ様(3,360円)
・リッチテキストPDF5.2(5.0)スタンダードユーザ様(5,145円)
・リッチテキストPDFR1~4(スタンダード・コンプリート)ユーザ様(7,140円)
 
□ご購入(クレジット決済のみ)はこちらから
有償バージョンアップ販売ページ
 
■「瞬簡/リッチテキストPDF6」への無償バージョンアップ
11月1日以降旧製品をお求めの方が対象となります。
「リッチテキストPDF5.2プロフェッショナル」から
「リッチテキストPDF5.2スタンダード」から
 
【ご注意!】
・ダウンロード版はクレジット決済のみです。
・CD-ROM版の販売は12月下旬を予定しております。
・郵送DM許可の旧製品ユーザ様には、12月中旬以降に申込案内を送付予定です。
・ダウンロード版、CD-ROM版のバージョンアップ価格は同額です。
・ダウンロード版購入後、CD-ROM版に変更できませんのでお気をつけください。




瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成


瞬簡PDF 統合版 2024
アンテナハウスPDFソフトの統合製品!

「第26回XSLスクール」「第8回XSL-FO指南塾」開催決定

□「第26回XSLスクール」概要
 
◆開催日:2010年12月14日(火)
◆開催内容
XMLデータを組版する為の基礎知識を解説後、XSL-FOによるXMLドキュメントを印刷するためのスタイルシートの作成方法とXSL-FOの仕様について説明します。
「実習形式」のセミナーで、サンプルを参照しながら実際にスタイルシートを作ることで、「XSLT」と「XSL」を理解し、XSLTスタイルシート作成の基本的な技術を身につけることができます。
・講師: (株)アンテナハウス 小林具典
・開催時間:10:00~17:00 (休憩含む)
 http://www.exism.co.jp/pdf/XSL-school.pdf
 
□「第8回XSL-FO指南塾」概要
◆開催日:2010年12月15日(水)
◆開催内容
W3C勧告のXSL-FOの仕様・記述方法について、日本語の組版事例を添えて詳細に解説をすると共に、AH Formatter V5の新しい機能について解説します。
テキストとして使用する「バッチ組版のためのXSL-FO指南V3.0」は、講師をつとめる藤島雅宏氏が執筆した日本語による貴重なXSL-FO仕様解説書です。
・講師: (有)イーエイド 藤島雅宏
・開催時間:10:00~17:00 (休憩含む)
 http://www.exism.co.jp/pdf/XSL-FO_shinan.pdf
◆会場:アンテナハウス株式会社 会議室
 東京都中央区東日本橋2丁目1番6号 東日本橋藤和ビル 5階
 https://www.antenna.co.jp/access.htm
◆参加費用:お一人様(税込) 各42,000円
(両方のセミナーを同時にお申し込みの場合:各36,750円)
 準備いただくもの CDの教材を利用して実際にFOファイルを操作します
ので、CDドライブ付ノート型パソコンを持参下さい。
 AHFormatterV5.2を事前にPCにインストールいただきますようお願いします。
 ダウンロードは→https://www.antenna.co.jp/AHF/download/download-v5.html
◆申込みは以下のお問合せフォームまたは申込書にてご連絡ください。
 受付後にご連絡をさせていただきます。
 問合せフォーム→http://www.exism.co.jp/contact/form/forminq.html
 申込書→http://www.exism.co.jp/pdf/XSL-FO_school.pdf
□□次回開催予告□□
◆開催日:2011年2月下旬
◆会場:アンテナハウス株式会社 会議室
定期的に開催を予定しています。
出張セミナーにも対応していますので、詳しくはお問合せください。




瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識


瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集

「WebのPDFは重い」が迷信になる時代が来た

GoogleのChrome8がリリースされた。新しい機能として、PDF表示が加わったということで早速インストールして試してみた。
 
確かにPDF表示ができる。そして、「驚くほど速い」。
他のブラウザでは、WebページにリンクされているPDFは、ブラウザにプラグインされているPDF Readerを使って読んでいる。WebページにリンクされているPDFを表示するのはかなり時間がかかる。その時間にはブラウザからPDF Readerプラグインを起動したり、WebからPDFをダウンロードしたり、あるいはPDFをリーダがレンダリングする時間が含まれている。一昔前と比べるとこれらの諸元は全般的にかなり速くなってきているので、個人的には、PDF表示に最近はそれほどのストレスを感じていなかった。
しかしChrome8のPDF表示速度は次元が違う。
 
但し、このPDF表示速度を最大限に生かすには、Web上のPDFを「Web最適化」しておく必要がある。
 
○Web最適化とはなにかについては次を参照。
[Web 最適化PDFの意味、用途、効果]
Web最適化をしたPDFと最適化をしていないPDFを作って、Webサーバにアップロードし、それをChrome8で表示するのに要する時間を計測してみた。試したPDFは1,345頁で、約18MBのサイズのものであるが、環境によっては、1ページ目を1秒以下で表示できることが分かる。
Chrome-Comparison.png
但し、幾つか問題点もある。気がついた問題点を挙げると:
1.PDFの表示オプションが効かない。例えば、URLで、「abc.pdf#page=100」とすると、100ページ目を表示するべきなのだが、Chromeでは1ページ目を表示してしまう。
2.日本語の表示がおかしいところがある。例えば、縦書きに横書きフォントを使っているようでグリフ配置と向きが少しおかしい。
Chome8-tate.png
(Chrome8 による表示画面の一部)
3.注釈の表示は不完全。
多分、他にもいろいろ細かい問題はあるだろう。しかし、どうやらWeb上のPDF表示は重いという先入観を捨てるべき時期が来ているようだ。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

FreeType の特許問題終結

AppleのTrueType用バイトコード・ヒンティングに関する特許が2010年5月に期限切れになったようです。
 
Patent #1: US5155805: Method and apparatus for moving control points in displaying digital typeface on raster output devices
Patent #2: US5159668: Method and apparatus for manipulating outlines in improving digital typeface on raster output devices
Patent #3: US5325479: Method and apparatus for moving control points in displaying digital typeface on raster output devices
The TrueType bytecode patents have expired!
 
FreeTypeプロジェクトでは、従来、特許に触れる部分を既定値では組み込まれないようにしていましたが、特許期限切れに伴い、FreeType version 2.4より、この機能が既定値で有効に変更されたとのことです。




HTML on Word
WebページをWordで作る!


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

DITA 1.2 がOASIS 標準として承認されました

12月1日 DITA 1.2 がOASIS 標準として承認されました。
 
OASISのDITA技術委員会は、DITA 1.2の仕様を委員会承認案として、会員の投票に付していました。投票期限は11月30日でした。既に、11月23日時点で必要な票数が集まっていたようですが、投票期限終了に伴い、正式に承認のニュースが流れました。
 
DITA1.1は2007年8月1日に公開されています。それから約3年と数ヶ月経過してV1.2が正式に公開されることになります。既に昨年来、DITA 1.2の仕様は凡そ固まっており、ツールも対応が進んでいるようです。
 
DITA 1.2で追加された機能は次のようなものがあります。
* Keys とkey 参照
* conref 機能の強化
* Constraint モジュール
* 学習・教育向けの特殊化
* 制限付きの語彙やタクソノミーを定義するための新しいマップの特殊化
* 機械産業向けのタスク
 
なお、DITA 1.2ではDITA 1.1の機能はそのまま使うことができますので、既に開発済みのシステムを修正する必要性は少ないと思います。




瞬簡PDF 編集 2024
かんたん操作でPDFを自由自在に編集


瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換

DITA Festa 2010 Autumn終了

11月25日午後から26日にかけて開催されたDITA Festa 2010 Autumnは無事終了しました。
今回は、直前に行われたDITA Europe に派遣した調査団の報告、ならびに2日目に米国のXML分野の第一人者であるEliot Kimber氏を招待しての講演が目玉でした。
DITA Europe調査派遣団の報告については、参加者から「新しい風を感じた。」という声もあり、反応は大変良かったように感じました。
 
「DITA特殊化」については、天野氏による1.1の技術解説は少し難しかったようですが、Kimber氏による1.2の新機能は分かりやすかったと思います。
 
第三部のDITA for Publishersについては、従来、テクニカルマニュアルのためと捕らえられているDITAを出版業界向けに使おうということで、Kimber氏によると「DITAの神話を壊すためのもの」とのこと。現在、盛り上がっているEPUBを初めとする電子書籍に関係することからか、大変多くの参加者がありました。また、DITAコンソーシアムジャパンでもDITA for Publishersの短期研究プロジェクトを立ち上げており、今後の成果を期待したいところです。
 
201011261423000.jpg
 
ちなみに、弊社は、Wikiを利用して書籍を制作するためのサービスを開発しています。(2010年11月23日 『「Wikiベースの書籍オーサリングとEPUB出力」のこと』 をご参照ください。) DITA も考えたのですが、書籍出版用のサービスとしては重すぎるのではないかと判断しています。DITA神話にとらわれて、非効率的な独自DTD開発をしているのかどうか?いづれ評価すべきときが来ると思います。




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

CSS3のグローバリゼーションの課題について (メモ)

CSS3で日本語のレイアウト機能を強化しようという動きが活発になっています。この大きなきっかけはEPUB3.0に縦書きを含む日本語レイアウト機能を追加しようということで、EPUB3.0のスケジュールの関係上、CSS3の日本語レイアウト機能追加を大車輪で行う必要が出ています。
 
CSS3の日本語レイアウト機能は、既に1990年代の終わり頃から提案されていますが、この10年近くほとんど進捗していなかったのが実情です。
 
これを半年程度の期間で、実装可能なレベルに固めていこうということですからかなり野心的な目標です。実現できればCSS3の利用者を増やすと言う点でも大きなインパクトがありますので、頑張って早く進めたいものです。
 
アンテナハウスでは、2006年からCSSによるレイアウト指定組版 「CSS Print」 を目標として、組版ソフトを開発してきました。具体的には、CSS3をXSL-FO組版機能(AH 独自拡張を含む)と同等のレベルまで拡張して実装しています。この成果として、2009年にAH CSS Formatter V5として発売しています。
 
そして、この間 CSSのWorking Groupにも参加して、ほそぼそとですが活動してきました。こうした関係でCSSのグローバリゼーションの難しさもある程度理解しているつもりです。そうした立場で、22日に行われたJEPAのEPUBセミナーについてのTwitterの議論を見ていると、この難しさがなかなか理解されていないように感じました。
 
ということで、現在、感じている問題点を以下にあげておきます。
1.CSSはもともとラテン文字を画面にレイアウトすることを想定して設計されています。右から左に書いたり、上から下に書くという、考えは設計時にビルドインされていません。CSS3の仕様設計者の大多数は欧米の技術者であり、彼らには、漢字や日本文字のテキスト・レイアウト自体が理解できないので、これは無理も無いことです。そこでCSSの仕様設計者に日本語の組版を理解してもらうところから始めなければなりません。
 
2.日本語レイアウトは欧米の技術者にはそれほど関心もなく、またメリットや学ぶ動機もあまり無いと思われます。従って、前項の活動は主に日本人が積極的に行わなければなりません。しかし、日本人の中でこれに取り組んでいる人は極めて少数です。
 
3.ブラウザも欧米のラテン文字を想定して開発されています。CSS3の作業グループに参加しているのはブラウザの開発団体の代表者が多いため、ブラウザの実装に影響を与えることになると、参加者の利害に直結してしまいます。こうした利害関係に基づく反対もあります。これは、理解云々の話ではないので対応が難しくなります。
4.作業プロセス上の問題もあります。現在のW3Cのプロセス方針は、「仕様作成は合意に基づいて進める」ということになっています。このため、強硬な反対者がいると先に進むことができません。
 
5.11月のTPACに提案された論理プロパティはXSL-FOの相対プロパティに相当するものです。当社は、既に10年間にわたってXSL-FOのスタイルシートを多数開発しています。XSL-FOは最初からグローバル化の考えが盛り込まれており、多言語対応のスタイルシートの開発において、相対プロパティはシンプルですし、有用です。しかし、CSSにとっては全く新しい概念であるため相対プロパティの有用性が理解できないようです。また、CSSにはカスケーディングという仕組みがあるため、相対プロパティを絶対プロパティに対応つけるのは最終段階にならざると得ないという技術的な難点もあります。




アウトライナー
PDFを解析して しおり・目次を自動生成


瞬簡PDF 作成 2024
ドラッグ&ドロップでPDF作成

「Wikiベースの書籍オーサリングとEPUB出力」のこと

11月22日にJEPA主催で開催された「EPUB日本語拡張仕様の現状と将来展開&サービス紹介」にて、現在、開発中のWikiベースの書籍オーサリングのサービスについて、少しお話させていただきました。
 
このセミナーが企画された当初は、EPUB関連サービスやアプリの紹介も何件か予定されていました。その後、「EPUB日本語拡張仕様策定」提案が総務省の「新ICT利活用サービス創出支援事業」のひとつに採択されたことから、一気に仕様策定関係者のプレゼンの場に傾斜してしまったものです。ということで、かなり肩身の狭い思いがありましたが、少しだけさわりを紹介させていただきました。
 
EPUB3.0に日本語のレイアウトに必要な機能を盛り込むことは、もちろん重大な課題です。一方で、EPUBを初めとする電子書籍を出版活動の中にどのように組み込んでいくかを真剣に考える必要があると考えているからです。
 
EPUBは主に配布形式として利用されますので、従来の制作工程で考えて見ますと印刷された本に匹敵します。従って、書籍制作の流れの中では下流に位置づけられます。しかし、電子書籍の制作はもっと上流から見直していく必要があるように思います。Wikiベースの書籍オーサリングは、書籍の制作をコンテンツを執筆するという上流から見直していこうというものです。
 
セミナー終了後、何人かの方から意見を頂戴しましたが、Wikiを採用した理由についての質問と意見が多くありました。このあたりは、また、時期をみて詳しく報告したいと考えています。とりあえずは、発表の後、IDPFから参加されたBill MaCoy氏から「Extreamly Interesting !」と声を掛けていただいたことを報告しておきます。
 
○プレゼン資料
「Wikiベースの書籍オーサリングとEPUB出力」
11月22日EPUBセミナーの資料とライブ映像




瞬簡PDF 変換 2024
PDFをOffice文書へ高精度変換


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識

Server Based Converter V3.0 MR4 をリリース

Microsoft Officeの文書などをOfficeアプリケーションをインストールすることなしに、独自にPDFやFlashなどのファイルに変換する「サーバベース・コンバータV3.0」の改訂版MR4をリリースしました。
○修正項目
1) PDFからの変換について
・\ に英文フォントが指定されているとバックスラッシュになっていたので、encoding で判断できるときは日本語フォントで出力するようにした
2) Wordからの変換について
・表の列幅が正しく取得できないことがあり、表前後のレイアウトが崩れることがあった
・ヘッダの高さの判定に問題がありヘッダ内のイメージを出力していないことがあった
・東洋文字の判定に問題があり英単語の途中で改行することがあった
・フィールド内の不要な文字列を出力することがあった
・ヘッダ/フッタ内の段落囲み罫線に左マージンンを考慮していなかった
・ページ区切りの段落に設定されてる段落後間隔を次ページ先頭に反映していたため、次ページ先頭に余計な空白が入ることがあった
・ページ区切りの段落の行間を次ページ先頭に反映していたため、次ページ先頭に余計な空白が入ることがあった
・ページ先頭行に設定されている段落前間隔をページ先頭でも反映していたため余計な空白が空くことがあった
・フォントの取得に問題があり文字幅の違いなどでレイアウトが崩れることがあった
・箇条書きの段落にぶら下げインデントが反映されていなかった
内の文字列が欠落することがあった
・テキストボックス内のマージンを広く取ってしまうことがあり、改行位置が変わったり、はみ出た文字が欠落することがあった
・MR2 から、図の反転属性が正しく処理されていなかった
・表内のテキストボックス位置が及び出力順に問題があったので修正
・レイアウト枠内の段落基準の線画がずれることがあった
・表内の文字列に設定された文字囲罫線がずれることがあった
3) Excelからの変換について
・ページ設定の「次のページ数に合わせて印刷」の指定を無視していた
・罫線を二重に出力していることがあり、破線・点線・鎖線が正しく再現されないことがあった
・Excelのファイルフォーマット仕様から逸脱したファイルへの対応をした
4) PowerPointからの変換について
・透過イメージに設定された影が正しく処理されていなかった
・出力されるべきでないマスターテンプレートの文字が出力されることがあった
・ファイル判別に失敗して Unknown document type. になるものがあった
5) その他
・SVG への変換で、フォントサイズなどの属性が正しく出力されないことがあった
・Flash への変換で、ボールドとイタリックが正しく反映されないことがあった
・JPEGからのイメージ出力で、JPEGの解像度の取得に問題があり、指定された解像度で出力されていなかった
 
○詳しい情報
https://www.antenna.co.jp/sbc/
 
※MR(メンテナンス・リリース)は、保守の一環としてリリースしているもので機能強化よりも問題点の改修を中心としています。




HTML on Word
WebページをWordで作る!


瞬簡PDF 書けまっせ 2024
PDFに文字が書ける! 入力欄を自動認識
Pages: Prev 1 2 3 ... 77 78 79 80 81 82 83 ... 110 111 112 Next