Blog:Neutron Star

tma1のブログ 「試行錯誤」・・・私の好きな言葉です

ソースネクスト 「本格読取」

本格読取 (スリムパッケージ版)

いまのところ用途は文字データのスキャンとテキストへの変換のみです。


文字の認識率は良いですね。「か」「が」や「つ」「っ」などをはじめとして苦手な文字はありますが、パターン辞書や単語辞書を鍛えることで結構使えそうです。パターン辞書と単語辞書は複数作成できて読み込む原稿の内容に合わせて辞書を変更したり、別の辞書を追加で読み込むことも可能だということです。小説などはデフォルトでも文字認識が面白いようにヒットするのでついつい時間を忘れて作業に没頭してしまいます。


これなら青空文庫工作員にもなれそうです。


スキャナからの読み込みはスキャナ専用のドライバで読み込む方法と、 「本格読取」独自のドライバで読み込む方法があります。「本格読取」独自のドライバを使うと、読み込み間隔などを指定して読み込みの自動化ができて便利なはずですが・・・うちのスキャナはEPSON GT-7000というSCSI-2接続の古いものだからか、グレースケールの読み込みで濃度の指定ができず、また領域指定でスキャンしてもA4の領域をフルにスキャンするまで止まりません。しかもそれで読み込んだ画像で認識させると・・・これがもうしっちゃかめっちゃかでお話になりません。OCRではもとの画像の質がいかに大事かということですね。


EPSON GT-7000のTWAIN 3ドライバで読み込んだ場合は、設定したトーンカーブでの濃度補正が効くし指定した領域のみスキャンしてくれますが、1回スキャンするごとに設定ツールが終了してしまうので連続してスキャンすることができないのが難点です。もしかして新しい機種では「本格読取」独自のドライバでももっとまともに使えるんでしょうか?


スキャンした画像ですが、タイトルがすべて「無題」なのでページ一覧ウィンドウを見ただけでは内容が分かりません。画像ファイルを読み込んだ場合はファイル名が表示されるので、スキャンしたら保存してからいったん閉じて画像ファイルを読み込みなおすべきなのかもしれません。とはいえ右下のステータス欄にページ数が表示されているし、画像ウィンドウで内容は確認できるので無題のままでも作業に支障はありませんが。


作業ファイルが巨大なのにはちょっと参りました。読み込んだ画像や認識領域指定、認識結果などが編集可能な形で保存できるんですが、文庫版の見開きを50枚(100ページ分)400dpiの画像のみ読み込んだだけの作業ファイルは624MBです。JPEGなら1枚400KB平均でしょうから30倍以上でしょうか。作業ファイルは画像を非圧縮で保存しているということでしょうか。


作業が終わったら読み込んだ画像は別々にJPEG形式ででも保存して、作業ファイルは削除することにします。