エントリー

2011年07月の記事は以下のとおりです。

OCRライブラリー更新

詳しくは、更新ブログをご覧下さい。

by 千田

国税連携のKSKイメージ関して(つづき)

その後、順調に評価が進み、スレッドオーバーや、メモリーリークの問題も解消し、読み取り時に浮動小数点演算エラーを起していたFAコードのOCR処理も回避策が功を奏してノーエラーとなりました。
サンプル、4000件以上流しましたが、エラーしたのは、申告者が自らOCRマークを黒塗りして作った、嘘の(嘘ではないでしょうが)申告書だけでした。これは自作申告書なので、さすがにOCRが掛からなくても仕方が無いですよね。
処理時間も向上し、次年度への期待は高まります。

ところで、某社製のサーバーの書き込みが異常に遅い問題は確認されているのでしょうかね?私が持ち歩いている5年前のノートよりも書き込みが遅いサーバーなんて・・・考えられないですよね。
営業担当は「そのような問題は認識していない!」などと豪語していましたが、問題意識の低さにうんざりさせられます。

by 千田

国税連携のKSKイメージ関して

現在、KSKイメージデータの解析を行っております。
今更ながらとお思いでしょうが、イメージの個人情報部分を塗りつぶすツールが完成したおかげです。
大量の画像を処理していて、或る事に気がつきました。
スキャンされたイメージの左上のOCRマークの位置が全くずれていない事です。
つまりスキャン後にOCRマークの位置合わせを行った後のイメージを配信してくれていたのですね。さすが国税庁。敬服します。

実は、OCRマークの周辺が汚れているとマーク認識が出来ずに、正確な位置を把握出来ないと言う事で、OCR処理を断念していたのですが、マーク位置が固定になっていると判れば、決め打ちで処理出来る事になります。

OCRマークの取得に失敗した場合には、決め打ちでFAコードを読みに行く様にOCRエンジンを改修しようと思います。

これとは関係なく、大量のイメージを連続的に処理すると、OCRライブラリーがスレッド生成の制限に引っかかって処理出来なくなる現象も確認しました。
OSがW7UなのでクライアントOSの限界に達したのかとも推察できます。サーバーならば限界値が高いと思われるので、まだまだ動作するのかもしれません。
この辺は、追って評価してみます。

by 千田

ページ移動

  • 前のページ
  • 次のページ
  • ページ
  • 1

ユーティリティ

カレンダー

2011年07月
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 - - - - - -

検索

エントリー検索フォーム
キーワード

新着エントリー

過去ログ

Feed