エントリー

給報OCR経過報告

今現在、摘要欄の上までOCRが掛けられる様になりました。
ノウハウが無いので、試行錯誤で大変です。
表セルが上手く認識出来ない場合を想定しての位置判定は、二重三重のバックアップ処理が必要なので、どこまで試行して諦めるかの閾値を考えるのが面倒です。なにせ処理時間は限られていますので。ちなみにここまでの処理で1秒はかろうじて切っています。
画像処理を適用しなければ、まだまだ速くなります。やはり画像に載っているゴミを取り除くのに時間が掛かります。Jpeg画像で見やすくするためにエッジを立てる処理が入ってしまうとノイズの元になってしまうようです。
この給報OCRは自前のスキャンソフト、給報パンチソフトと連携する事になるので、スキャン時にOCR用に吐き出す画像に処理を入れて貰うと、こちらで処理しなくても良くなるので、OCR時間短縮が図れそうです。スキャナー、スキャンソフトが違うと相性悪いかも。
さて後半の難所は本人控除周りかな。一応、控配・扶養周りの人的控除はクリアしましたので、自信は付きました。次週はお客さんとこで実際にスキャンした画像でテストしてみようと思います。OCRというよりは、表認識のテストが主となります。

by 千田

2020/1/22追記
給報のパンチエントリーシステムを導入している処に出向いて、実サンプルに処理を掛けてきました。表認識は意外と良く掛かっているようです。但し想定しているレイアウト構成じゃない給報が意外に多く、ポジション割り当てがなかなか上手く適用出来ていない状況です。あと、紙質なのか、印刷が非常に薄いものとか、給報をカラーコピーしたものに書いてきたのでは無いかと言う強者もありました。現在住借控除項目まで進捗しています。本日中に配偶者合計所得までは到達したい。

by 千田

2020/1/24追記
とりあえず、控配・扶養を後回しにして事業所情報まで読める様になりました。あとは罫線認識の精度向上策に乗り出しています。給報の様式によっては、罫線を上手く認識せずに繋がってしまうケースがある。表題文字によってセルが分割されるのは何とか出来るが、繋がってしまったものを分割するのは難しい。アルゴリズムを考え出せない。ここの部分は、本来の形式はこうだから分割!てな訳には行かない。そこで思いついた手法がある。仕組みは考え出せたから実装出来るかどうか試す。

by 千田

ページ移動

ユーティリティ

カレンダー

2020年07月
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 -

検索

エントリー検索フォーム
キーワード

過去ログ

Feed