エントリー

2020年01月の記事は以下のとおりです。

給報OCR経過報告

今現在、摘要欄の上までOCRが掛けられる様になりました。
ノウハウが無いので、試行錯誤で大変です。
表セルが上手く認識出来ない場合を想定しての位置判定は、二重三重のバックアップ処理が必要なので、どこまで試行して諦めるかの閾値を考えるのが面倒です。なにせ処理時間は限られていますので。ちなみにここまでの処理で1秒はかろうじて切っています。
画像処理を適用しなければ、まだまだ速くなります。やはり画像に載っているゴミを取り除くのに時間が掛かります。Jpeg画像で見やすくするためにエッジを立てる処理が入ってしまうとノイズの元になってしまうようです。
この給報OCRは自前のスキャンソフト、給報パンチソフトと連携する事になるので、スキャン時にOCR用に吐き出す画像に処理を入れて貰うと、こちらで処理しなくても良くなるので、OCR時間短縮が図れそうです。スキャナー、スキャンソフトが違うと相性悪いかも。
さて後半の難所は本人控除周りかな。一応、控配・扶養周りの人的控除はクリアしましたので、自信は付きました。次週はお客さんとこで実際にスキャンした画像でテストしてみようと思います。OCRというよりは、表認識のテストが主となります。

by 千田

2020/1/22追記
給報のパンチエントリーシステムを導入している処に出向いて、実サンプルに処理を掛けてきました。表認識は意外と良く掛かっているようです。但し想定しているレイアウト構成じゃない給報が意外に多く、ポジション割り当てがなかなか上手く適用出来ていない状況です。あと、紙質なのか、印刷が非常に薄いものとか、給報をカラーコピーしたものに書いてきたのでは無いかと言う強者もありました。現在住借控除項目まで進捗しています。本日中に配偶者合計所得までは到達したい。

by 千田

2020/1/24追記
とりあえず、控配・扶養を後回しにして事業所情報まで読める様になりました。あとは罫線認識の精度向上策に乗り出しています。給報の様式によっては、罫線を上手く認識せずに繋がってしまうケースがある。表題文字によってセルが分割されるのは何とか出来るが、繋がってしまったものを分割するのは難しい。アルゴリズムを考え出せない。ここの部分は、本来の形式はこうだから分割!てな訳には行かない。そこで思いついた手法がある。仕組みは考え出せたから実装出来るかどうか試す。

by 千田

新年明けてから大分経ちましたが…

明けましておめでとうございます。ブログ的に。
さて、年明けに何をやっていたかと言うと、半日はQA回答に追われ、残りで給報のOCR処理にチャレンジしておりました。まずは手元にある実紙スキャン画像(300dpi)で試しております。
パターン学習方式はマイナンバー書式になって役に立たないのは判っているので、国税連携OCRにも利用している表認識を行っている。なんと、罫線認識は99%以上の精度でポジショニング出来ている。もちろん画像そのままでは認識精度が悪いので、画像処理を施している。中身は秘密のア…。あとは、どのセルが何処なのかを認識できればOCRポジションを特定できる。タイトルを読み取って…とやってみたが、印刷のタイトル文字は活字で認識しやすい筈なのだが、色字なので認識が甘い。コントラスを上げると文字が切れる。色を濃くすると、背景のゴミも湧いてくる。税務LANから出した擬似イメージだとタイトルもバッチリ読めるのだが、紙スキャンものは認識は良くない。タイトル読んで処理するには時間も掛かりすぎる。ポジションを特定してから、念押しでタイトルも読む様な工夫が必要だ。画像処理と表認識だけで0.5秒を費やす(私の開発PCで)。給報の場合、処理枚数が多いので1、2秒で決めてしまいたい。
はたして上手く行くのやら…。ちなみに本年は、西国の方で話題のAI-OCRの実証実験を行う予定です。どっちが先にものになるか競争だな。AIは学習しないと意味が無いから、それらをどの様に蓄積するのか?帳票様式が変わったら一から学習だものね。
我々のモットーは、如何にコストを掛けずに実現するか?だから。大手に出来ない事を、とにかくやってみるだけさ。

by 千田

ページ移動

  • 前のページ
  • 次のページ
  • ページ
  • 1

ユーティリティ

カレンダー

2020年01月
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 -

検索

エントリー検索フォーム
キーワード

新着エントリー

過去ログ

Feed