エントリー

新年明けてから大分経ちましたが…

明けましておめでとうございます。ブログ的に。
さて、年明けに何をやっていたかと言うと、半日はQA回答に追われ、残りで給報のOCR処理にチャレンジしておりました。まずは手元にある実紙スキャン画像(300dpi)で試しております。
パターン学習方式はマイナンバー書式になって役に立たないのは判っているので、国税連携OCRにも利用している表認識を行っている。なんと、罫線認識は99%以上の精度でポジショニング出来ている。もちろん画像そのままでは認識精度が悪いので、画像処理を施している。中身は秘密のア…。あとは、どのセルが何処なのかを認識できればOCRポジションを特定できる。タイトルを読み取って…とやってみたが、印刷のタイトル文字は活字で認識しやすい筈なのだが、色字なので認識が甘い。コントラスを上げると文字が切れる。色を濃くすると、背景のゴミも湧いてくる。税務LANから出した擬似イメージだとタイトルもバッチリ読めるのだが、紙スキャンものは認識は良くない。タイトル読んで処理するには時間も掛かりすぎる。ポジションを特定してから、念押しでタイトルも読む様な工夫が必要だ。画像処理と表認識だけで0.5秒を費やす(私の開発PCで)。給報の場合、処理枚数が多いので1、2秒で決めてしまいたい。
はたして上手く行くのやら…。ちなみに本年は、西国の方で話題のAI-OCRの実証実験を行う予定です。どっちが先にものになるか競争だな。AIは学習しないと意味が無いから、それらをどの様に蓄積するのか?帳票様式が変わったら一から学習だものね。
我々のモットーは、如何にコストを掛けずに実現するか?だから。大手に出来ない事を、とにかくやってみるだけさ。

by 千田

ページ移動

ユーティリティ

カレンダー

2020年07月
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 -

検索

エントリー検索フォーム
キーワード

過去ログ

Feed