2010년 11월 5일 금요일

OCR 인식 테스트 : MS Officce Document Imaging : 배율확대에 의한 인식율

MS Office Document Imaging의 OCR 인식 기능을 사용하여 숫자만 가득한 이미지를 테스트 해 보았다.
인식이 잘 되는 경우도 있고 안되는 경우도 있어서 이미지를 단계별로 확대해 가며 정확하게 읽어지는지 검사했다.
주로 1.4배~1.7배 사이에서 인식이 잘 되는것 같긴 한데..
이미지에 따라 인식율이 다르게 나온다.

더 나은 OCR 라이브러리가 필요할듯...

1x    115440 4,285 4,260 4.320 4,260 4 290 4,930 3,650 3,660 15 4.. 260 1 090
1.1x  115440 4285 4,260 4,320 4,260 4, 290 4,930 3650 3,660 15 4, 261) 1 .fl
1.2x  115440 4,285 4,260 4,320 4260 4,290 4,930 3,650 3,660 15 4,260 1 .090
1.3x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 I L LJJ L090
1.4x  115440 4.285 4.260 4.320 4.260 4.2% 4.930 3.650 3.660 15 4.260 1.090
1.5x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 1090
1.5x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 1090  24bit
1.6x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 1,090 *****
1.7x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 1,090
1.8x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 L090
1.9x  115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 3,660 15 4,260 1,090
2x    115440 4,285 4,260 4,320 4,260 4,290 4,930 3,650 I_I, ? 15 4,260 1,090
3x    p _ C) N) 0, CDN)N)C)N) CD 0, 0, C) CD 0, N) 0, C) 0, (1 p p (T

* 정규식
[0-9]{5,6}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}\s+[\,\.0-9]{2,10}

댓글 없음:

댓글 쓰기