OCR

 

1. 개요
2. 예시
3. 제품


1. 개요


OCR (optical character recognition). 한국어로 풀자면 광학식 문자 판독.
보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다. Adobe Acrobat도 OCR 기능이 있다.
이미 존재하는 폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 더 높다. 물론 이전에 프린터로 인쇄했던 문서라면 가장 잘 인식된다.
언어/문자별로 은근히 인식률이 차이가 있다. 그냥 한 줄로 쭉 쓰는 영어 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식률이 매우 뛰어나다. 어지간한 영어 문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨 쓴 필기체의 인식률도 뛰어난 편이다. 반면 한글, 한자같은 문자는 모양이 복잡하기도 하고 연구 투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수 문자로 변환되는 건 아주 흔하다. 또한 모양이 비슷한 글자가 있어서 결과물이 '''야민정음'''으로 나오는 경우도 있다. 특히 '관'을 '판'으로 인식하는 오류가 가장 심해서, '''"-에 판하여"'''로 검색하면 논문이 줄줄이 나온다.(구글 검색 결과) 실생활에 쓰이는 문서(이력서나 공문서)가 소설 책같이 글자만 있는 것은 아니므로 안 그래도 떨어지는 인식률이 바닥을 달린다. 특히 표나 그림이 들어간 문서는 인식률이 최악이다. 한국의 오래된 행정 문서들이 수백 년 역사를 가진 미국보다 느리게 디지털화되고 있는 이유이기도 하다.
일본어 중 히라가나, 가타카나만으로 된 경우는 양호하다. 글자 자체가 정형화되어 있어서 활자본 글자는 90% 이상 인식이 된다. ソ(so)와 ン(n) 정도만 빼면 웬만한 것들은 정확하다. 전각과 반각 문서에도 있지만 일본이 자국어를 컴퓨터로 표현하는 것을 연구한 역사는 꽤 유구하다. 물론 ソ와 ン를 문맥으로 자연스럽게 구분하기 위한 연구도 활발하다.
예전에 비해 인식률이 많이 올라간 상황이나, 100% 믿지는 말 것. 원본 이미지는 보관하는 게 신상에 좋다.
최근 네이버 Clova에서 OCR서비스를 오픈했으며, 네이버 클라우드 플랫폼 콘솔에서 Gateway API를 통해 이용 가능하다. OCR 챌린지인 'ICDAR Robust Reading Competition'에서 '19년 4개 분야를 석권, 정확도와 기술력을 인정받았다고 한다. 금액도 1건 당 3원이며, 무료 100건/월 제공된다. 온라인 문서변환 서비스와 마찬가지로, 데이터 유출 방지와 보안을 위해 믿을 수 있는 플랫폼만 이용하도록 하자. https://www.ncloud.com/product/aiService/ocr
대한민국 여권에 영문 이름을 적어 넣을 때도 1차적으로 OCR을 사용하는 것으로 보인다. KIM이 KTM으로 잘못 적히거나 PARK이 RARK으로 잘못 적히거나 JIWON이 JIWOW로 잘못 적히는 문제는 OCR이 아니라면 일어날 수 없는 문제이다. OCR을 뜬 뒤 직원이 글자가 잘못 인식된 것을 미처 발견하지 못하고 여권을 발급하면 저렇게 된다. 신용카드/체크카드 발급시에도 종종 이런 오류가 발생한다.
모바일용 구글 번역에서는 OCR을 이용한 번역을 지원한다. 인식률은 매우 괜찮은 수준.
우체국에서도 OCR을 이용해 주소를 판독한다고 한다. 89년도부터 도입이 시작됐던 모양.
최근 OCR 앱이 나오면서 스마트폰으로 사진을 찍고, 바로 문서로 변환할 수 있게 되었다. 영어 원서는 어느 앱이나 인식률이 높다. 한글은 TextGrabber + Translator의 성능이 괜찮다. FineReader를 만든 ABBYY에서 만든 앱으로 가격은 11,000원이다. 몇 년 전 OCR을 생각하면 훌륭하지만, 오류가 많아서 손으로 일일이 수정해야 하는 것은 변함없다. 프랑스어독일어, 베트남어diacritic이 있는 언어는 Office Lens를 추천한다. 마이크로소프트에서 만들어 무료로 배포하는 앱으로, diacritic 인식률이 훌륭하다.
Adobe Acrobat Pro DC에서도 한국어 OCR을 지원해 준다.

2. 예시


1. 네이버 클라우드 플랫폼 OCR
[image]
OCRI분야에서 가장 권위있는 경진대회인 "CDAR Robust Reading Competition" 에서 4개 분야를 석권한 네이버 Clova OCR이 최근 네이버 클라우드 플랫폼 콘솔을 통해 서비스 이용 가능해졌다. 고가의 OCR프로그램을 별도로 설치하여 사용하지 않아도 건 별 3원이라는 저렴한 가격으로 이용가능하다. 활자체의 경우 타사대비 15%이상 높은 인식률을 보이며, 필기체의 경우에도 2~3배 정도 높은 인식률을 보유한다.
2. ABBYY OCR
[image]
OCR 프로그램 중 가장 성능이 좋다고 알려진 ABBYY FineReader 11. 2019년 4월 현재 가장 최신 버전인 14 기준으로 개인용은 239,000원.[1] 후지쯔 스냅스캔 시리즈 등 여러 회사의 문서처리용 고속스캐너 중에 번들로 넣어주는 모델이 있다. 문서를 스캔하면서 PDF파일로 묶는데, 그 때 OCR한 결과를 넣어서 검색가능한 PDF로 만들어준다.

3. 제품


  • 유료
    • ABBYY: 가장 성능이 좋은 것으로 알려져있다.
    • Adobe
      • Adobe Acrobat Pro DC: $14.99(월) / ₩29,700(월)[3]
    • Nuance
    • Readiris
    • Grooper
    • 네이버 클라우드 플랫폼
      • Naver Cloud Platform 3원/건당 (무료제공 100회/월)
      • Template OCR: 템플릿이 있는 문서들의 반복적인 스캔을 진행할 경우 인식률을 획기적으로 높일 수 있다.
  • 무료
    • 구글 드라이브: 구글 드라이브에 업로드한 파일[4]구글 문서로 변환. 인식률은 매우 괜찮은 수준. 크롬 브라우저에서 할 경우 인식률을 더 높일 수 있다.
    • 웨일(웹 브라우저): 이미지의 마우스 오른쪽을 클릭. 이미지에 있는 글자 번역 클릭. 작은 파파고 번역창에서 이미지에 있는 글자의 언어를 선택. 마우스로 영역을 지정. 작은 파파고 번역창에 인식된 글자가 나오고 동시에 번역까지 나온다.
    • Mort : 실시간으로 게임을 번역하기 위해 만들어진 OCR.
    • 알PDF[5][6]
    • Capture2Text: 마우스로 영역을 지정한 부분을 인식 가능한 OCR. 일본어 만화를 보기 위해 만들어졌으며, 클립보드로 출력을 지원해서, EZTrans XP(or 구글번역), 아네모네 등과 조합해서 실시간으로 만화를 번역하며 볼 수 있다.
  • 모바일
    • CamScanner
    • Adobe Scan
    • Office Lens
    • TextGrabber
    • OCR Manga Reader: 위의 Capture2Text 제작자가 만든 Android용 만화 OCR. 만화를 보며 구글 번역과 연동해서 선택한 영역을 번역해서 볼 수 있다.

[1] ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습 [image] 그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해 준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해 준다거나 하는 부가 기능이 유용한 거지 인식 기능이 엄청나게 차이 나지는 않는다.[2] 개인용 기능에 문서 비교 기능과 매월 5,000 페이지의 OCR 자동화 기능이 추가되어 있다.[3] 다른 OCR 제품들과 달리 한 번 구입하면 끝이 아니라, 매월 구독료를 지불해야 한다. 이는 Adobe의 CC 버전 이후 모든 제품들이 동일하다.[4] 확장자가 webp인 파일은 구글문서 변환이 안됨.[5] 2.3버전 이후 OCR 기능이 재개되었으며 성능이 향상되었다.[6] 물론 개인 사용자에게만 무료고, 기업이 이용하려면 유료다.