AI OCR 뜻과 활용방안 – 이게 가능하다고?

OCR이란

OCR이란 Optical Character Reader의 약자로 광학적 문자 판독을 의미 합니다. 1928년 처음 등장하였고 1980년대 컴퓨터 보급이 증가하고 이미지 프로세싱 기술이 고도화되면서 함께 발전하였습니다.

OCR기술로 신분증 인식, 차량번호 인식 등 여러 산업과 업무에 활용되고 있습니다. 대표적인 AI OCR프로그램으로는 러시아 ABBY사에서 개발한 파인리더 라는 프로그램이 있습니다.

AI OCR의 등장

기존의 OCR은 좌표 기반으로 글자를 인식합니다. 양식이 변하지 않은 신분증는 글자를 잘 뽑을 수 있지만 양식이 정해져 있지 않은 문서에서는 글자 추출에 한계가 있습니다. 또 글자, 이미지, 표가 포함된 복잡한 문서에서는 추출 정확도가 더 떨어지게 됩니다.

AI OCR은 양식이 정의되지 않은 ‘비정형 문서’에서 글자를 추출하고자 하는 요구에서 부터 시작했습니다. 양식이 다른 문서에서 필요한 정보만 추출하여 데이터베이스에 넣어야 한다면 기존에는 사람이 일일이 확인 후 타이핑 하는 방법밖에는 없었습니다.

2010년대 후반부터는 인식률이 높은 AI알고리즘이 속속 공개되었고 이와 함께 GPU카드의 성능도 좋아지면서 AI OCR기술도 함께 발전해 나가게 됩니다.

AI OCR 처리 프로세스

AI OCR은 이미지 전처리 → 글자 영역 검출 → 글자 인식 → 후처리 과정을 통해 비정형문서에서 데이터를 추출합니다.

  • 이미지 전처리: 글자 영역과 인식을 잘 처리할 수 있도록 문서이미지를 회전, 노이즈제거, 이진화 과정을 진행합니다. 이전에는 이미지 프로세싱 기술을 사용했지만 최근에는 AI 알고리즘을 이용하여 전처리를 진행합니다.
  • 글자 영역 검출: 문서 이미지에서 글자 영역만 추출하는 과정입니다. 이미지, 표 등 복잡한 문서에서 글자 영역만 추출하여 글자를 인식할 수 있도록 합니다.
  • 글자 인식: AI 알고리즘을 통해 글자를 인식합니다. 한글, 영문 및 기타 언어 및 숫자를 인식합니다. 이때 글자이미지를 많이 학습해둔(Pre trained)모델을 사용하여 학습 기간을 단축하거나 정확도를 높입니다.
  • 데이터 후처리: 글자 인식과정에서 추출한 텍스트를 보정하는 과정입니다. 글자 간의 연관성, 추출대상의 특성(글자/숫자/특수문자)을 비교하고 보정합니다.

AI OCR의 활용

문서이미지에서 필요한 부분만 추출하여 DB에 입력하는 일은 생각보다 여러곳에서 필요로 합니다.

보험사에서는 고객이 제출한 병원 진료비 영수증과 진단서 등을 내부 시스템에 입력하고 지급여부를 결정합니다. 고객이 제출한 영수증 대부분이 스마트폰으로 촬영된 이미지이고 병원 영수증은 종류만 500여 종이나 되다 보니 전담팀이 영수증 정보를 입력하는 일을 한다고 하네요.

이를 자동화한다면 보험금 청구부터 지급까지 시간을 단축할 수 있고 정보입력에 들어가는 노력도 줄여줄 수 있습니다. 은행이나 카드사도 문서 사용 및 전산입력 업무에 활용될 수 있습니다.

꼭 문서 이미지가 아니어도 업무 현장에서 스마트폰으로 촬영한 사진에서 글자를 추출하고 앱을 통해서 바로 전산입력이 되는 건설업이나 공장, 서비스 업 등에서도 활용이 가능합니다.

AI OCR의 미래 IDP

AI OCR은 비정형 이미지, 문서에서 텍스트를 추출하는 역할을 합니다. 그렇지만 현장에서는 텍스트만 추출하는게 아니라 데이터베이스에 저장하고 데이터를 분석하고 생성형AI를 만들기 위한 벡터데이터를 만드는 등 여러 추가 작업이 필요합니다.

그래서 IDP(Intelligent Document Processing)의 개념이 나오게 되었고 발전하게 되었습니다. IDP와 관련된 글은 아래 링크를 참고하시기 바랍니다.

AI OCR과 IDP차이점 확인하기

Leave a Comment