Python Project 0-2 이미지에 있는 텍스트를 텍스트화 하기
안녕하세요. 이번에는 이미지에 있는 텍스트를 텍스트화 시키는 방법을 알려드리겠습니다. 뭐 요즘 유명한 Deep Learning Recognition을 이용하면 가능합니다. 이것을 하나하나 다 하기에는 너무 어렵고 힘들기 때문에 간단하게 라이브러리를 받아서 사용하면 됩니다.
일단 방법을 알려드리겠습니다.
처음에는 Tesseract를 설치했습니다. 이것을 설치를 해야 pytesseract가 되는지 까지는 모르겠습니다. 처음에 Tesseract를 설치해서 이미지에 있는 텍스트가 텍스트화 되는 것을 확인하고 보니, Python코드로 사용을 어떻게 해야 할지 몰라서 pytesseract를 다시 설치를 하고 사용을 했습니다.(잘 모르는 부분에 대해서 죄송합니다.)
일단 tesseract라는 것을 구글링 하면 아래와 같은 사이트를 찾을 수 있습니다. 다른 블로그를 보면 다른 사이트로 가는 경우도 있는데, 제가 볼 때에는 뭘 받아도 상관없는 것 같습니다. 오늘 날자기준(2019-06-3 )으로 4.0버전이상을 사용하면 큰 문제가 없어 보입니다.
일단 아래 프로그램을 다운을 받아서 실행을 합니다.
계속 쭉쭉 Next를 하시면 됩니다.
당연하 것이지만 동의를 하고 쭉쭉 나가시면 됩니다.
모든 사람을 하는 게 편해 보여서 위에를 선택했습니다.
다른 언어도 변환이 되게 하면 좋을 것 같아서 저는 추가로 다 설치했습니다. 그런데 막상해보니까 영어는 잘 되는데 한국어는 잘 안되더라고요. 그래서 영어만 해도 큰 문제가 없어 보입니다. 당장 이번 프로젝트할 때에는…
설치 위치까지 지정을 하면 Install를 클릭해서 설치를 시작합니다.
이렇게 해서 설치가 완료되었습니다. 하지만 이것이 끝이 아닙니다. 라이브러리 경로를 지정해야 합니다.
시스템 속성에 가서 환경변수를 클릭합니다.
시스템변수에 Path라는 것을 클릭한 다음에 편집을 클릭합니다.
그리고 그 마지막에 Tesseract-OCR경로를 넣어주시면 됩니다. 일반적으로 Program Files 혹은 Program Files(x86)에 있을 겁니다. 확인하시고 경로를 넣으시면 됩니다.
자 그럼 잘 되었는지 확인해 볼까요?
cmd창을 열어서 tesseract를 입력하면 위에처럼 나올 겁니다.
그리고 위에처럼 입력을 하면 TestImg00.pmg에 있는 이미지에 있는 텍스트를 test라는 파일에 텍스트를 입력합니다.
이때 TestImg00.jpg는 아래 그림입니다.
출력 결과는 아래에 있습니다.
일단 이미지에 있는 텍스트가 텍스트화가 되는 것을 확인을 했습니다. 하지만 이렇게 쓰면 Python에서 사용이 힘들기 때문에 뭔가 Python 라이브러리가 필요합니다.
그래서 저는 pytesseract를 설치했습니다.
설치 방법은 아래 그림 처럼하면 하면 됩니다.
전에처럼 버전을 업그레이드하라고 나오는데 무시하고 넘어갔습니다.
자 이렇게까지 하면 Python에서 위에 한 것처럼 이미지에 있는 텍스트를 텍스트화 할 수 있습니다. 코딩은 정말 짧게 3~5줄만 입력하면 됩니다.
일단 라이브러리를 import를 합니다.
from PIL import Image
import pytesseract
그 이후에 텍스트 이미지를 im변수에 넣으면 됩니다.
im = Image.open("TestImg00.png")
그리고 image_to_string함수를 이용해서 텍스트 이미지를 텍스트화 하면 됩니다.
이때 언어를 eng로 해서 영어로 인식이 되게끔 하면 됩니다. 다른 나라 언어도 가능하지만 영어가 결과가 잘 나오기 때문에 간단한 영어로 하시는 것이 일단은 좋습니다.
text = pytesseract.image_to_string(im,lang='eng')
print(text)
출력 결과
잘 나오는 것을 확인할 수 있습니다.
이렇게까지 하면 총 3단계 중 2단계까지는 마무리가 되었습니다. 그럼 다음 글에서 마지막 부분인 Text를 읽는 것만 구현을 하면 프로젝트가 완성이 됩니다.
'Python > Python Project 01 - WebCam으로 이미지 찍어서 글 읽' 카테고리의 다른 글
Python Project 0-4 WebCam으로 이미지를 찍어서 글 읽기 마지막 (0) | 2019.07.05 |
---|---|
Python Project 0-3 텍스트를 컴퓨터가 읽게 하는 코딩 (0) | 2019.07.03 |
Python Project 0-1 WebCam으로 이미지 찍기 (0) | 2019.07.01 |
Python Project 0-0 WebCam으로 이미지를 찍어서 글 읽기 (0) | 2019.06.29 |