본문 바로가기

카테고리 없음

Python Tesseract ocr으로 문서 만들기 (Window)

 

 

 

 

 

 

 

위의 과정을 통해 Tesseract를 설치할 수 있습니다. 추가로 아래와 같이  pytesseract 패키지를 설치함으로써 이제 tesseract를 사용할 준비를 마쳤습니다. 

 

pip install pytesseract

 

이제 아래의 코드를 실행하면서 입력한 문서 또는 이미지를 텍스트로 변환하는 과정을 진행해보겠습니다. 이미지를 불러올 때 OpenCV를 사용할 수 있지만 이 글에선 pillow를 사용하여 이미지를 불러오겠습니다. pillow를 사용하는 방법은 아래의 글을 통해 확인할 수 있습니다.

 

 

Python Pillow 사용법

Python Pillow 설치 'Pillow'는 파이썬에서 이미지 처리를 위해 사용되는 라이브러리입니다. 이 라이브러리는 PIL(Python Imaging Library)의 포크로, PIL의 기능을 계승하면서도 다양한 추가 기능과 개선 사항

learnhiksang.tistory.com

 

 

import pytesseract
from PIL import Image
import matplotlib.pyplot as plt

filename = 'image_02.jpg'  ## 파일 경로 설정
img1 = Image.open(filename) ## 이미지 불러오기

text = pytesseract.image_to_string(img1, lang='kor+eng') ## 이미지를 텍스토로 변환

위의 코드를 실행시킨다면 불러온 이미지의 글자들이 위처럼 text에 저장 되었을 것입니다.

 

하지만 tesseract is not installed or it's not in your PATH. See README file for more information. 와 같은 오류 메세지를 뱉을 수 있습니다. 

 

 

위의 오류가 발생하는 경우 경로설정을 해준다면 해결이 가능합니다. 아래의 글을 통해 오류에 대해 자세하게 설명해두었습니다. 

 

 

 

TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

 

learnhiksang.tistory.com

 

 

다음 발행글에선 Tesseract를 활용하여 문서를 만들어 보겠습니다.

 

 감사합니다.