본문 바로가기

분류 전체보기

(8)
TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information. TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information. 만약 Tesseract를 설치하였음에도 불구하고 위 오류가 발생한다면 위 오류를 해결하기 위해 python 코드내에서 경로 설정이 필요합니다. Tesseract 설치 과정에서 우리는 설치 경로를 설정했습니다. 이미 설치를 완료하셨다면 다시 설치 과정을 확인하고 경로를 확인해야 합니다. pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' text = pytesseract.image_to_string(..
Python Pillow 사용법 Python Pillow 설치 'Pillow'는 파이썬에서 이미지 처리를 위해 사용되는 라이브러리입니다. 이 라이브러리는 PIL(Python Imaging Library)의 포크로, PIL의 기능을 계승하면서도 다양한 추가 기능과 개선 사항을 제공합니다. Pillow를 사용하면 이미지 파일을 열고 저장하거나, 다양한 이미지 형식으로 변환하는 것이 가능합니다. 또한, 이미지의 크기를 변경하거나, 이미지를 회전시키거나, 필터를 적용하는 등의 기능도 제공합니다. Pillow는 다양한 이미지 파일 형식을 지원하며, 이로 인해 사용자는 복잡한 이미지 처리 작업을 쉽고 간편하게 수행할 수 있습니다. 또한, Pillow의 문서화가 잘 되어 있어 사용자가 필요한 기능을 쉽게 찾고 이해할 수 있습니다. Pillow를 사..
Python Tesseract ocr으로 문서 만들기 (Window) 위의 과정을 통해 Tesseract를 설치할 수 있습니다. 추가로 아래와 같이 pytesseract 패키지를 설치함으로써 이제 tesseract를 사용할 준비를 마쳤습니다. pip install pytesseract 이제 아래의 코드를 실행하면서 입력한 문서 또는 이미지를 텍스트로 변환하는 과정을 진행해보겠습니다. 이미지를 불러올 때 OpenCV를 사용할 수 있지만 이 글에선 pillow를 사용하여 이미지를 불러오겠습니다. pillow를 사용하는 방법은 아래의 글을 통해 확인할 수 있습니다. Python Pillow 사용법 Python Pillow 설치 'Pillow'는 파이썬에서 이미지 처리를 위해 사용되는 라이브러리입니다. 이 라이브러리는 PIL(Python Imaging Library)의 포크로, ..
파이썬으로 텔레그램 봇 메세지 보내기(telepot) 오늘은 텔레그램 봇을 만들고 telepot이라는 라이브러리를 사용하여 봇으로 사용자에게 메세지를 보내는 코드를 작성해보겠습니다. 카카오톡도 오픈채팅의 방장봇 기능이 존재하고 챗봇을 만들 수 있지만 신청 해야하는 번거로움과 텔레그램보다 복잡한 구조로 인해 텔레그램으로 챗봇을 통해 구현하고자 합니다.  이 글은 텔레그램 챗봇을 만드는 글이 아닙니다.  개인용 챗봇에 메세지를 보내는 예제 글입니다. 1. 텔레그램 검색창에 BotFather를 검색한다. 많은 피싱계정이 있으니 아래와 같이 파란색 체크 표시가 있는 BotFather를 선택해야 한다.    2. 봇 생성을 진행한 뒤 API를 발급받는다. (EX: 154684894:AE66544EWEFASDF) 예시와 같이 API 코드가 발급됩니다.    3. ge..
OpenAI API key 발급 방법 OpenAI API key 발급 방법 이 글에선 OpenAI의 API를 사용하기 위한 API key를 발급 받는 방법을 다룹니다. 아래의 순서를 따라가면 API key를 발급받을 수 있습니다. 먼저 OpenAI 계정을 만들어서 로그인을 합니다. ChatGPT가 아닌 API KEY를 받기위해 API를 선택합니다. 좌측 메뉴에서 API keys를 선택합니다. 아래의 화면에선 내가 이전에 받은 API key들과 언제 생성했는지 언제 마지막으로 사용했는지 확인할 수 있습니다. 우리는 새로운 api key를 발급하려고 하니 Create new secret key를 통해 새로운 key를 발급받도록 합니다. 새로 발급받을 key의 이름을 입력하고 Create secret key 버튼을 통해 키를 발급 받을 수 있습니..
OpenAI Moderation 사용법 Moderation 우리가 주로 사용하는 LLM의 경우 ChatGPT처럼 이미 프롬프트 템플릿이 정해져 있고 별다른 설정없이 LLM을 사용할 수 있다는 장점이 있습니다. 하지만 GPT3.5나 최신버전의 GPT가 아닌 다른 출력값이 정제되지 않은 LLM을 사용한다면 출력값은 매우 폭력적이거나 편향이 강할 수 있습니다. 대부분의 API를 유료화한 OpenAI도 Moderation에 대한 분류는 아직 유료화를 진행하지 않았습니다. 이번 글에선 OpenAI의 Moderation API를 사용하여 문장의 폭력성과 ChatGPT의 정책에 맞지 않은 문장을 분류해보도록 하겠습니다. 위 그림을 통해 OpenAI에서 규정하고 있는 Moderation categories에 대해서 확인할 수 있습니다. 관심이 있으신분들은 ..
requests 사용시 글자 깨짐 발생 해결 방법 requests 사용하여 추출한 HTML 코드가 깨지는 문제 해결 방법 url = 'HTML 추출 원하는 페이지' response = requests.get(url) html = response.text soup_request = BeautifulSoup(html, 'html.parser') print(soup_request) 위 결과 처럼 requests를 사용하여 추출한 HTML 코드가 깨져보인다면 웹페이지의 문자셋(charset)과 이를 해석하는 문자셋이 다르기 때문에 발생하는 문제입니다. 간단하게 영어로 작성한 문서를 한글을 읽는 방법으로 읽는다면 제대로 읽지 못하는 것이라고 생각하면 됩니다. 이를 해결하기 위해 먼저 작성된 웹페이지가 어떤 문자셋을 사용해서 만들어졌는지 확인해야 합니다. 이는 웹..
웹페이지 크롤링 할 때 (requests VS urllib.request ) requests VS urllib.request 웹페이지를 간단하게 크롤링 한다면 Python 패키지인 requests와 urllib를 사용할 수 있습니다. 결론적으로 두 패키지간의 기능은 거의 유사하며 간단한 웹페이지 크롤링이 필요하다면 requests를 사용하는게 간편합니다. request 먼저 두 패키지를 사용하여 결과를 확인해보자. import requests import urllib.request from bs4 import BeautifulSoup ## html parsing을 위한 패키지 만약 위의 코드를 실행하는데 에러가 발생한다면 터미널 또는 쥬피터노트북에서 아래의 코드를 실행시켜 bs4를 설치할 수 있습니다. !pip install beautifulsoup4 두 패키지를 비교하기 위해 ..