requests VS urllib.request

웹페이지를 간단하게 크롤링 한다면 Python 패키지인 requests와 urllib를 사용할 수 있습니다.

결론적으로 두 패키지간의 기능은 거의 유사하며 간단한 웹페이지 크롤링이 필요하다면 requests를 사용하는게 간편합니다.

request

먼저 두 패키지를 사용하여 결과를 확인해보자.

import requests
import urllib.request
from bs4 import BeautifulSoup  ## html parsing을 위한 패키지

만약 위의 코드를 실행하는데 에러가 발생한다면 터미널 또는 쥬피터노트북에서 아래의 코드를 실행시켜 bs4를 설치할 수 있습니다.

!pip install beautifulsoup4

두 패키지를 비교하기 위해 네이버에서 무작위로 뉴스의 링크를 가져왔습니다.

url ='https://n.news.naver.com/mnews/article/023/0003808490?sid=100'

requests의 사용법은 매우 직관적입니다. URL을 문자열로 직접 전달하고 GET 요청을 보낼 때는 requests.get()함수를 사용합니다. 다른 HTTP 메서드를 사용하려면 다른 함수를 사용할 수 있으나 간단한 크롤링을 한다면 GET 요청으로도 충분합니다.

아래의 코드를 통해 크롤링하려는 웹페이지의 html을 추출할 수 있습니다.

response = requests.get(url)
html_requests = response.text
print(html_requests)

BeautifulSoup는 파이썬의 HTML 및 XML 문서를 파싱하고 검색하는 데 사용되는 라이브러리입니다. 주로 웹 스크래핑(웹 페이지에서 데이터 추출)에 활용되며, HTML 및 XML 문서를 트리 구조로 변환하여 데이터를 추출하거나 조작할 수 있게 해줍니다.

아래는 requests와 bs4를 사용하여 웹페이지의 html을 추출한 결과입니다.

soup_urllib = BeautifulSoup(html_urllib,'html.parser')
print(soup_request)

urllib.requests

위의 뉴스와 동일한 url을 사용하여 진행합니다. urllib.request는 requests와 달리 객체를 생성하여 URL을 전달한 후 urllib.request.urlopen()함수를 사용하여 실제 요청을 보냅니다. request보다 덜 직관적입니다. 다만 bot임을 숨기고 크롤링을 해야할 때와 같이 복잡한 HTTP 메서드를 사용하할 때 urllib을 사용하는게 유리할 수 있습니다.

response = urllib.request.Request(url)
html_urllib = urllib.request.urlopen(response).read()
print(html_urllib)

웹페이지의 HTML을 크롤링하고자 할 때, requests와 urllib의 결과는 동일합니다.

soup_urllib = BeautifulSoup(html_urllib,'html.parser')
print(soup_request)