Python BeautifulSoup

Project using python/Jobs scrapper 2020. 12. 21. 10:27

Beautiful Soup은 HTML 및 XML 파일에서 데이터를 추출하기 위한 Python 라이브러리다.

pipenv install beautifulsoup4

import requests
from bs4 import BeautifulSoup

result = requests.get(url)
soup = BeautifulSoup(result.text, "html.parser")

pages_container = soup.find("div", {"class": "s-pagination"})

BeautifulSoup로 추출한 html에서 tag가 "div"이고 class가 "s-pagination"인 html을 추출한다. 이에 해당하는 html 코드가 여러 개일 경우 가장 먼저 발견되는 것을 추출한다.

pages = page_container.find_all("a", recursive=False)

find_all은 인자 값으로 준 태그에 해당 하는 모든 html를 배열로 추출한다. 즉 page_container가 가지고 있는 html 코드에서 "a" 태그를 가진 모든 html을 추출해서 배열로 반환한다.

"a" 태그를 가져오면서 해당 "a" 태그 밑에 있는 "a" 태그도 가져올 수 있다. 계속해서 밑으로 내려가면서 "a" 태그들을 가져올 수 있는데, 이것을 원치 않을 경우 recursive=False를 하면 direct childeren "a" tag만 가져온다.

page = pages.get_text(strip=True)

get_text()는 html 코드에서 태그들을 다 떼고 내용물(문자열)만 가져온다. 여기서 space나 개행 등이 있으면 strip=True로 다 없애 버린다.

Scrap WeWorkRemotely (0)	2020.12.21
Extract jobs from Stack Overflow (0)	2020.12.21
get_last_page of Stack Overflow (0)	2020.12.21
Job scrapper Intro (0)	2020.12.21
Python requests (0)	2020.12.21

Cog Factory Cog Factory