-
Python BeautifulSoupProject using python/Jobs scrapper 2020. 12. 21. 10:27
Definition
Beautiful Soup은 HTML 및 XML 파일에서 데이터를 추출하기 위한 Python 라이브러리다.
Installation
pipenv install beautifulsoup4
Usage
import requests from bs4 import BeautifulSoup result = requests.get(url) soup = BeautifulSoup(result.text, "html.parser")
Method
find
pages_container = soup.find("div", {"class": "s-pagination"})
BeautifulSoup로 추출한 html에서 tag가 "div"이고 class가 "s-pagination"인 html을 추출한다. 이에 해당하는 html 코드가 여러 개일 경우 가장 먼저 발견되는 것을 추출한다.
find_all
pages = page_container.find_all("a", recursive=False)
find_all은 인자 값으로 준 태그에 해당 하는 모든 html를 배열로 추출한다. 즉 page_container가 가지고 있는 html 코드에서 "a" 태그를 가진 모든 html을 추출해서 배열로 반환한다.
"a" 태그를 가져오면서 해당 "a" 태그 밑에 있는 "a" 태그도 가져올 수 있다. 계속해서 밑으로 내려가면서 "a" 태그들을 가져올 수 있는데, 이것을 원치 않을 경우 recursive=False를 하면 direct childeren "a" tag만 가져온다.
get_text
page = pages.get_text(strip=True)
get_text()는 html 코드에서 태그들을 다 떼고 내용물(문자열)만 가져온다. 여기서 space나 개행 등이 있으면 strip=True로 다 없애 버린다.
참고 자료
'Project using python > Jobs scrapper' 카테고리의 다른 글
Scrap WeWorkRemotely (0) 2020.12.21 Extract jobs from Stack Overflow (0) 2020.12.21 get_last_page of Stack Overflow (0) 2020.12.21 Job scrapper Intro (0) 2020.12.21 Python requests (0) 2020.12.21