ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Python BeautifulSoup
    Project using python/Jobs scrapper 2020. 12. 21. 10:27

    Definition

       Beautiful Soup은 HTML 및 XML 파일에서 데이터를 추출하기 위한 Python 라이브러리다.

    Installation

    pipenv install beautifulsoup4

    Usage

    import requests
    from bs4 import BeautifulSoup
    
    result = requests.get(url)
    soup = BeautifulSoup(result.text, "html.parser")

    Method

    find

    pages_container = soup.find("div", {"class": "s-pagination"})

       BeautifulSoup로 추출한 html에서 tag가 "div"이고 class가 "s-pagination"인 html을 추출한다. 이에 해당하는 html 코드가 여러 개일 경우 가장 먼저 발견되는 것을 추출한다.

    find_all

    pages = page_container.find_all("a", recursive=False)

       find_all은 인자 값으로 준 태그에 해당 하는 모든 html를 배열로 추출한다. 즉 page_container가 가지고 있는 html 코드에서 "a" 태그를 가진 모든 html을 추출해서 배열로 반환한다.

      "a" 태그를 가져오면서 해당 "a" 태그 밑에 있는 "a" 태그도 가져올 수 있다. 계속해서 밑으로 내려가면서 "a" 태그들을 가져올 수 있는데, 이것을 원치 않을 경우 recursive=False를 하면 direct childeren "a" tag만 가져온다.

    get_text

    page = pages.get_text(strip=True)

       get_text()는 html 코드에서 태그들을 다 떼고 내용물(문자열)만 가져온다. 여기서 space나 개행 등이 있으면 strip=True로 다 없애 버린다.

    참고 자료

    'Project using python > Jobs scrapper' 카테고리의 다른 글

    Scrap WeWorkRemotely  (0) 2020.12.21
    Extract jobs from Stack Overflow  (0) 2020.12.21
    get_last_page of Stack Overflow  (0) 2020.12.21
    Job scrapper Intro  (0) 2020.12.21
    Python requests  (0) 2020.12.21

    댓글

Designed by Tistory.