(python) BeautifuSoup library find() and findAll() (Crawling, 크롤링)

find() 와 findAll()는 BeautifulSoup에서 가장 많이 사용된다.

이 함수를 사용하면 HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링 할 수 있다.


findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

1. tag매개변수는 태그 이름으로 문자열 또는 리스트를 넘길 수 있습니다.

2. attributes매개변수는 속성으로 이루어진 파이썬 딕셔너리르 받고, 그중 하나에 일치하는 태그를 찾습니다.

3. recursive 매개변수는 불리언입니다 True이면 findAll함수는 일치하는 태그를 찾아 자식, 자식의 자식을 검색합니다. false이면 최상위 태그만 찾습니다.(default 는 True)

4. text매개변수는 태그의 속성이 아니라 텍스트 콘텐츠에 일치한다는 점이 좀 다릅니다. 예를들어,
the clothes가 몇번 나타났는지 보려면 다음과 같이 나타냅니다.
.findAll(text = "the clothes")

예를들어, James태그와 Marry태그를  모두 반환합니다.

.findAll("span", {"class":{"green", "red"}})



댓글

이 블로그의 인기 게시물

(네트워크)폴링방식 vs 롱 폴링방식

(ElasticSearch) 결과에서 순서 정렬

(18장) WebSocekt과 STOMP를 사용하여 메시징하기