(python) BeautifuSoup library find() and findAll() (Crawling, 크롤링)
find() 와 findAll()는 BeautifulSoup에서 가장 많이 사용된다.
이 함수를 사용하면 HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링 할 수 있다.
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
1. tag매개변수는 태그 이름으로 문자열 또는 리스트를 넘길 수 있습니다.
2. attributes매개변수는 속성으로 이루어진 파이썬 딕셔너리르 받고, 그중 하나에 일치하는 태그를 찾습니다.
3. recursive 매개변수는 불리언입니다 True이면 findAll함수는 일치하는 태그를 찾아 자식, 자식의 자식을 검색합니다. false이면 최상위 태그만 찾습니다.(default 는 True)
4. text매개변수는 태그의 속성이 아니라 텍스트 콘텐츠에 일치한다는 점이 좀 다릅니다. 예를들어,
the clothes가 몇번 나타났는지 보려면 다음과 같이 나타냅니다.
.findAll(text = "the clothes")
예를들어, James태그와 Marry태그를 모두 반환합니다.
.findAll("span", {"class":{"green", "red"}})
이 함수를 사용하면 HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링 할 수 있다.
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
1. tag매개변수는 태그 이름으로 문자열 또는 리스트를 넘길 수 있습니다.
2. attributes매개변수는 속성으로 이루어진 파이썬 딕셔너리르 받고, 그중 하나에 일치하는 태그를 찾습니다.
3. recursive 매개변수는 불리언입니다 True이면 findAll함수는 일치하는 태그를 찾아 자식, 자식의 자식을 검색합니다. false이면 최상위 태그만 찾습니다.(default 는 True)
4. text매개변수는 태그의 속성이 아니라 텍스트 콘텐츠에 일치한다는 점이 좀 다릅니다. 예를들어,
the clothes가 몇번 나타났는지 보려면 다음과 같이 나타냅니다.
.findAll(text = "the clothes")
예를들어, James태그와 Marry태그를 모두 반환합니다.
.findAll("span", {"class":{"green", "red"}})
댓글
댓글 쓰기