보안뉴스 1페이지 기사제목 크롤링

728x90

from bs4 import BeautifulSoup
from urllib.request import urlopen

#지정한 url의 모든 html 코드를 긁어온다.
html=urlopen('https://www.boannews.com/media/t_list.asp')
bs=BeautifulSoup(html,'html.parser')

#긁어온 코드에서 span 태그의 class 이름이 news_txt인 것만 title에 저장한다.
#boanews 홈페이지에서는 기사 제목을 <span class='news_txt'>에 작성해놓음.
title=bs.select('span[class = news_txt]')

#title에는 기사 제목 뿐만 아니라 태그까지 모두 포함되어 있기 때문에 get_text()를 이용해 text만 뽑아준다.
for i in title:
    print(i.get_text())

개발자 도구를 실행시켜서 보안뉴스에서는 기사 제목을 어떻게 쓰고 있는지 확인이 필요하다.

무작정 span 태그만 지정해준다면 news_writer에 저장된 내용도 나오기 때문에 news_txt로 지정해주었다.

728x90

'프로그래밍 > 파이썬' 카테고리의 다른 글

PEP(Python Enhancement Proposals) (0)	2022.02.13
파이썬 이스케이프 시퀀스 (0)	2022.02.09
파이썬 연산자 우선순위 (0)	2022.02.09
__main__이란? (0)	2022.02.06
python urllib error [SSL: CERTIFICATE_VERIFY_FAILED] (0)	2022.02.05

잡식

보안뉴스 1페이지 기사제목 크롤링

'프로그래밍 > 파이썬' 카테고리의 다른 글

댓글

티스토리툴바

보안뉴스 1페이지 기사제목 크롤링

'프로그래밍 > 파이썬' 카테고리의 다른 글

관련글

댓글

티스토리툴바