2-2. BeautifulSoup를 이용한 Mnet 차트 크롤링 하기[import 모듈]

2018. 5. 20. 13:51Coding/Python

728x90

1. requests 

1
2
3
4
5
6
import requests
from bs4 import BeautifulSoup as BS
 
req = requests.get('http://www.mnet.com/chart/TOP100/')
 
print(req)
cs

<Response [200]>


[request]와 [bs4 module의 BeautifulSoup]를 import합니다. 

(as BS는 BeautifulSoup가 너무 기니 약칭으로  BS라 부르겠다는 겁니다.)


결과값인 <Response [200]>은 HTTP상태코드 참고.

몇가지만 예를 들면 위의 

[200]을 포함한 200번때는 잘 처리 성공을 알려주는 코드고,

한번쯤은 봤을 404처럼 400번때는 요청오류,

501같은 500번때는 서버오류를 나타낸다.


마지막 줄에서 print()로 응답이 잘 나타나면 성공!




2. BeautifulSoup

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup as BS
 
req = requests.get('http://www.mnet.com/chart/TOP100/')
 
html = BS(req.text, 'html.parser')
 
print(html)
cs

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">


<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" xmlns:fb="http://ogp.me/ns/fb#">

<head>

<title>실시간 종합 차트 - 엠넷 차트</title>

.

.

.

.

.

.

</link></link></div>

</body>

</html>



BeautifulSoup를(이하 BS) 이용해서 위에서 불러온 req가 가지고 있는 내용물(html코드)을 .text로 불러오고

html.parser를 이용해 분석한 내용을 html변수에 담습니다.

print()로 출력해보면 해당 페이지의 html코드가 나타납니다.






728x90