2-1. BeautifulSoup를 이용한 Mnet 차트 크롤링 하기[분석]

2018. 5. 20. 13:44Coding/Python

728x90

Mnet의 실시간 음원차트를 크롤링하려고 합니다.

http://www.mnet.com/chart/TOP100/


1. 필요한 데이터 분석

표시한 [순위], [앨범이미지], [타이틀], [가수명], [앨범명]을 가져오려고 합니다.



2. HTML 분석

1번에서 분석한, 내게 필요한 데이터를 바탕으로

HTML문서에서 해당 데이터가 어디에 위치하고 있는지 알아내야 합니다.


크롬 브라우져로 Mnet - 실시간 종합 차트 페이지에 접속합니다.

[크롬 브라우저 - 메뉴 - 도구 더보기 - 개발자도구]를 선택합니다.

윈도우 환경의 경우 F12 / 맥의 경우 ⌥⌘+i

화면 기준으로 중앙 상단 or 개발자도구 기준 좌측 상단에 있는 도구를 선택하고,

1번에서 필요하다고 생각한 부분인 순위 부분 클릭.



<tr>

<td class="MMLItemRank">

<div class="MMLIRankNum_Box">

<span class="MMLI_RankNum MMLI_RankNumBest MMLI_RankNumBest_1">1위</span>

</div>

</td>

</tr>


우리가 필요한 부분은 <span>태그의 "1위"라는 텍스트이다.

마찬가지로 찾아보면

[순위]와 마찬가지로 [앨범이미지], [타이틀], [가수명], [앨범명]을 찾을 수 있다.


이제 필요한 데이터를 정하고,

그 데이터가 어디 있는지를 알게 되었습니다.

크롤링시,

다른 순위의 데이터들도 기본 구조는 같으므로 반복문으로 반복 시키면 됩니다.

728x90