본문 바로가기

web

ParseWEB [1-12] 엠넷 차트 TOP 100 파싱 이번 강좌에서는 엠넷에서 제공하는 실시간 차트 TOP 100에 대한 정보를 가져와 보도록 하겠습니다. 사전 정보 수집 엠넷의 경우에도 모바일 페이지가 따로 존재하기 때문에 모바일 페이지에서 차트 정보를 파싱해보도록 하겠습니다.엠넷의 모바일 차트 페이지의 경우 아래와 같은 URL을 가지고 있습니다.http://m.mnet.com/chart/music/ 그래서 해당 페이지에 접속하면 아래와 같은 화면을 보실 수 있습니다. 접속할 때 보면 잠깐 시간이 지난 다음에 차트 정보가 출력되는 것을 볼 수 있습니다.이 사실을 통해서 이전에 살펴보았던 내용인 XHR 요청으로 응답을 받아와서 화면에 출력해준다고 추측을 할 수 있습니다. 그래서 XHR로 해당 응답을 필터링해 보면 아무런 내용도 나오지 않는 것을 볼 수 있습..
ParseWEB [1-11] 멜론 차트 TOP 100 파싱 이번 강좌부터는 음악 차트에서 제공하는 TOP 100에 대한 정보를 파싱해오는 내용을 살펴보겠습니다. 해당 강좌에서는 멜론에서 제공하는 TOP 100에 대한 정보를 가져와 보도록 하겠습니다. 사전 정보 수집 멜론의 경우에도 모바일 페이지가 따로 존재하기 때문에 모바일 페이지에서 차트 정보를 파싱해보도록 하겠습니다.멜론의 모바일 페이지의 경우 아래와 같은 URL을 가지고 있습니다.https://m.app.melon.com/index.htm 하지만 PC로 해당 사이트에 접속하게 되면 PC 버전인 페이지로 넘어가는 것을 볼 수 있습니다. 그렇기 때문에 여기서는 PC로 접속을 하더라도 모바일에서 접속하는 것처럼 흉내를 내도록 하는 테크닉을 사용해야 합니다.어떻게 하면 해당 사이트로 접속한 브라우저가 모바일 환경..
ParseWEB [1-10] 티스토리 블로그 게시물 파싱 이번 강좌에서는 티스토리 블로그 게시물의 내용을 파싱해보도록 하겠습니다. 해당 강좌에서는 티스토리에서 운영하고 있는 공식 블로그에 올라온 게시물을 파싱해보겠습니다. 사전 정보 수집 티스토리 공식 블로그의 경우에도 비슷하게 모바일 페이지가 존재하기 때문에 모바일 환경에서 파싱을 진행해보도록 하겠습니다.참고로 일부 티스토리 블로그의 경우 모바일 환경을 따로 제공해주지 않는 경우도 있으니 해당 부분은 직접 확인해보셔야 합니다. 파싱하려고 하는 게시물은 아래와 같습니다.블로그 통계 후속 업데이트 - '2018년 이전 방문통계' 추가 그리고 이번에도 개발자 도구에 있는 "요소 선택" 기능을 이용해서 필요한 부분을 알아내려고 합니다.먼저 요소 선택 기능으로 게시물의 첫 번째 줄인 "안녕하세요."를 선택해봅시다.그러..
ParseWEB [1-9] 다음 블로그 게시물 파싱 이번 강좌에서는 다음 블로그 게시물의 내용을 파싱해보도록 하겠습니다. 해당 강좌에서는 다음에서 운영하고 있는 공식 블로그인 아!아! 블로그에 올라온 게시물을 파싱해보겠습니다. 사전 정보 수집 이번 강좌에서도 모바일 페이지를 사용해서 파싱을 진행해보겠습니다. 파싱하려고 하는 게시물은 아래와 같습니다.[2017 블로그 결산] 다음블로그 모두의 결산을 시작합니다~ 그리고 이번에도 개발자 도구에 있는 "요소 선택" 기능을 이용해서 필요한 부분을 알아내려고 합니다.해당 방법을 잘 모르시겠다면 이전 강좌를 참조해주시기 바랍니다.요소 선택 기능으로 게시물의 첫 번째 줄인 "안녕하세요 다음블로거 여러분~"를 선택해봅시다.그러면 태그는 p이고 아무런 속성을 가지고 있지 않은 것을 확인할 수 있습니다. 해당 요소에서 계속..
ParseWEB [1-8] 네이버 블로그 게시물 파싱 이번 강좌부터는 새로운 분야의 내용으로 시작합니다. 네이버 블로그 게시물의 내용을 파싱해보도록 하겠습니다.참고로 이전 강좌였었던 실시간 검색어나 베스트 셀러의 파싱과는 다르게 이번 강좌에서는 잘못 사용하면 법적으로 문제가 될 수 있습니다.즉 해당 방법을 이용해서 다른 사람이 블로그에 올려놓은 게시물을 그대로 혹은 일부 수정해서 다른 곳에 배포를 하는 등의 행위를 하면 저작권 침해가 될 수도 있습니다.그렇기 때문에 해당 사항을 명심하고 강좌에 따라와 주시면 감사하겠습니다. 해당 강좌에서는 네이버 블로그팀 공식 블로그에 올라온 공지사항을 파싱해보겠습니다. 사전 정보 수집 앞선 강좌에서도 살펴봤듯이 모바일 환경이 따로 제공되는 사이트라면 되도록 모바일 페이지를 사용해서 파싱을 하는 것이 편리합니다. 파싱하려고..
ParseWEB [1-7] 영풍문고 베스트 셀러 파싱 7번째 크롤링 및 파싱 강좌로 마지막 베스트 셀러 파싱입니다. 이번 강좌에서는 영풍문고에서 제공해주고 있는 종합 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 이번에도 이전 강좌와 동일하게 모바일 페이지에서 영풍문고의 종합 베스트 셀러를 가져오려고 합니다. 먼저 영풍문고에서 제공하는 베스트 셀러 홈페이지 주소는 아래와 같습니다.베스트 셀러 해당 페이지를 접속하면 교보문고와 다르게 XHR 요청을 통해 비동기적으로 받아오는 것이 아니라는 것을 확인할 수 있습니다.페이지 아래쪽을 내려보면 "더보기"가 있는데 해당 요소를 누르면 화면 이동 없이 아래쪽에 이후의 베스트 셀러 정보가 추가되는 것을 볼 수 있습니다.이를 통해서 XHR로 요청을 보내 받은 응답을 가공해서 자바스크립트를 이용해 ..
ParseWEB [1-6] 교보문고 베스트 셀러 파싱 6번째 크롤링 및 파싱 강좌입니다. 이번 강좌에서는 교보문고에서 제공해주고 있는 종합 일간 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 이번에는 이전 강좌와 다르게 모바일 페이지에서 교보문고의 종합 일간 베스트 셀러를 가져오려고 합니다.모바일 페이지의 경우 PC 페이지와 다르게 로딩하는 데이터도 적기 때문에 파싱을 하는 입장에서도 편리합니다. 먼저 교보문고에서 제공하는 베스트 셀러 홈페이지 주소는 아래와 같습니다.베스트 셀러 해당 페이지를 접속하면 잠깐 로딩 창이 나오고 데이터가 출력되는 것을 확인할 수 있습니다. 따라서 이것을 통해 비동기적으로 데이터를 받아온다는 사실을 유추할 수 있습니다.즉 개발자도구를 이용해서 XHR 요청을 필터링하면 우리가 원하는 데이터를 얻을 수 있다..
ParseWEB [1-5] 알라딘 베스트 셀러 파싱 오랜만에 돌아온 크롤링 및 파싱 강좌입니다. 이번 강좌에서는 알라딘에서 제공해주고 있는 종합 주간 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 알라딘에서 제공하는 베스트 셀러의 경우에는 yes24와 다르게 xhr을 사용하지 않고 전체 페이지를 렌더링 하는 방식을 채택하고 있습니다. 따라서 첫 강좌였던 "네이버 실시간 검색어"와 비슷한 방식으로 진행하면 됩니다. 먼저 알라딘에서 제공하는 전체 베스트 셀러 홈페이지 주소는 아래와 같습니다. 베스트 셀러 해당 주소로 이동한 다음 개발자 도구를 이용해서 Element 검색을 진행하면 됩니다. 해당 페이지로 이동하면 전체 주간 베스트 셀러 1위부터 50위까지를 알 수 있습니다. 먼저 베스트 셀러 도서명에 대한 정보를 가져오도록 합니다. ..