본문 바로가기

ParseWEB [1-10] 티스토리 블로그 게시물 파싱 이번 강좌에서는 티스토리 블로그 게시물의 내용을 파싱해보도록 하겠습니다. 해당 강좌에서는 티스토리에서 운영하고 있는 공식 블로그에 올라온 게시물을 파싱해보겠습니다. 사전 정보 수집 티스토리 공식 블로그의 경우에도 비슷하게 모바일 페이지가 존재하기 때문에 모바일 환경에서 파싱을 진행해보도록 하겠습니다.참고로 일부 티스토리 블로그의 경우 모바일 환경을 따로 제공해주지 않는 경우도 있으니 해당 부분은 직접 확인해보셔야 합니다. 파싱하려고 하는 게시물은 아래와 같습니다.블로그 통계 후속 업데이트 - '2018년 이전 방문통계' 추가 그리고 이번에도 개발자 도구에 있는 "요소 선택" 기능을 이용해서 필요한 부분을 알아내려고 합니다.먼저 요소 선택 기능으로 게시물의 첫 번째 줄인 "안녕하세요."를 선택해봅시다.그러..
ParseWEB [1-9] 다음 블로그 게시물 파싱 이번 강좌에서는 다음 블로그 게시물의 내용을 파싱해보도록 하겠습니다. 해당 강좌에서는 다음에서 운영하고 있는 공식 블로그인 아!아! 블로그에 올라온 게시물을 파싱해보겠습니다. 사전 정보 수집 이번 강좌에서도 모바일 페이지를 사용해서 파싱을 진행해보겠습니다. 파싱하려고 하는 게시물은 아래와 같습니다.[2017 블로그 결산] 다음블로그 모두의 결산을 시작합니다~ 그리고 이번에도 개발자 도구에 있는 "요소 선택" 기능을 이용해서 필요한 부분을 알아내려고 합니다.해당 방법을 잘 모르시겠다면 이전 강좌를 참조해주시기 바랍니다.요소 선택 기능으로 게시물의 첫 번째 줄인 "안녕하세요 다음블로거 여러분~"를 선택해봅시다.그러면 태그는 p이고 아무런 속성을 가지고 있지 않은 것을 확인할 수 있습니다. 해당 요소에서 계속..
ParseWEB [1-8] 네이버 블로그 게시물 파싱 이번 강좌부터는 새로운 분야의 내용으로 시작합니다. 네이버 블로그 게시물의 내용을 파싱해보도록 하겠습니다.참고로 이전 강좌였었던 실시간 검색어나 베스트 셀러의 파싱과는 다르게 이번 강좌에서는 잘못 사용하면 법적으로 문제가 될 수 있습니다.즉 해당 방법을 이용해서 다른 사람이 블로그에 올려놓은 게시물을 그대로 혹은 일부 수정해서 다른 곳에 배포를 하는 등의 행위를 하면 저작권 침해가 될 수도 있습니다.그렇기 때문에 해당 사항을 명심하고 강좌에 따라와 주시면 감사하겠습니다. 해당 강좌에서는 네이버 블로그팀 공식 블로그에 올라온 공지사항을 파싱해보겠습니다. 사전 정보 수집 앞선 강좌에서도 살펴봤듯이 모바일 환경이 따로 제공되는 사이트라면 되도록 모바일 페이지를 사용해서 파싱을 하는 것이 편리합니다. 파싱하려고..
ParseWEB [1-7] 영풍문고 베스트 셀러 파싱 7번째 크롤링 및 파싱 강좌로 마지막 베스트 셀러 파싱입니다. 이번 강좌에서는 영풍문고에서 제공해주고 있는 종합 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 이번에도 이전 강좌와 동일하게 모바일 페이지에서 영풍문고의 종합 베스트 셀러를 가져오려고 합니다. 먼저 영풍문고에서 제공하는 베스트 셀러 홈페이지 주소는 아래와 같습니다.베스트 셀러 해당 페이지를 접속하면 교보문고와 다르게 XHR 요청을 통해 비동기적으로 받아오는 것이 아니라는 것을 확인할 수 있습니다.페이지 아래쪽을 내려보면 "더보기"가 있는데 해당 요소를 누르면 화면 이동 없이 아래쪽에 이후의 베스트 셀러 정보가 추가되는 것을 볼 수 있습니다.이를 통해서 XHR로 요청을 보내 받은 응답을 가공해서 자바스크립트를 이용해 ..
ParseWEB [1-6] 교보문고 베스트 셀러 파싱 6번째 크롤링 및 파싱 강좌입니다. 이번 강좌에서는 교보문고에서 제공해주고 있는 종합 일간 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 이번에는 이전 강좌와 다르게 모바일 페이지에서 교보문고의 종합 일간 베스트 셀러를 가져오려고 합니다.모바일 페이지의 경우 PC 페이지와 다르게 로딩하는 데이터도 적기 때문에 파싱을 하는 입장에서도 편리합니다. 먼저 교보문고에서 제공하는 베스트 셀러 홈페이지 주소는 아래와 같습니다.베스트 셀러 해당 페이지를 접속하면 잠깐 로딩 창이 나오고 데이터가 출력되는 것을 확인할 수 있습니다. 따라서 이것을 통해 비동기적으로 데이터를 받아온다는 사실을 유추할 수 있습니다.즉 개발자도구를 이용해서 XHR 요청을 필터링하면 우리가 원하는 데이터를 얻을 수 있다..
ParseWEB [1-5] 알라딘 베스트 셀러 파싱 오랜만에 돌아온 크롤링 및 파싱 강좌입니다. 이번 강좌에서는 알라딘에서 제공해주고 있는 종합 주간 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 알라딘에서 제공하는 베스트 셀러의 경우에는 yes24와 다르게 xhr을 사용하지 않고 전체 페이지를 렌더링 하는 방식을 채택하고 있습니다. 따라서 첫 강좌였던 "네이버 실시간 검색어"와 비슷한 방식으로 진행하면 됩니다. 먼저 알라딘에서 제공하는 전체 베스트 셀러 홈페이지 주소는 아래와 같습니다. 베스트 셀러 해당 주소로 이동한 다음 개발자 도구를 이용해서 Element 검색을 진행하면 됩니다. 해당 페이지로 이동하면 전체 주간 베스트 셀러 1위부터 50위까지를 알 수 있습니다. 먼저 베스트 셀러 도서명에 대한 정보를 가져오도록 합니다. ..
블록체인 캠프를 다녀왔습니다. 1월 7일부터 1월 15일까지 진행되는 블록체인 캠프에 다녀왔습니다. 그래서 한동안 블로그 포스팅이 뜸했습니다. 해당 캠프는 블록체인 기업인 "테조스"에서 진행하였으며 함수형 프로그래밍 및 블록체인 개발자를 양성하는데 이바지를 하기 위해서 시작한 것이라고 합니다. 강의는 무료로 진행되었으며 서울대, 고려대, 한양대, 카이스트, 순천향대 교수님들과 테조스 코리아 대표님, 법무법인 세움에서 나오신 변호사님까지 여러 명 진행해주셨습니다. 실제로는 10만 원 보증금을 냈지만 80% 이상 출석한 인원에 대해서는 돈을 환불해주었으며 따로 점심값도 7천 원씩 제공해주었습니다. 캠프 시간표는 아래와 같았습니다. 해당 캠프에서는 Ocaml을 다루었는데, 관련 도서를 찾아보니 한국어로 번역된 도서는 아예 없었습니다. 즉 ..
ParseWEB [1-4] yes24 베스트 셀러 파싱 4번째로 하는 크롤링 및 파싱 강좌입니다. 이번 강좌에서는 yes24에서 제공해주고 있는 베스트 셀러에 해당하는 데이터를 가져와 보려고 합니다. 사전 정보 수집 yes24에서 제공하는 베스트 셀러의 경우 이전 강좌였던 네이버 및 다음 실시간 검색어 파싱과 동일하게 메인 홈페이지 소스에서 검색을 하고 해당하는 부분을 가지고 오는 방식으로도 할 수 있다.하지만 이번 강좌에서는 바로 전 강좌인 네이트 실시간 검색어 파싱과 동일하게 xhr 요청을 캡처해서 진행해보도록 하겠다. 먼저 크롬을 통해 yes24 메인 홈페이지로 이동한 다음 F12를 이용해서 개발자 도구를 켜고 Network 탭으로 이동한 다음 xhr로 필터링을 시작한다.그리고 아래 사진처럼 베스트 셀러 부분에서 '국내도서'를 다시 직접 선택해서 서버로..