본문 바로가기

진행 프로젝트

반응형

ParseWEB 프로젝트

프로젝트에 대한 설명

해당 프로젝트는 Python을 이용해서 웹사이트를 크롤링 및 파싱을 할 수 있도록 모듈을 개발하는 프로젝트입니다.

처음에는 Python으로 웹페이지에서 어떻게 하면 원하는 데이터를 크롤링 해서 파싱을 하는지를 예시를 통해 여러 방법으로 알아보려고 합니다. 이 때 필자가 알고 있는 여러 가지 테크닉들을 소개할 예정입니다.

그리고 이렇게 여러 데이터를 가져오는 방법에 대해서 배우고 나서 공통된 구현 부분을 뽑아 내고 해당 부분을 모듈화 하는 과정을 거칠 예정입니다.

이렇게 모듈로 만든 후에는 해당 모듈을 이용해 이전에 살펴보았던 코드들을 모두 리펙토링하려고 합니다.

마지막으로는 PyQT와 같은 GUI 프로그래밍을 통해서 이미 만들어진 코드를 불러오거나 혹은 직접 코드를 작성해서 직접 파싱툴을 만들 수 있도록 하는 것이 최종 목표입니다.

프로젝트 진행 사항

0. 프로젝트 개요

실시간 검색어 파싱

1.1. 네이버 실시간 검색어 파싱

1.2. 다음 실시간 검색어 파싱

1.3. 네이트 실시간 검색어 파싱

도서 베스트 셀러 파싱

1.4. yes24 베스트 셀러 파싱

1.5. 알라딘 베스트 셀러 파싱

1.6. 교보문고 베스트 셀러 파싱

1.7. 영풍문고 베스트 셀러 파싱

블로그 게시물 파싱

1.8. 네이버 블로그 게시물 파싱

1.9. 다음 블로그 게시물 파싱

1.10. 티스토리 블로그 게시물 파싱

음악 차트 파싱

1.11. 멜론 차트 파싱

1.12. 엠넷 차트 파싱

1.13. 벅스 차트 파싱

반응형