라벨이 crawling인 게시물 표시

Python 웹 크롤링 - Scrapy 활용 파워볼 번호 수집(파일)

이미지
Python 웹 크롤링 - Scrapy 활용 파워볼 번호 수집 1) scrapy 프로젝트 폴더 생성 및 gitHub 등록 1-1) vscode를 사용하여 scrapy 라이브러리를 통해 프로젝트 생성 및 git-hub에 소스 업로드 하여 관리한다.  - 위내용은 Windows Git 설치 및 GitHub 활용방법 을  통해 확인 할 수 있다. 1-2) PowerBall 프로젝트 폴더 생성 및 git bashshell 에서 git init 명령으로 로컬 Repository 생성 1-3) gitHub에 원격 Repository 생성  1-4) git remote add 명령을 통해 gitHub의 원격 Repository 등록 1-5) git pull 명령을 통해 git hub에서 원격 Repository를 새로 생성 할때 만들어지 .gitignore 파일 및 README.md 파일 다운로드 후 로컬과 동기화. 2) Scrapy 프로젝트 생성 2-1) scrapy startproject PowerBall(프로젝트명) 명령어를 통해 프로젝트를 생성한다. 2-2) git add 및 git commit 명령을 통해 프로젝트 파일 커밋, git push를 통해 원격저장소로 등록  -add, status  - commit, push 3) 크롤링 목적 및 대상확인 3-1) 크롤링 목적 : 크롤링 공부       크롤링 대상 : PowerBall 당첨번호         -  http://m.nlotto.co.kr/gameInfo.do?method=powerWinNoList&nowPage=1&searchDate=20180525&calendar=2018-05-25&sortType=num     ...

Python 웹 크롤링 - Scrapy 설치

이미지
Python 웹 크롤링 - Scrapy 설치 1) 웹 클롤링(web crawling) 1-1) 특정목적을 위해 웹페이지 상의 정보를 주기적 또는 한시적으로 수집 하기 위한 작업 2) Scrapy의 사용 2-1) 파이썬에는 크롤링을 지원하기 위한 대표적인 라이브러리로 Beautifulsoup과 Scrapy가 있음 두 라이브러리의 특징은 대략 다음과 같음  - scrapy : 스크랩 과정(크롤링 -> 데이터처리)이 단순 함  - Beautifulsoup : 마크업 언어 처리 강점, UTF8 자동 인코딩 자동처리, 파서의 역활이 큼 3) Scrapy 설치 3-1) 아나콘다를 설치 하여 Python을 설치 하였다면 conda 명령을 사용 conda-forge 채널을 통해 간단하게 설치가 가능하며 반면에 이미 Python 패키지 설치에 익숙 하다면 PypI를 통한 설치도 가능하다. 자세한 내용은 아래 사이트에서 확인가능하다. scrapy의 경우 python 3.x를 지원하지 않으므로 2.x의 새로운 가상환경을 만들어서 사용해야 한다. 이유는 3.x dictionary에 특정메소드(iteritems()) 대신 items()를 상용하게 되어서 이다. https://doc.scrapy.org/en/latest/intro/install.html 3-2) conda 명령어로의 설치  >> conda install -c conda-forge scrapy 해당 명령어 실행시 conda의 최신번전을 update 할 것이냐고 물어 보는 경우 y를 선택 후 계속 진행 한다.  - 가상환경에 설치 하려면 해당 명령을 통해 가성 환경으로 접속 후 설치한다.   >> conda env list : 환경설정 list   >> activate 환경명 : 가상환경 활성화