본문 바로가기

phantomjs

[유틸리티] 윈도우에서 phantomjs 다운로드 방법 ※ 요약 필자는 요새 파이썬으로 웹 크롤러를 개발하고 있는데, 동적 웹 페이지를 크롤링 하기 위해서는 selenium과 함께 phantomjs가 필요하다는 것을 알게 되었다. 이번 포스트에서는 윈도우에서 phantomjs를 내려 받는 방법을 알아보고 다음 포스트에서는 리눅스에서 내려받는 방법을 알아보도록 하겠다. ※ phantomjs란 팬텀js는 인터페이스가 없는 headless 브라우저다. 웹사이트의 소스코드를 메모리에 불러오고 페이지의 자바스크립트를 실행하지만 그래픽을 전혀 렌더링 하지 않으며, 파이썬의 셀레니움 라이브러리와 함께 사용하면 자바스크립트와 쿠키, 헤더, 스크린샷 등 강력한 웹 크롤러를 만들 수 있게 된다. ※ 다운로드 주소 http://phantomjs.org/download.html .. 더보기
[라이브러리] 파이썬 pip로 selenium 설치하기 ※ 요약 selenium(셀레니움) 라이브러리는 본래 웹사이트의 테스트를 위한 목적으로 제작되었지만 자바스크립트 같이 동적으로 구성된 페이지를 크롤링하거나 사이트 캡쳐 등을 할 때에도 사용된다. 이번 포스트에서는 셀레니움을 설치하는 방법을 알아볼텐데, 참고로 설치는 selenium 웹사이트에서 파일을 다운로드 받아 직접 설치하거나 pip 같은 패키지 관리자로 간단하게 설치할 수 있으며 오늘은 비교적 간편하게 설치할 수 있도록 pip를 이용한 설치 방법을 소개하겠다. ※ 설치 환경 운영체제 : 윈도우10 x64파이썬 버전 : 3.5.1셀레니움 버전 : 3.0.2 ※ 설치 방법 설치는 커맨드 창에서 진행해야하므로 명령 프롬프트를 실행하도록 한다. 실행 창에 cmd라고 입력하면 된다. 진행은 크게 3단계로 진.. 더보기