※ 요약

필자는 요새 파이썬으로 웹 크롤러를 개발하고 있는데, 동적 웹 페이지를 크롤링 하기 위해서는 selenium과 함께 phantomjs가 필요하다는 것을 알게 되었다. 이번 포스트에서는 윈도우에서 phantomjs를 내려 받는 방법을 알아보고 다음 포스트에서는 리눅스에서 내려받는 방법을 알아보도록 하겠다.


※ phantomjs란

팬텀js는 인터페이스가 없는 headless 브라우저다. 웹사이트의 소스코드를 메모리에 불러오고 페이지의 자바스크립트를 실행하지만 그래픽을 전혀 렌더링 하지 않으며, 파이썬의 셀레니움 라이브러리와 함께 사용하면 자바스크립트와 쿠키, 헤더, 스크린샷 등 강력한 웹 크롤러를 만들 수 있게 된다.



※ 다운로드 주소


※ 다운로드 방법

아래는 상기의 링크로 이동한 화면이다. Download라고 써져있는 초록색 버튼을 클릭 하도록 한다.



최상단에 Windows(윈도우)라고 써져 있고 바로 아래에 phantomjs-2.1.1-windows.zip이라는 파일이 있다. 이 파일을 다운로드 받아 사용하면 되겠다.


참고로 *.zip파일을 풀면 phantomjs.exe파일이 하나 있는데, 위치는 놓고 싶은데 놓으면 되며, 윈도우+파이썬에서는 아래와 같이 로드하여 사용하면 된다.





※ 요약

selenium(셀레니움) 라이브러리는 본래 웹사이트의 테스트를 위한 목적으로 제작되었지만 자바스크립트 같이 동적으로 구성된 페이지를 크롤링하거나 사이트 캡쳐 등을 할 때에도 사용된다. 이번 포스트에서는 셀레니움을 설치하는 방법을 알아볼텐데, 참고로 설치는 selenium 웹사이트에서 파일을 다운로드 받아 직접 설치하거나 pip 같은 패키지 관리자로 간단하게 설치할 수 있으며 오늘은 비교적 간편하게 설치할 수 있도록 pip를 이용한 설치 방법을 소개하겠다.


※ 설치 환경

운영체제 : 윈도우10 x64

파이썬 버전 : 3.5.1

셀레니움 버전 : 3.0.2



※ 설치 방법

설치는 커맨드 창에서 진행해야하므로 명령 프롬프트를 실행하도록 한다. 실행 창에 cmd라고 입력하면 된다.



진행은 크게 3단계로 진행된다. 

1. pip로 설치하기 위해 pip가 위치하고 있는 폴더로 이동한다. pip는 파이썬이 설치된 폴더 하위에 Scripts 폴더에 있다.

2. 설치 명령어 pip install selenium로 설치를 진행한다.

3. 설치 완료를 확인한다.



설치가 제대로 되었는지 확인하기 위해 아래와 같이 입력하여 실행해보았는데, 설치된 경로를 출력하는 걸 보니 잘 설치가 된걸 알 수 있었다. 필자는 셀레니움과 팬텀js(phantomjs)를 연동할 것이고 다음 포스트에서는 phantomjs를 내려받고 연동하는 방법을 알아보도록 하겠다.



+ Recent posts