생성된 페이지 소스 크롤링

Question

Curl은 "메인" 페이지만 처리합니다. 페이지에 JavaScript에 의해 로드된 콘텐츠가 있는 경우 curl.

"완전한" 페이지를 얻기 위해 제가 찾은 가장 좋은 방법은 다음을 사용하는 것입니다.셀렌그리고 일부 스크립트에서 구동합니다(저는 Python을 사용하여 이 작업을 수행합니다). 보장이 없기 때문에 완전성은 상대적입니다.한 번JavaScript 로드가 완료되었습니다.

예를 들어 Python virtualenv에서 다음을 실행합니다.

pip install selenium
python dl.py  http://unix.stackexchange.com/q/210268/33055 /var/tmp/page.html 5

그리고 dl.py:

import sys
import time
from selenium import webdriver

url, file_name, seconds = sys.argv[1:4]
browser = webdriver.Firefox()
try:
    browser.get(url)
    time.sleep(int(seconds))
    with open(file_name, 'w') as fp:
        fp.write(browser.find_element_by_xpath('html').get_attribute(
            "outerHTML").encode('utf-8'))
finally:
    browser.close()

Answer 1

Curl은 "메인" 페이지만 처리합니다. 페이지에 JavaScript에 의해 로드된 콘텐츠가 있는 경우 curl.

"완전한" 페이지를 얻기 위해 제가 찾은 가장 좋은 방법은 다음을 사용하는 것입니다.셀렌그리고 일부 스크립트에서 구동합니다(저는 Python을 사용하여 이 작업을 수행합니다). 보장이 없기 때문에 완전성은 상대적입니다.한 번JavaScript 로드가 완료되었습니다.

예를 들어 Python virtualenv에서 다음을 실행합니다.

pip install selenium
python dl.py  http://unix.stackexchange.com/q/210268/33055 /var/tmp/page.html 5

그리고 dl.py:

import sys
import time
from selenium import webdriver

url, file_name, seconds = sys.argv[1:4]
browser = webdriver.Firefox()
try:
    browser.get(url)
    time.sleep(int(seconds))
    with open(file_name, 'w') as fp:
        fp.write(browser.find_element_by_xpath('html').get_attribute(
            "outerHTML").encode('utf-8'))
finally:
    browser.close()

생성된 페이지 소스 크롤링

답변1

관련 정보