CHM/... 전자책을 생성하고 싶습니다: 하위 집합 조건부 wgetting을 사용하여 데이터 하위 집합을 재귀적으로 다운로드웹사이트.container
CHM 책의 HTML 클래스에 있습니다 . 의사코드
wget은 장의 모든 링크를 재귀적으로 얻습니다.
# TODO returns only index.html wget --random-wait -r -p -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
현재 홈페이지의 콘텐츠
.container
와 그림 1의 링크된 하위 페이지의 콘텐츠입니다.CHM 전자책 및/또는 기타 형식 만들기
그림 1 CDC Yellow Book Check.container
출력: index.html
예상 출력: 전자책 CHM 및/또는 기타 형식
Wget 제안
팀즈
wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
출력: 첫 번째 코드와 동일합니다.
거부 목록이 첨부되어 있습니다.
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
출력: 거부 목록이 없는 것과 동일합니다.
또 다른 변형
wget -w5 --random-wait -r -nd -e robots=off -A".html" \ -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
출력: 이전과 비슷합니다.
www.html2pdf.it 도구는 다음을 제공합니다.
얻을 수 없습니다http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents: http 상태 코드 404
운영 체제: 데비안 8.7
답변1
나는 당신의 문제를 발견했습니다. -A".html"
.만 허용하도록 제한합니다 .html
. 해당 부분을 제거하면 모든 파일 다운로드가 시작됩니다.
wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents
편집하다:
js/css/etc 파일을 제외하려면 -R
include 대신 양식 거부 목록을 사용하는 것이 좋습니다 html
.
답변2
콘텐츠를 포함/제외할 필요는 없으며 모두 다운로드해야 한다고 생각합니다. CHM은 HTML로 컴파일되므로 기존 CSS를 대체할 CSS가 필요합니다. 기존 CSS를 기반으로 사용하는 것보다 더 나은 솔루션이 있을까요?
JavaScript의 경우, 일부 데이터가 기본적으로 숨겨져 있을 수 있다는 사실을 모르기 때문에 그것이 무엇을 하는지 확인하고 싶을 수도 있습니다.
master.hhc(CHM용)에 무엇이 포함/제외되는지 정의할 수 있다는 점을 기억하세요.
필요할 것이예요Microsoft HTML 도움말 워크샵CHM을 컴파일하려면 다음을 사용하는 것이 좋습니다.멀리또한 당신이 원하는 것과 원하지 않는 것을 편집할 수도 있습니다.
이 도구는 Windows에서 작동하도록 설계되었으며 와인에서도 작동한다고 확신하지만 아직 테스트하지는 않았습니다.