CHM/... 전자책을 얻고 생성하기 위해 하위 집합 조건을 사용하는 방법은 무엇입니까?

CHM/... 전자책을 얻고 생성하기 위해 하위 집합 조건을 사용하는 방법은 무엇입니까?

CHM/... 전자책을 생성하고 싶습니다: 하위 집합 조건부 wgetting을 사용하여 데이터 하위 집합을 재귀적으로 다운로드웹사이트.containerCHM 책의 HTML 클래스에 있습니다 . 의사코드

  1. wget은 장의 모든 링크를 재귀적으로 얻습니다.

    # TODO returns only index.html
    wget --random-wait -r -p -nd -e robots=off -A".html" \ 
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    
  2. 현재 홈페이지의 콘텐츠 .container와 그림 1의 링크된 하위 페이지의 콘텐츠입니다.

  3. CHM 전자책 및/또는 기타 형식 만들기

그림 1 CDC Yellow Book Check.container

여기에 이미지 설명을 입력하세요.

출력: index.html

예상 출력: 전자책 CHM 및/또는 기타 형식

Wget 제안

  1. 팀즈

    wget -w5 --random-wait -r -nd -e robots=off -A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    출력: 첫 번째 코드와 동일합니다.

  2. 거부 목록이 첨부되어 있습니다.

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    출력: 거부 목록이 없는 것과 동일합니다.

  3. 또 다른 변형

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    출력: 이전과 비슷합니다.

www.html2pdf.it 도구는 다음을 제공합니다.

얻을 수 없습니다http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents: http 상태 코드 404

운영 체제: 데비안 8.7

답변1

나는 당신의 문제를 발견했습니다. -A".html".만 허용하도록 제한합니다 .html. 해당 부분을 제거하면 모든 파일 다운로드가 시작됩니다.

wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents

편집하다: js/css/etc 파일을 제외하려면 -Rinclude 대신 양식 거부 목록을 사용하는 것이 좋습니다 html.

답변2

콘텐츠를 포함/제외할 필요는 없으며 모두 다운로드해야 한다고 생각합니다. CHM은 HTML로 컴파일되므로 기존 CSS를 대체할 CSS가 필요합니다. 기존 CSS를 기반으로 사용하는 것보다 더 나은 솔루션이 있을까요?

JavaScript의 경우, 일부 데이터가 기본적으로 숨겨져 있을 수 있다는 사실을 모르기 때문에 그것이 무엇을 하는지 확인하고 싶을 수도 있습니다.

master.hhc(CHM용)에 무엇이 포함/제외되는지 정의할 수 있다는 점을 기억하세요.

필요할 것이예요Microsoft HTML 도움말 워크샵CHM을 컴파일하려면 다음을 사용하는 것이 좋습니다.멀리또한 당신이 원하는 것과 원하지 않는 것을 편집할 수도 있습니다.

이 도구는 Windows에서 작동하도록 설계되었으며 와인에서도 작동한다고 확신하지만 아직 테스트하지는 않았습니다.

관련 정보