연결된 HTML 파일을 PDF 파일로 변환하시겠습니까?

연결된 HTML 파일을 PDF 파일로 변환하시겠습니까?

변환하고 싶어요온라인 도서(html 파일(링크된 html 파일 포함)을 pdf 파일로 변환할 수 있습니다.

2단계 접근 방식을 시도했습니다.http://kmkeen.com/mirror/2009-02-05-14-00-00.html

  1. 먼저 다음을 통해 html 파일을 다운로드하세요.

    wget -nd -mk http://www.unknownroad.com/rtfm/gdbtut/
    

    하지만 관련없는 파일을 많이 다운로드했습니다. 그래서 관련 없는 파일을 삭제해야 합니다.

  2. 그런 다음 다운로드한 HTML 책을 PDF 파일로 변환하려고 합니다.

    htmldoc --webpage -f gdb.pdf html/index.html html/*.html
    

    그런데 PDF 파일의 페이지 순서가 올바르지 않습니다.

온라인 도서(링크된 HTML 파일)를 다운로드하여 PDF 파일로 변환하는 좋은 방법이 무엇인지 알고 싶습니다.

내 운영 체제는 Ubuntu 12.04입니다.

답변1

링크한 설명에 명시된 바와 같이:

기본 전역 확장은 페이지를 알파벳순으로 정렬합니다.

색인 페이지는 이름이 알파벳 순서로 되어 있지 않은 9개의 다른 문서로 연결됩니다. 라고 말하면 htmldoc ... *.html도구는 해당 순서대로 페이지를 보고 알파벳 순서로 문서에 페이지를 넣습니다. htmldoc처리할 순서대로 명령줄에 파일을 나열 해야 합니다 .

이 특별한 경우에는 다음과 같이 인덱스에 링크된 파일 이름의 순서가 지정된 목록을 생성할 수 있습니다.

awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq

그래서

htmldoc --webpage -f gdb.pdf index.html $(awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq)

원하는 효과를 얻으실 수 있을 것입니다.

관련 정보