변환하고 싶어요온라인 도서(html 파일(링크된 html 파일 포함)을 pdf 파일로 변환할 수 있습니다.
2단계 접근 방식을 시도했습니다.http://kmkeen.com/mirror/2009-02-05-14-00-00.html
먼저 다음을 통해 html 파일을 다운로드하세요.
wget -nd -mk http://www.unknownroad.com/rtfm/gdbtut/
하지만 관련없는 파일을 많이 다운로드했습니다. 그래서 관련 없는 파일을 삭제해야 합니다.
그런 다음 다운로드한 HTML 책을 PDF 파일로 변환하려고 합니다.
htmldoc --webpage -f gdb.pdf html/index.html html/*.html
그런데 PDF 파일의 페이지 순서가 올바르지 않습니다.
온라인 도서(링크된 HTML 파일)를 다운로드하여 PDF 파일로 변환하는 좋은 방법이 무엇인지 알고 싶습니다.
내 운영 체제는 Ubuntu 12.04입니다.
답변1
링크한 설명에 명시된 바와 같이:
기본 전역 확장은 페이지를 알파벳순으로 정렬합니다.
색인 페이지는 이름이 알파벳 순서로 되어 있지 않은 9개의 다른 문서로 연결됩니다. 라고 말하면 htmldoc ... *.html
도구는 해당 순서대로 페이지를 보고 알파벳 순서로 문서에 페이지를 넣습니다. htmldoc
처리할 순서대로 명령줄에 파일을 나열 해야 합니다 .
이 특별한 경우에는 다음과 같이 인덱스에 링크된 파일 이름의 순서가 지정된 목록을 생성할 수 있습니다.
awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq
그래서
htmldoc --webpage -f gdb.pdf index.html $(awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq)
원하는 효과를 얻으실 수 있을 것입니다.