![HTML 기반 문서의 디렉토리를 탐색하고 텍스트 또는 PDF로 변환합니다.](https://linux55.com/image/104908/HTML%20%EA%B8%B0%EB%B0%98%20%EB%AC%B8%EC%84%9C%EC%9D%98%20%EB%94%94%EB%A0%89%ED%86%A0%EB%A6%AC%EB%A5%BC%20%ED%83%90%EC%83%89%ED%95%98%EA%B3%A0%20%ED%85%8D%EC%8A%A4%ED%8A%B8%20%EB%98%90%EB%8A%94%20PDF%EB%A1%9C%20%EB%B3%80%ED%99%98%ED%95%A9%EB%8B%88%EB%8B%A4..png)
표준 시스템 패키지에 대한 문서는 다음에 포함되어 있습니다.
/usr/share/doc/rsyslog-5.8.10 (distros: RHEL 6/Centos 6)
그러나 그것은 모두 *.html입니다. 모든 파일을 올바른 순서로 살펴보고 단일 PDF 파일 또는 단일 TXT 파일을 생성하여 페이지별로 수동으로 읽을 필요 없이 문서를 인쇄하고 오프라인으로 읽을 수 있도록 하고 싶습니다.
어떻게 해야 하나요?
답변1
(find /usr/share/doc/rsyslog-5.8.10/ -type f -name \*.html -exec w3m -dump {} \; ) > /path/to/mydocs.txt
파일이 나열되는 순서가 find
조직의 기본 설정에 맞는 경우 이를 사용하여 w3m
(콘솔 HTTP 클라이언트) HTML을 렌더링하고 이를 모두 단일 파일로 집계할 수 있습니다.
순서가 마음에 들지 않으면 인수를 우회하여 -exec
파일 목록을 얻은 다음 결과 및 정렬된 목록을 씹기 전에 재정렬 할 수 있습니다 w3m
.
답변2
w3m
내 시스템에서 이전 답변을 찾지 못했으므로 다음 을 설치 html2text
하고 실행하겠습니다.
find /usr/share/doc/rsyslog-5.8.10/ -type f -name \*.html -exec html2text {} >> all_docs.txt \;