wget에서 다운로드한 모든 파일을 URL에서 HTML 형식으로 처리하고 변환하고 싶습니다.
전체 웹페이지를 DOCX 형식으로 변환하고 싶습니다. 우리는 URL에서 다운로드된 3000개의 HTML 문서에 대해 이야기하고 있습니다. 자동화가 없다면 이 작업은 Pandoc에게 지루할 것입니다.
어떻게 든 자동으로 수행 될 수 있습니까?
답변1
1. 다운로드 후 변환
저장된 HTML 파일에 Pandoc을 사용하면 어떤 문제가 있나요?
HTML이 모두 다음 디렉토리에 있다고 가정합니다.wget-html, 다음을 수행할 수 있습니다.
CD wget-html 찾다. -이름 "*.docx"\ xargs -0 \ 판독\ --from=html \ --to=docx \ --목차\ --독립적인\ --output={}.pdf {} \;
그러면 각 파일에 대한 PDF 파일이 생성됩니다."경로/to/some.html"명명 된"경로/to/some.html.pdf".
2. 다운로드하는 동안 변환
이런 일이 일어나도록 하고 싶다면 그렇게 말하세요. 하지만 먼저 사용하고 있는 정확한 wget 명령이 무엇인지 알려주십시오.