수천 개의 다운로드(wget 사용) HTML 문서를 DOCX로 일괄 변환

수천 개의 다운로드(wget 사용) HTML 문서를 DOCX로 일괄 변환

wget에서 다운로드한 모든 파일을 URL에서 HTML 형식으로 처리하고 변환하고 싶습니다.

전체 웹페이지를 DOCX 형식으로 변환하고 싶습니다. 우리는 URL에서 다운로드된 3000개의 HTML 문서에 대해 이야기하고 있습니다. 자동화가 없다면 이 작업은 Pandoc에게 지루할 것입니다.

어떻게 든 자동으로 수행 될 수 있습니까?

답변1

1. 다운로드 후 변환

저장된 HTML 파일에 Pandoc을 사용하면 어떤 문제가 있나요?

HTML이 모두 다음 디렉토리에 있다고 가정합니다.wget-html, 다음을 수행할 수 있습니다.

CD wget-html

 찾다. -이름 "*.docx"\
   xargs -0 \
   판독\
     --from=html \
     --to=docx \
     --목차\
     --독립적인\
     --output={}.pdf
     {} \;

그러면 각 파일에 대한 PDF 파일이 생성됩니다."경로/to/some.html"명명 된"경로/to/some.html.pdf".

2. 다운로드하는 동안 변환

이런 일이 일어나도록 하고 싶다면 그렇게 말하세요. 하지만 먼저 사용하고 있는 정확한 wget 명령이 무엇인지 알려주십시오.

관련 정보