![토렌트 내 한두 페이지에서 참조되는 PDF 파일을 다운로드하는 방법](https://linux55.com/image/30268/%ED%86%A0%EB%A0%8C%ED%8A%B8%20%EB%82%B4%20%ED%95%9C%EB%91%90%20%ED%8E%98%EC%9D%B4%EC%A7%80%EC%97%90%EC%84%9C%20%EC%B0%B8%EC%A1%B0%EB%90%98%EB%8A%94%20PDF%20%ED%8C%8C%EC%9D%BC%EC%9D%84%20%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C%ED%95%98%EB%8A%94%20%EB%B0%A9%EB%B2%95.png)
URL 목록이 있는데 모두 다음과 같습니다.http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225;.pdf 파일은 이 페이지 내에서 참조됩니다. wget 또는 컬을 사용하여 이 파일을 다운로드해야 합니다.
나는 이것을 시도한다:
wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf
그리고
wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225
하지만 프로토콜 오류가 발생합니다.
www.contratos.gov.co(www.contratos.gov.co) 해결 중... 201.234.78.2 www.contratos.gov.co(www.contratos.gov.co)|201.234.78.2|:80에 연결 중입니다. . 연결되었습니다. HTTP 요청이 전송되었으며 응답을 기다리는 중... 200 OK 길이: 지정되지 않음 [text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: 프로토콜 오류
'www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225'에 쓸 수 없습니다(프로토콜 오류).
URL을 구문 분석한 다음 초기 페이지에 링크된 pdf 파일을 다운로드하도록 wget에 명령하는 데 어떤 플래그를 사용할 수 있습니까?
답변1
Wget과 Curl은 HTML 문서의 앵커 태그 내의 링크만 구문 분석합니다.
귀하가 참조하는 페이지는 문서를 다운로드할 수 있는 링크와 함께 POST 메서드를 사용합니다.
파일을 다운로드하고 모든 링크를 수동으로 해결해야 합니다. 이것은 wget이 당신을 위해 해줄 수 없는 일입니다.
편집: 하지만 왜 프로토콜 오류가 발생하는지 모르겠습니다. --debug 옵션을 사용하여 동일한 명령을 실행하고 출력을 볼 수 있는 곳에 붙여넣으시겠습니까?