토렌트 내 한두 페이지에서 참조되는 PDF 파일을 다운로드하는 방법

토렌트 내 한두 페이지에서 참조되는 PDF 파일을 다운로드하는 방법

URL 목록이 있는데 모두 다음과 같습니다.http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225;.pdf 파일은 이 페이지 내에서 참조됩니다. wget 또는 컬을 사용하여 이 파일을 다운로드해야 합니다.

나는 이것을 시도한다:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf

그리고

wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225  

하지만 프로토콜 오류가 발생합니다.

www.contratos.gov.co(www.contratos.gov.co) 해결 중... 201.234.78.2 www.contratos.gov.co(www.contratos.gov.co)|201.234.78.2|:80에 연결 중입니다. . 연결되었습니다. HTTP 요청이 전송되었으며 응답을 기다리는 중... 200 OK 길이: 지정되지 않음 [text/html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: 프로토콜 오류

'www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225'에 쓸 수 없습니다(프로토콜 오류).

URL을 구문 분석한 다음 초기 페이지에 링크된 pdf 파일을 다운로드하도록 wget에 명령하는 데 어떤 플래그를 사용할 수 있습니까?

답변1

Wget과 Curl은 HTML 문서의 앵커 태그 내의 링크만 구문 분석합니다.
귀하가 참조하는 페이지는 문서를 다운로드할 수 있는 링크와 함께 POST 메서드를 사용합니다.

파일을 다운로드하고 모든 링크를 수동으로 해결해야 합니다. 이것은 wget이 당신을 위해 해줄 수 없는 일입니다.

편집: 하지만 왜 프로토콜 오류가 발생하는지 모르겠습니다. --debug 옵션을 사용하여 동일한 명령을 실행하고 출력을 볼 수 있는 곳에 붙여넣으시겠습니까?

관련 정보