wget을 사용하여 중첩된 PDF 파일 다운로드

wget을 사용하여 중첩된 PDF 파일 다운로드

여기에 링크된 페이지에 있는 수십 개의 PDF 파일을 다운로드하려고 합니다.

http://machiniknittingetc.com/passap.html?limit=all

각 PDF는 로 끝나는 URL로 참조됩니다 /downloadable/download/sample/sample_id/[some three digit number]/.

나는 이것을 시도했습니다 :

wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"

PDF를 가져오지 않습니다.

파일 계층과 같은 URL에 액세스할 수 있도록 색인이 생성되지 않은 서버와 관련이 있을 수 있습니까? 작동하게 하는 방법이 있나요?

답변1

이것이 당신에게 효과가 있습니까?

#!/bin/bash
for i in {000..175}
do
     wget  http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done

답변2

@rajaganesh87 디렉토리 링크 번호를 추측하고 있는데 코드가 각 기본 링크에 필요한 실제 링크와 작동하지 않습니다.http://machiniknittingetc.com/passap.html?limit=all 및 관련(.pdf) 파일.

문제는 당신이 차단되었다는 것입니다

로봇.txt 파일

그리고 점(.)을 사용합니다.

    -A .pdf

아래에서 테스트한 코드를 사용해 보면 작동합니다.

 wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all 

관련 정보