여기에 링크된 페이지에 있는 수십 개의 PDF 파일을 다운로드하려고 합니다.
http://machiniknittingetc.com/passap.html?limit=all
각 PDF는 로 끝나는 URL로 참조됩니다 /downloadable/download/sample/sample_id/[some three digit number]/
.
나는 이것을 시도했습니다 :
wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"
PDF를 가져오지 않습니다.
파일 계층과 같은 URL에 액세스할 수 있도록 색인이 생성되지 않은 서버와 관련이 있을 수 있습니까? 작동하게 하는 방법이 있나요?
답변1
이것이 당신에게 효과가 있습니까?
#!/bin/bash
for i in {000..175}
do
wget http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done
답변2
@rajaganesh87 디렉토리 링크 번호를 추측하고 있는데 코드가 각 기본 링크에 필요한 실제 링크와 작동하지 않습니다.http://machiniknittingetc.com/passap.html?limit=all 및 관련(.pdf) 파일.
문제는 당신이 차단되었다는 것입니다
로봇.txt 파일
그리고 점(.)을 사용합니다.
-A .pdf
아래에서 테스트한 코드를 사용해 보면 작동합니다.
wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all