다음 콘텐츠가 포함된 웹사이트의 디렉토리에서 모든 PDF 파일을 다운로드하려고 합니다.
wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/
하지만 계속 "오류 404: 찾을 수 없음"이 표시됩니다. 이것은 매우 간단한 사용법인 것 같은데 다음에 무엇을 시도해야 할지 모르겠습니다.
답변1
wget -r은 지정된 URL에서 모든 PDF 링크에 액세스할 수 있는 경우에만 작동합니다.
당신이 할 수 있는 일은 특정 사이트의 HTML 소스 코드를 "보는" 것입니다.http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html모든 PDF 링크가 어떻게 구성되는지 확인하세요. 그런 다음 이를 자동화하는 작은 스크립트를 다음과 같이 작성하십시오.
wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
for f in $FEAT; do
wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
done
done