wget 재귀 도움말

wget 재귀 도움말

다음 콘텐츠가 포함된 웹사이트의 디렉토리에서 모든 PDF 파일을 다운로드하려고 합니다.

wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/

하지만 계속 "오류 404: 찾을 수 없음"이 표시됩니다. 이것은 매우 간단한 사용법인 것 같은데 다음에 무엇을 시도해야 할지 모르겠습니다.

답변1

wget -r은 지정된 URL에서 모든 PDF 링크에 액세스할 수 있는 경우에만 작동합니다.

당신이 할 수 있는 일은 특정 사이트의 HTML 소스 코드를 "보는" 것입니다.http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html모든 PDF 링크가 어떻게 구성되는지 확인하세요. 그런 다음 이를 자동화하는 작은 스크립트를 다음과 같이 작성하십시오.

wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
    for f in $FEAT; do
        wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
    done
done

관련 정보