wget은 특정 파일을 다운로드합니다.

wget은 특정 파일을 다운로드합니다.

저는 다양한 wget 명령(man wget)을 사용하는 방법을 배우고 있습니다. 하지만 특정 웹사이트에서 특정 파일을 다운로드하는 방법(전체 웹사이트에서 다운로드하는 방법)을 배우는 데 문제가 있습니다. 일부 사이트에서는 다른 사이트에 액세스할 수 있지만 액세스할 수 없습니다.

예를 들어, 왜 이 웹사이트에 있는 파일로 동일한 작업을 수행할 수 없습니까?

https://www.ictsd.org/sites/default/files/review/bridgesweekly22-35a_0.pdf

wget -r -nd -A pdf --accept-regex "review/.*\.pdf" 'https://www.ictsd.org/sites/default/files/'

실제로 "파일" 폴더와 그 하위 폴더에서 모든 PDF 파일을 다운로드하려고 합니다.

하지만 다운로드를 파일/설명 폴더로 제한하는 경우도 있습니다. 나는 할 수 없다. 또한 이 사이트에서 모든 PDF 파일을 다운로드하려고 시도했지만 다운로드할 수 없었습니다(다른 사이트에서는 가능함). 어떤 제안이 있으십니까? "man wget"을 쿼리하는 것 외에 어디에서 더 많은 정보를 얻을 수 있나요?

답변1

wget여러 파일을 가져오려면 지정한 디렉터리에서 해당 파일을 찾을 수 있어야 합니다 . 즉, https://www.ictsd.org/sites/default/files/review/웹 브라우저를 탐색할 때 거기에서 PDF에 대한 링크를 볼 수 있어야 합니다. 링크가 브라우저에 표시되면 를 통해서도 표시됩니다 wget.

Firefox에서 탐색할 때 https://www.ictsd.org/sites/default/files/review/다음 오류 메시지와 함께 시간 초과가 발생합니다.

The page isn’t redirecting properly

wget디렉토리로 이동해도 사용 가능한 파일의 색인이 제공되지 않으므로 예상한 내용은 볼 수 없습니다 .

그러나 주소에 특정 pdf의 전체 경로를 입력하면 Firefox가 해당 wget경로를 찾아내는데 이는 .

웹사이트 소유자가 모든 파일을 한 번에 자동으로 검색하는 것을 방지하기 위해 의도적으로 이 작업을 수행한다고 추측할 수 있습니다. 반면에 이것이 단지 웹 서비스의 버그라고 생각하고 찾고 있는 파일이 포함된 디렉터리에서 표시되어야 한다고 말하는 경우 해당 기관에 연락하여 문제를 알릴 수 있습니다.

또는 모든 PDF에 연결되는 다른 색인이 있는 경우 다음을 수행할 수 있습니다.가능한그것을 사용하십시오.

원하는 특정 PDF의 이름을 미리 알고 있는 경우 모든 링크를 파일에 넣고 wget다음과 같이 읽을 수 있습니다.

wget -i links.txt

관련 정보