wget을 사용하여 구텐베르그 프로젝트의 모든 책을 다운로드하고 싶습니다. epub 형식으로 받고 싶습니다. 목록에 대한 링크는 다음과 같습니다. http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr 하지만 내가 실행할 때 :
wget -H -w 2 -m "http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr"
페이지에 링크된 모든 파일이 아닌 HTML 페이지를 다운로드합니다. 이것이 충분히 명확하기를 바랍니다. 이 질문에서 영감을 얻었습니다.https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg
답변1
당신은 모든 일을 올바르게했습니다. 구텐베르크의 서버가 다운되었습니다(일시적으로 바랍니다).
무슨 일이 일어나고 있는지: aleph.gutenberg.org/cache/ 아래의 EPUB 파일에 대한 링크를 얻는 페이지가 있지만 aleph.gutenberg.org는 로봇이 /cache에 액세스하는 것을 허용하지 않습니다. 이것이 Wget이 모든 EPUB 파일을 건너뛰는 이유입니다.
나는 문제가 곧 해결되기를 바라며 Project Gutenberg에 이메일을 썼습니다. 그들의 연락처 페이지에서는 이틀 이내에 답변을 약속했습니다. 며칠 후에 다시 시도해 주세요. (또는 robots.txt를 수정하는 방법을 찾으세요. 대부분의 사람들이 이를 나쁜 목적으로 악용하기 때문에 여기에 게시하고 싶지 않습니다.)
11월 29일 업데이트: 문제가 해결되었습니다.