html 확장자가 없는 웹사이트에 대한 링크를 미러링하도록 wget에 어떻게 지시합니까?

2024-6-3 • tag-icon

웹사이트(서점)가 있어요https://helion.pl링크는 다음과 같습니다:

/kategoria/programowanie

실제 파일 대신 디스크에 PHP 애플리케이션이 있을 수 있습니다.

이 웹사이트를 어떻게 미러링하나요? PDF 파일과 이미지(이미지는 다른 도메인에 있음)를 제외한 모든 것을 갖고 싶습니다.

나는 다음 명령을 시도했습니다.

wget -rmLk -U Mozilla --domains=helion.pl --wait=5 --reject-regex="pdf$" https://helion.pl/kategorie/ksiazki

그러나 단일 index.html 파일을 다운로드합니다.

또한 일부 링크에는 htm확장명( 제외 t)이 있으며 앞에 있습니다 //helion.pl.

참고: 파트너 프로그램을 더 잘 사용할 수 있도록 해당 웹사이트를 미러링하고 싶습니다. (그들은 책과 함께 xml 파일을 제공하지만 데이터가 누락되어 웹사이트를 미러링한 다음 처리하고 확인하겠습니다.)

변경된 사항이 있는 경우 Fedora 29를 사용하고 있습니다(업그레이드 필요).

관련 정보