웹사이트를 오프라인으로 다운로드할 때 링크의 GET 변수 무시

웹사이트를 오프라인으로 다운로드할 때 링크의 GET 변수 무시

간단히 말해서, 내가 다운로드하는 사이트에 대한 모든 링크는 로 시작합니다 &sid=335345346fdsfdsfs. 이는 계속 변경되어 index.html다른 많은 페이지에도 동일한 콘텐츠가 생성됩니다.

이런 문제를 해결한 사람이 있는지 궁금합니다. 나에게 필요한 것은 입니다 sed -e 's/&sid=.*$//g'.

  1. 따라서 도구는 인터넷에서 링크를 가져옵니다.http://foo.bar/&sid=yada
  2. 전처리http://foo.bar
  3. 이미 존재하는지 확인하고 그에 따라 다운로드하거나 건너뜁니다.
  4. 다운로드하는 경우 s/&sid=.*$//g동일한 작업을 수행하여 다운로드 내의 링크를 교체합니다..html

사이트 이름에 포함된 GET 변수를 무시하는 영리한 방법이 이미 있다면 환영합니다.

관련 정보