API와 컬을 사용하여 포럼을 크롤링하고 싶습니다.
응용 프로그래밍 인터페이스:
초기 링크는 다음과 같습니다.
원하는 결과:
항상 4,240개를 할 수 있어야 해요
보시다시피, 변경되는 유일한 정수는 점 뒤의 정수입니다.
답변1
Curl은 이를 사용하여 URL에 액세스하려는 경우 범위가 있는 URL을 지원합니다.
curl ... 'https://bitcointalk.org/index.php?topic=840124.[0-4240]'
...
사용하고 싶은 다른 옵션은 어디에 있나요?
범위 구문을 사용하면 1 외에 다른 증분 단위로 이동할 수도 있습니다. 예를 들어, 20번째 URL마다 가져오려면 다음을 수행하세요.
curl ... 'https://bitcointalk.org/index.php?topic=840124.[0-4240:20]'
자세한 내용은 curl
설명서를 참조하세요.
URL 목록 생성분리또는 다른 프로그램 처리의 curl
경우 중괄호 확장 사용을 고려하십시오(쉘이 이를 지원하는 경우).
printf '%s\n' 'https://bitcointalk.org/index.php?topic=840124.'{0..4240}
일부 다른 쉘 의 경우 bash
에서와 같이 증분을 사용할 수 있습니다 '...URL...'{0..4240..20}
.
그런 다음 이 목록은 예를 들어 URL을 매개변수로 사용하여 사용자를 호출 xargs
할 수 있는 프로그램이나 다른 프로그램 으로 파이프될 수 있습니다 .curl