FCC의 ECFS(Electronic Comment Filing System)를 사용하여 개별 소송 파일을 일괄 다운로드하려고 합니다. 소송의 모든 신청서를 반환하는 API가 있습니다. 단일 문서의 URL을 다음 형식으로 반환합니다.
https://www.fcc.gov/ecfs/document/10809709027819/1
그러나 이것이 브라우저에서 작동하는 동안 wget 또는 컬을 사용할 때 JavaScript가 필요함을 나타내는 자리 표시자 HTML 파일만 다운로드합니다. 브라우저에서 페이지를 검사해 보았지만 실제 PDF의 소스 URL과 유사한 항목을 찾을 수 없습니다.
wget 또는 컬을 사용하여 실제 PDF를 얻는 방법이 있습니까?
답변1
저는 Firefox의 브라우저 도구를 사용하여 PDF를 반환하는 요청을 살펴보고 요청 헤더를 잘라서 PDF를 반환하는 가장 작은 요청을 얻었습니다. 이것은 나에게 효과적입니다.
% curl 'https://www.fcc.gov/ecfs/documents/10809709027819/1' -H 'Referer: https://www.fcc.gov/ecfs/document/10809709027819/1' | file -
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 146k 0 146k 0 0 516k 0 --:--:-- --:--:-- --:--:-- 518k
/dev/stdin: PDF document, version 1.7, 9 page(s)
따라서 적어도 이 PDF의 경우 필요한 것은 Referer
헤더를 동일한 URL로 설정하는 것뿐입니다.