명령줄에서 PDF 파일의 정규식 마스크

명령줄에서 PDF 파일의 정규식 마스크

PDF에서 특정 정규식을 자동으로 마스킹하거나 (아마도 더 나은) 정규식과 일치하도록 일치 항목에 노이즈를 도입할 수 있는 Linux용 명령줄 도구(또는 도구 모음)가 있습니까? PDF에서 해당 부분을 읽을 수 없습니다.

현재 나는 gimp를 사용하여 수동으로 수행하지만 이는 매우 짜증나는 일이므로 자동화할 수 있는 방법을 찾고 있습니다(추가로 스크립트에서 사용).

답변1

PDF 파일 형식의 복잡성에 따라 다양한 수준의 성공이 가능합니다.

먼저 Poppler를 사용하여 PDF 파일을 HTML로 변환합니다 pdftohtml.

pdftohtml -noframes -s <input.pdf>

특정 텍스트를 흐리게 하려면 정규 표현식을 사용하세요.

sed -i 's/<regexp>/<replacement>/g' <input.html>

HTML 파일을 다시 PDF로 변환:

wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>

wkhtmltopdf여백, 크기, 방향 등을 조정하기 위해 다양한 옵션을 사용할 수 있습니다. 보다 man wkhtmltopdf.

관련 정보