PDF에서 특정 정규식을 자동으로 마스킹하거나 (아마도 더 나은) 정규식과 일치하도록 일치 항목에 노이즈를 도입할 수 있는 Linux용 명령줄 도구(또는 도구 모음)가 있습니까? PDF에서 해당 부분을 읽을 수 없습니다.
현재 나는 gimp를 사용하여 수동으로 수행하지만 이는 매우 짜증나는 일이므로 자동화할 수 있는 방법을 찾고 있습니다(추가로 스크립트에서 사용).
답변1
PDF 파일 형식의 복잡성에 따라 다양한 수준의 성공이 가능합니다.
먼저 Poppler를 사용하여 PDF 파일을 HTML로 변환합니다 pdftohtml
.
pdftohtml -noframes -s <input.pdf>
특정 텍스트를 흐리게 하려면 정규 표현식을 사용하세요.
sed -i 's/<regexp>/<replacement>/g' <input.html>
HTML 파일을 다시 PDF로 변환:
wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>
wkhtmltopdf
여백, 크기, 방향 등을 조정하기 위해 다양한 옵션을 사용할 수 있습니다. 보다 man wkhtmltopdf
.