PDF 파일에서 모든 메타데이터, 식별 개체, 포함된 데이터, PDF가 아닌/포함된 바이너리, ID(ID), 포함된 문자 등을 제거하는 방법은 무엇입니까?

PDF 파일에서 모든 메타데이터, 식별 개체, 포함된 데이터, PDF가 아닌/포함된 바이너리, ID(ID), 포함된 문자 등을 제거하는 방법은 무엇입니까?

PDF를 텍스트 전용(유니코드) 및 이미지 기반 PDF로 변환하고 싶습니다.

따라서 PDF 문서에는 이미지와 텍스트만 포함되어야 합니다. 저는 GNU/Linux 환경에서 이 작업을 수행하고 싶습니다. 명령줄에서 이를 수행할 수 있는 유틸리티가 있다면 더 좋을 것입니다.

답변1

PDF 파일 형식은 핵심에 PostScript 파일이 있는 복잡한 봉투입니다. 올바른 형식의 PDF가 필요하고 이를 검색 및 색인화하고 사람이 읽을 수 있는 방식으로 데이터를 추출하는 경우, 드물게 최적화 없이 데이터를 간단히 압축하는 PDF 생성기에 의해 PDF가 생성된 경우 수행할 수 있는 작업은 다음과 같습니다. Linux에는 PDF를 관리하고 최적화하기 위한 몇 가지 도구가 있지만 그 중 어느 것도 PDF와 관련된 모든 문제를 해결할 수는 없습니다. 예를 들어 pdftools, pdftk 등이 있습니다.

관련 정보