내 PDF 파일에 손상된 OCR이 포함되어 있습니다. 많은 기호와 약어가 포함된 손으로 쓴 페이지 묶음이고 자동 생성된 OCR이 포함된 이 파일을 얻었습니다. 더 가벼운 파일을 얻고 불필요한 OCR을 제거하기 위해 텍스트 레이어를 제거하려면 어떻게 해야 합니까?
답변1
@dirkt가 제공한 명령은 나에게 작동하지 않았습니다. 실제로 파일 크기를 560Mb에서 300Mb로 줄였지만 diffpdf를 확인하지 않았으므로 파일 간에 무엇이 변경되었는지 알 수 없습니다.
나에게 효과가 있었던 것은아파치 PDF 상자Pdfbox 개발자는 예제에서 텍스트와 기타 콘텐츠를 제거하기 위한 멋진 작은 프로그램을 제공하지만 저는 Java 경험(또는 bash 이외의 다른 것)이 없기 때문에 openjdk-11-jdk -Headless 및 libpdfbox를 설치했습니다. -자바.
속도:
- pdfbox2.jar,fontbox2.jar, commons-logging.jar(pdfbox2의 일부 클래스에 필요함)을 폴더에 복사합니다.
- .
jar xf pdfbox2.jar
- 설치된 버전과 동일한 Pdfbox 소스를 가져옵니다.
- RemoveAllText.java를 이 폴더에 복사합니다
org/apache/pdfbox/examples/util
. - RemoveAllText.java를 컴파일합니다
javac org/apache/pdfbox/examples/util/RemoveAllText.java
. - 이제 실행하면 사용법이 표시됩니다
java org.apache.pdfbox.examples.util.RemoveAllText
.
누구든지 이 답변을 발견하고 더 나은 방법을 알고 있다면 댓글을 남겨주세요.