PDF에서 OCR 제거

Question

@dirkt가 제공한 명령은 나에게 작동하지 않았습니다. 실제로 파일 크기를 560Mb에서 300Mb로 줄였지만 diffpdf를 확인하지 않았으므로 파일 간에 무엇이 변경되었는지 알 수 없습니다.

나에게 효과가 있었던 것은아파치 PDF 상자Pdfbox 개발자는 예제에서 텍스트와 기타 콘텐츠를 제거하기 위한 멋진 작은 프로그램을 제공하지만 저는 Java 경험(또는 bash 이외의 다른 것)이 없기 때문에 openjdk-11-jdk -Headless 및 libpdfbox를 설치했습니다. -자바.

속도:

pdfbox2.jar,fontbox2.jar, commons-logging.jar(pdfbox2의 일부 클래스에 필요함)을 폴더에 복사합니다.
.jar xf pdfbox2.jar
설치된 버전과 동일한 Pdfbox 소스를 가져옵니다.
RemoveAllText.java를 이 폴더에 복사합니다 org/apache/pdfbox/examples/util.
RemoveAllText.java를 컴파일합니다 javac org/apache/pdfbox/examples/util/RemoveAllText.java.
이제 실행하면 사용법이 표시됩니다 java org.apache.pdfbox.examples.util.RemoveAllText.

누구든지 이 답변을 발견하고 더 나은 방법을 알고 있다면 댓글을 남겨주세요.

Answer 1

@dirkt가 제공한 명령은 나에게 작동하지 않았습니다. 실제로 파일 크기를 560Mb에서 300Mb로 줄였지만 diffpdf를 확인하지 않았으므로 파일 간에 무엇이 변경되었는지 알 수 없습니다.

나에게 효과가 있었던 것은아파치 PDF 상자Pdfbox 개발자는 예제에서 텍스트와 기타 콘텐츠를 제거하기 위한 멋진 작은 프로그램을 제공하지만 저는 Java 경험(또는 bash 이외의 다른 것)이 없기 때문에 openjdk-11-jdk -Headless 및 libpdfbox를 설치했습니다. -자바.

속도:

pdfbox2.jar,fontbox2.jar, commons-logging.jar(pdfbox2의 일부 클래스에 필요함)을 폴더에 복사합니다.
.jar xf pdfbox2.jar
설치된 버전과 동일한 Pdfbox 소스를 가져옵니다.
RemoveAllText.java를 이 폴더에 복사합니다 org/apache/pdfbox/examples/util.
RemoveAllText.java를 컴파일합니다 javac org/apache/pdfbox/examples/util/RemoveAllText.java.
이제 실행하면 사용법이 표시됩니다 java org.apache.pdfbox.examples.util.RemoveAllText.

누구든지 이 답변을 발견하고 더 나은 방법을 알고 있다면 댓글을 남겨주세요.

PDF에서 OCR 제거

답변1

관련 정보