데비안 서버에서 1K PDF 파일을 문서로 변환해야 합니다. libreoffice 명령줄을 사용하여 PDF를 Word로 변환할 수 있습니다.
libreoffice --headless --invisible --convert-to doc Sample-doc-file-100kb.pdf
또는 사무실을 사용하십시오:
soffice --nocrashreport --nologo --nolockcheck --nofirststartwizard --invisible --headless --convert-to doc Sample-doc-file-100kb.pdf
위 두 명령의 주요 문제점은 문서 파일에 페이지의 이미지가 포함되지 않고 서식 있는 텍스트만 포함된다는 것입니다. PDF에 있는 이미지를 포함하여 PDF를 문서로 변환하는 더 좋은 방법이 있습니까? 나는 zamzam과 같은 웹 서비스에 관심이 없습니다. 서버의 명령줄에서 이 작업을 수행해야 합니다. 감사해요.
답변1
abiword 소프트웨어를 사용해 볼 수 있습니다. 예를 들어:
abiword --to=doc example.pdf
답변2
나는 이것을 사용하여 그것을 수행했습니다 :
libreoffice --infilter=="writer_pdf_import" --headless \
--convert-to doc:"writer_pdf_Export" Brief.pdf
@igiannak의 답변과 동일한 결과를 얻었습니다.
답변3
pdf에 있는 이미지를 포함하여 pdf를 docx로 변환하는 데 직접 명령줄 인터페이스 명령을 사용할 수 있습니다. libreoofice 및 soffice 명령을 시도했는데 linux/ubuntu에서 사용할 수 있는 pdf를 word로 변환하는 동안 다른 pywin32 com clinet 라이브러리와 같은 간단한 형식의 텍스트만 제공합니다.
운영 체제 가져오기 시스템 가져오기
comtypes.client 가져오기
WD 형식 PDF = 17
def covx_to_pdf(infile, outfile): """Word .docx를 PDF로 변환"""
word = comtypes.client.CreateObject('Word.Application')
doc = word.Documents.Open(infile)
doc.SaveAs(outfile, FileFormat=wdFormatPDF)
doc.Close()
word.Quit()
이 코드는 Windows 시스템에서 PDF를 단어로 변환할 수 있지만 이 패키지는 Linux/Debian 플랫폼을 지원하지 않습니다. Linux/debian에서 pdf를 단어로 변환하는 것과 동일한 구현에 대한 제안 사항이 있습니까?