여러 파일을 특정 줄로 읽은 출력에서 텍스트를 csv 파일로 추출합니다.

2024-5-22 • tag-icon

여러 파일을 특정 줄로 읽은 출력에서 텍스트를 csv 파일로 추출합니다.

여러 PDF 문서의 텍스트에서 csv 파일을 생성하는 bash 스크립트를 작성하려고 합니다. pdf를 텍스트로 변환하는 스크립트가 있지만 csv 파일을 생성하는 스크립트는 없습니다. 각 텍스트 문서에는 자체 행이 있으며 각 텍스트 문서에서 특정 데이터 조각이 추출됩니다. csv 파일의 첫 번째 행에는 열 이름이 포함되고 나머지 모든 것은 텍스트 파일에서 추출된 데이터입니다. 따라서 csv 파일은 다음과 같습니다.

Data1,Data2,Data3,Data4 Data1_FromFile1,Data2_FromFile1,Data3_FromFile1,Data4_FromFile1 Data1_FromFile2,Data2_FromFile2,Data3_FromFile2,Data4_FromFile2 Data1_FromFile3,Data2_FromFIle3,Data3_FromFile3,Data4_FromFile3

텍스트 파일의 모든 텍스트가 사용되는 것은 아니며 특정 패턴(날짜, 코드, 특정 부분의 내용)에 맞는 줄만 사용됩니다. 또한 3줄 이상이 됩니다. 그러한 CSV 파일을 어떻게 만듭니까? 표준 출력을 파일(csv 파일)로 리디렉션한 다음 어떻게 이를 csv 파일로 포맷합니까?

관련 정보