간격이 일정하지 않은 텍스트 파일에서 테이블 데이터 추출

간격이 일정하지 않은 텍스트 파일에서 테이블 데이터 추출
         CLASS RECORD OF THE STUDENT FROM THE PREVIOUS BATCH WHO TOPPED
Name (Roll no) #    Location   Section     Rank (MARKS)     Gender   
Anna (+)            USA        A1          First (100)      Female
(04)                California V
ADDITIONAL RECORDS OF THE STUDENTS FROM THE PREVIOUS BATCH NEXT IN LIST
Name (Roll no) #    Location   Section     Rank (MARKS)     Gender
Bob (-)             USA        A2          First (99)       Male
(07)                Florida    VI
Eva (+)             USA        A4          Second (96)      Female
(12)                Ohio       V           English (99)
                                           Maths(100)
Other records are not available currently.Some records may be present which can be given on request.

PDF에서 텍스트 파일을 얻으려면 다음 명령을 사용하십시오.PDF를 텍스트로. 아래에서 사용하세요AWK명령을 통해 위의 데이터를 가져오고 있습니다.
테이블 데이터의 간격이 균등하지 않습니다. 다음 줄을 삭제하세요.전반적으로에 있습니다수도

pdftotext -layout INPUTFILE.pdf INPUTFILE.txt
awk '/RESULTS/{flag=1;next}/OTHER DATA/{flag=0}flag' INPUTFILE.txt | column -ts $'\t' -n


탭으로 구분된 형식으로 테이블 데이터를 가져오는 방법(다음 형식)?
일반적인 방식으로 인코딩되므로 다른 유형의 테이블에서도 작동합니다.

Name (Roll no) #    Location    Section     Rank (MARKS)    Gender  
Anna (+)            USA         A1          First (100)     Female
(04)                California  V
Bob (-)             USA         A2          First (99)      Male
(07)                Florida     VI
Eva (+)             USA         A4          Second (96)     Female
(12)                Ohio        V           English (99)
                                            Maths (100)

답변1

이것이 당신이 찾고 있는 것인지 알려주세요.

$ awk '{if ($1 in a) next; a[$1]=$0; print}' <filePath> | grep -v  -e STUDENT  -e Other | column -ts $'\t' 
Name (Roll no) #    Location   Section     Rank (MARKS)     Gender   
Anna (+)            USA        A1          First (100)      Female
(04)                California V
Bob (-)             USA        A2          First (99)       Male
(07)                Florida    VI
Eva (+)             USA        A4          Second (96)      Female
(12)                Ohio       V           English (99)
                                           Maths(100)

관련 정보