100개가 넘는 파일에서 중복된 필드를 찾는 방법

Question 1

"키"가 "열"을 참조한다고 가정하면 다음과 같이 사용할 수 있습니다.

로그 파일의 확장자로 내용을 변경해야 할 수도 있습니다 $(find -iname)(또는 디렉터리의 유일한 파일이 로그 파일인 경우 삭제해야 할 수도 있습니다. 이렇게 하면 모든 로그 파일을 재귀적으로 찾아서 일치시킵니다.

일부 테스트 데이터의 출력은 다음과 같습니다.

test_data.txt:1:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msg|Country not known test_data.txt:5:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msg|Country not known test_data_2.txt:2:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIDONTMATCH|Country not known test_data.txt:3:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIDONTMATCH|Country not known test_data_2.txt:4:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIlikecake|Country not known test_data.txt:7:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIlikecake|Country not known

이는 필드 11이 반복되는 파일의 모든 행입니다.

이 명령의 기능에 대한 설명입니다.

cut -f 11 -d "|"11번째 필드 가져오기(|로 구분)

find . -type f -iname "*.txt"현재 디렉터리에서 .txt로 끝나는 모든 파일을 (재귀적으로) 고려합니다.

sort | uniq -d"Field 11"의 중복 항목 모두 표시

sed /\\/./g'이것은 bash를 망칠 수 있기 때문에 해킹입니다 \. 이를 .모든 문자와 일치할 수 있는 grep으로 대체합니다.

while read duplicate; do grep -rHn "|$duplicate|" *; done- 중복 항목 목록을 반복하여 발생하는 모든 항목을 찾아 중복 항목이 발생한 파일 이름과 줄 번호를 출력합니다.

Answer

"키"가 "열"을 참조한다고 가정하면 다음과 같이 사용할 수 있습니다.

로그 파일의 확장자로 내용을 변경해야 할 수도 있습니다 $(find -iname)(또는 디렉터리의 유일한 파일이 로그 파일인 경우 삭제해야 할 수도 있습니다. 이렇게 하면 모든 로그 파일을 재귀적으로 찾아서 일치시킵니다.

일부 테스트 데이터의 출력은 다음과 같습니다.

test_data.txt:1:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msg|Country not known test_data.txt:5:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msg|Country not known test_data_2.txt:2:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIDONTMATCH|Country not known test_data.txt:3:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIDONTMATCH|Country not known test_data_2.txt:4:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIlikecake|Country not known test_data.txt:7:Error: null, Data: |862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2010\07\05\ITE854075_RECardProtectionlogi.msgIlikecake|Country not known

이는 필드 11이 반복되는 파일의 모든 행입니다.

이 명령의 기능에 대한 설명입니다.

cut -f 11 -d "|"11번째 필드 가져오기(|로 구분)

find . -type f -iname "*.txt"현재 디렉터리에서 .txt로 끝나는 모든 파일을 (재귀적으로) 고려합니다.

sort | uniq -d"Field 11"의 중복 항목 모두 표시

sed /\\/./g'이것은 bash를 망칠 수 있기 때문에 해킹입니다 \. 이를 .모든 문자와 일치할 수 있는 grep으로 대체합니다.

while read duplicate; do grep -rHn "|$duplicate|" *; done- 중복 항목 목록을 반복하여 발생하는 모든 항목을 찾아 중복 항목이 발생한 파일 이름과 줄 번호를 출력합니다.

Question 2

무엇을 하려는지 확실하지 않지만 다음과 같이 시도해 보겠습니다.

먼저, 당신의 경로는 무엇입니까? 당신은 그것을 한 줄로 제공합니다 :

Error: null, Data:|862799|00318070L|EMA|EMAIL|null|20100705|2010-07-05 14:59:39.0|null|AUTO_20100705|2011\07\05\ITE854075_RECardProtectionlogi.msg|Country not known

행이 다음과 같으면 키가 필드 11에 있는 것입니다.

2011\07\05\ITE854075_RECardProtectionlogi.msg

하지만 키를 정의하는 것은 무엇입니까? 11번째 게임에만 있는 건가요?

그렇다면 대상 파일이 있는 디렉터리에서 다음을 수행할 수 있습니다.

sort --field-separator='|' --key=11 <(\grep --recursive --line-number --color=always --with-filename '' *)

이렇게 하면 파일 이름의 컬러 출력이 제공되고 그 뒤에 해당 파일의 줄 번호가 표시되고 줄 자체가 모두 키 필드 11로 정렬되므로 출력에서 모든 파일의 일치하는 모든 키가 차례로 나타납니다. .....

나는 이것이 적어도 당신에게 단서를 줄 것이라고 생각합니다

노트: 앞의 백슬래시 는 앨리어싱을 grep방지하기 위한 것입니다 grep.

Answer