임의의 소스가 동일하더라도 동일한 줄을 제공하지 않는 두 개의 병렬 텍스트 파일을 섞습니다.

2024-6-4 • tag-icon

나는 가지고있다:

평행선이 있는 두 개의 큰 csv 파일입니다. (특정 프로젝트의 "이전" 및 "이후" 상태를 나타냅니다). 이러한 필드는 문자열인 경우도 있고 숫자인 경우도 있습니다.
사용할 수 있을 만큼 긴 임의의 데이터 파일shuf

무작위로 일치하는 샘플을 얻고 싶을 때 다음을 생각했습니다.

shuf -n10 --random-source="random.csv" "file1" 
shuf -n10 --random-source="random.csv" "file2"

그러나 파일이 더 이상 일치하지 않습니다.

그러나 줄 번호를 앞에 넣으면 문제가 해결됩니다.

shuf -n10 --random-source="random.csv" <(cat -n "file1") 
shuf -n10 --random-source="random.csv" <(cat -n "file2")

누군가 이유를 설명할 수 있나요?

다음은 random.csv의 예입니다.

0.293076138
0.446732207
0.552989654
0.16141527
0.099383023
...

다음은 두 파일의 스니펫입니다.

VA,DEFAULT,72.8027,11.9534.....
VA,DEFAULT,61.8356,11.9342....
VA,DEFAULT,61.8356,....

두 파일에 있는 대부분의 줄의 처음 두 필드는 동일합니다. 어쩌면 그게 문제일까요? 나는 아직 충분히 모른다 shuf.

관련 정보