이는 다음과 유사합니다.두 개의 병렬 텍스트 파일 섞기
나는 가지고있다:
평행선이 있는 두 개의 큰 csv 파일입니다. (특정 프로젝트의 "이전" 및 "이후" 상태를 나타냅니다). 이러한 필드는 문자열인 경우도 있고 숫자인 경우도 있습니다.
사용할 수 있을 만큼 긴 임의의 데이터 파일
shuf
무작위로 일치하는 샘플을 얻고 싶을 때 다음을 생각했습니다.
shuf -n10 --random-source="random.csv" "file1"
shuf -n10 --random-source="random.csv" "file2"
그러나 파일이 더 이상 일치하지 않습니다.
그러나 줄 번호를 앞에 넣으면 문제가 해결됩니다.
shuf -n10 --random-source="random.csv" <(cat -n "file1")
shuf -n10 --random-source="random.csv" <(cat -n "file2")
누군가 이유를 설명할 수 있나요?
다음은 random.csv의 예입니다.
0.293076138
0.446732207
0.552989654
0.16141527
0.099383023
...
다음은 두 파일의 스니펫입니다.
VA,DEFAULT,72.8027,11.9534.....
VA,DEFAULT,61.8356,11.9342....
VA,DEFAULT,61.8356,....
두 파일에 있는 대부분의 줄의 처음 두 필드는 동일합니다. 어쩌면 그게 문제일까요? 나는 아직 충분히 모른다 shuf
.