저는 언어학을 공부하고 있으며 평균 문장 길이와 그 평균이 얼마나 변하는지 계산하려고 합니다. 한 줄에 한 문장만 남기려고 노력해요
예를 들어:
La dernière fois qu'on, la dernière fois on l'a pas fait
배
단어는 14개로 문장당 평균 7개 단어로 구성되어 있으며, 편차는 (7-13)^2/2 + 36/2 = 36으로 매우 높습니다.
나는 gedit
명령을 사용하고 과거에 수행했던 작업을 복사했습니다. 예를 들어 파일의 시작 부분은 다음과 같습니다 phrasesAntoine
.
Allumlalum...엘랄...
Allume sinon sinon non, mais au moins pour verifier.
실크
La dernière fois qu'on, la dernière fois on l'a pas fait
Les amis j'vous présente Bob, Bob le gri-gri.
친구들아 안녕
Tianshi, 길 grigri에는 le grigri와 le parler가 있습니다.
이건 가석방이야
난 두…
저는 텍스트 파일의 각 줄을 배열에 넣어 길이를 파악하고 평균과 분산 또는 이 분산을 찾을 수 있는 아이디어를 찾을 수 있는 스크립트를 찾고 있습니다. 실제로 "Qu'est-ce que c'est"는 6개의 단어로 구분됩니다.공백또는'또는-
내 마음에 가장 먼저 떠오르는 것은 다음과 같습니다.
file wc -l >stat
각 행에 대해 이 정보를 얻으려면 스크립팅이 처음입니다. 그런 다음 calculator
통계를 변수에 대한 매개 변수로 사용하여 호출되는 다른 파일을 만드는 것을 생각했습니다 $file
.
file
int number_of_phrases = $file wc -l;
int mean = /*number of words divided by number of phrases*/
int sum = 0;
int variance =0 ;
for i=0 to number_of_phrases{
/* here is the calculation of xi-m
sum = sum + (number of words at line i divided - mean)^2*/
}
variance = sum/number_of_phrase
그게 내 최선의 추측이야.더 좋은 생각이 있나요?
답변1
진주아마도 이런 종류의 작업에 가장 적합한 언어일 것입니다. Perl의 수석 저자,래리 월는 유닉스 프로그래머이자 언어학자이며, 언어는 언어학에 대한 그의 관심을 강하게 반영합니다. 셀 수 없이 많다perl
기준 치수언어 처리 및 단순 텍스트 처리에 사용됩니다.
예를 들어,언어::문장perl
문단을 문장으로 나누는 모듈 입니다 . 그리고 다른 많은 Lingua::
모듈. 사실, Lingua::Sentence
그리고관련 모듈지금 하고 있는 작업, 즉 텍스트의 통계적 분석(이 경우에는유럽 친구 코퍼스, 유럽의회 의사록에서 발췌)
예를 들어, Lingua::Sentence
각 단락을 문장으로 나누고, 각 문장의 단어 수를 계산하고, 그 수를 배열에 저장한 다음, 배열에 대해 원하는 통계 분석을 수행할 수 있습니다.
Perl에는 또한 통계 분석을 위한 많은 모듈이 있으며 다음 위치에서도 찾을 수 있습니다.CPAN(Integrated Perl Archive Network) 또는 원시 데이터를 파일로 출력하여 사용할 수 있습니다.오른쪽또는 다른 통계 도구.