발음된 단어의 평균과 변화

발음된 단어의 평균과 변화

저는 언어학을 공부하고 있으며 평균 문장 길이와 그 평균이 얼마나 변하는지 계산하려고 합니다. 한 줄에 한 문장만 남기려고 노력해요

예를 들어:

La dernière fois qu'on, la dernière fois on l'a pas fait

단어는 14개로 문장당 평균 7개 단어로 구성되어 있으며, 편차는 (7-13)^2/2 + 36/2 = 36으로 매우 높습니다.

여기에 이미지 설명을 입력하세요.

나는 gedit명령을 사용하고 과거에 수행했던 작업을 복사했습니다. 예를 들어 파일의 시작 부분은 다음과 같습니다 phrasesAntoine.

Allumlalum...엘랄...

Allume sinon sinon non, mais au moins pour verifier.

실크

La dernière fois qu'on, la dernière fois on l'a pas fait

Les amis j'vous présente Bob, Bob le gri-gri.

친구들아 안녕

Tianshi, 길 grigri에는 le grigri와 le parler가 있습니다.

이건 가석방이야

난 두…

저는 텍스트 파일의 각 줄을 배열에 넣어 길이를 파악하고 평균과 분산 또는 이 분산을 찾을 수 있는 아이디어를 찾을 수 있는 스크립트를 찾고 있습니다. 실제로 "Qu'est-ce que c'est"는 6개의 단어로 구분됩니다.공백또는'또는-

내 마음에 가장 먼저 떠오르는 것은 다음과 같습니다.

file wc -l >stat

각 행에 대해 이 정보를 얻으려면 스크립팅이 처음입니다. 그런 다음 calculator통계를 변수에 대한 매개 변수로 사용하여 호출되는 다른 파일을 만드는 것을 생각했습니다 $file.

file
int number_of_phrases = $file wc -l;
int mean = /*number of words divided by number of phrases*/
int sum = 0;
int variance =0 ;
for i=0 to number_of_phrases{
    /* here is the calculation of xi-m
    sum = sum + (number of words at line i divided - mean)^2*/
}
variance = sum/number_of_phrase

그게 내 최선의 추측이야.더 좋은 생각이 있나요?

답변1

진주아마도 이런 종류의 작업에 가장 적합한 언어일 것입니다. Perl의 수석 저자,래리 월는 유닉스 프로그래머이자 언어학자이며, 언어는 언어학에 대한 그의 관심을 강하게 반영합니다. 셀 수 없이 많다perl기준 치수언어 처리 및 단순 텍스트 처리에 사용됩니다.

예를 들어,언어::문장perl문단을 문장으로 나누는 모듈 입니다 . 그리고 다른 많은 Lingua::모듈. 사실, Lingua::Sentence그리고관련 모듈지금 하고 있는 작업, 즉 텍스트의 통계적 분석(이 경우에는유럽 ​​친구 코퍼스, 유럽의회 의사록에서 발췌)

예를 들어, Lingua::Sentence각 단락을 문장으로 나누고, 각 문장의 단어 수를 계산하고, 그 수를 배열에 저장한 다음, 배열에 대해 원하는 통계 분석을 수행할 수 있습니다.

Perl에는 또한 통계 분석을 위한 많은 모듈이 있으며 다음 위치에서도 찾을 수 있습니다.CPAN(Integrated Perl Archive Network) 또는 원시 데이터를 파일로 출력하여 사용할 수 있습니다.오른쪽또는 다른 통계 도구.

관련 정보