對文章單詞的字母個數的計算

2021-09-30 14:19:24 字數 1524 閱讀 1191

首先是先把每篇文章裡的單詞用正規表示式切分出來,然後放進乙個list裡面,然後再將這個list裡面的元素一一遍歷,每次遍歷後的結果都是用正則對這個單詞進行切分,將得到的結果就是用另乙個list儲存起來,最後求這個list的長度就是每個單詞的字母長度了。

具體的**如下:

# -*-coding:utf-8 -*-

import nltk

# nltk.download()

import sys

import numpy

import re

import os

from scipy.stats import pearsonr

reload(sys)

sys.setdefaultencoding('utf8')

n = 0

while n < 5:

n += 1

url = '/home/zheng/firstproject2/essay/' + str(n)

file_name = os.listdir(url)

print

str(n) + '

分下文章

'number = 0

for single_file in file_name:

number += 1

mean=0

sd=0

with

open(url + '/' + single_file, 'r') as essay:

content = essay.read()

essay_list=re.findall('([a-za-z

\']+)',content)

for word in essay_list:

letterword_list=re.findall('([a-za-z])',word)

letterword_num=len(letterword_list)

mean +=letterword_num

print '第

' + str(number) + '

'+str(mean)

print '第

' + str(number) + '

'+str(mean*1.0/len(essay_list))

for word in essay_list:

letterword_list=re.findall('([a-za-z])',word)

letterword_num=len(letterword_list)

sd+=(letterword_num-mean*1.0/len(essay_list))*(letterword_num-mean*1.0/len(essay_list))

sd=sd*1.0/len(essay_list)

print '第

' + str(number) + '

'+str(sd)

print '第

' + str(number) + '

'+str(sd**0.5)

Trie樹計算單詞字首的個數

時間限制 10000ms 單點時限 1000ms 記憶體限制 256mb 小hi和小ho是一對好朋友,出生在資訊化社會的他們對程式設計產生了莫大的興趣,他們約定好互相幫助,在程式設計的學習道路上一同前進。這一天,他們遇到了一本詞典,於是小hi就向小ho提出了那個經典的問題 小ho,你能不能對於每乙個...

單詞的個數

從大神處學習的,主要關鍵是sscanf函式的乙個用法,就是遇到空格時,讀入結束。還有gets函式的乙個點,與scanf不同的是輸入字串是直到換行符時才結束,而scanf函式遇到空格時讀入就結束了。其中乙個思想是用二維陣列記錄一行字串,我覺得這個思想很好。include include using n...

單詞的個數

從大神處學習的,主要關鍵是sscanf函式的乙個用法,就是遇到空格時,讀入結束。還有gets函式的乙個點,與scanf不同的是輸入字串是直到換行符時才結束,而scanf函式遇到空格時讀入就結束了。其中乙個思想是用二維陣列記錄一行字串,我覺得這個思想很好。include include using n...