關於python統計檔案中word的大小

2021-06-29 00:31:23 字數 530 閱讀 6945

如果乙個檔案中有很多word,我們需要知道每個word的大小,但是實際中,我們只知道每個檔案的大小,至於word的大小我們就需要統計了!!

我把word輸入進去乙個個測試

file.write('\n%s\t'%word)

由於\t是制**符,所以每次向檔案中寫入word的時候,它總是在末尾多餘乙個空格,如果當你簡單用word長度乘以每個字元所佔的位元組,當然和整個檔案的總大小不匹配!

file.write('\n%s'%word)

於是去掉\t,每一行都是直接以word最後乙個字元為結束,但是此時仍然不匹配,因為\n, 分行符號占用兩個位元組,這個一定要計算進去!簡單地來說,如果您的檔案有五行那就消耗了四個分行符號,占用了8個位元組!對於word的每乙個字元占用乙個位元組!

檔案大小分成兩部分:

這個過程中,如果粗心沒有注意到一些空格,分行,極有可能你統計的位元組數和檔案大小不符合,導致實驗不順利,希望大家從這篇文章中,再也不用為統計檔案的word大小而擔憂了!

python統計檔案中單詞數

python統計指定檔案中的各個單詞數,主要用了正規表示式!如下 coding utf 8 import re,os re一般處理正規表示式 from collections import counter filesource a.txt def getmostcommonword articlef...

關於python檔案 關於python檔案操作

總是記不住api。昨晚寫的時候用到了這些,但是沒記住,於是就索性整理一下吧 python中對檔案 資料夾 檔案操作函式 的操作需要涉及到os模組和shutil模組。得到當前工作目錄,即當前python指令碼工作的目錄路徑 os.getcwd 返回指定目錄下的所有檔案和目錄名 os.listdir 函...

python統計txt檔案中的單詞個數

with open 統計單詞個數.txt r encoding utf 8 as f new lines all the lines f.readlines for every line in all the lines for i in range 0 len every line iford e...