Perl 中文 字頻統計 Perl 例子

2021-05-24 01:04:03 字數 709 閱讀 3582

#!/usr/bin/perl

#如果在文字中使用大字符集,那麼將文字儲存成utf-8格式。

#並將下面的注釋標誌去掉,同時給後面的簡體中文編碼語句加注釋標記

#use utf8;

#使用簡體中文編碼,否則拆分單個漢字會出錯。

use encoding "euc-cn";

#如果不提供待統計文字,退出程式

die if $#argv == -1;

#開啟待統計檔案

open(txt, $argv[0]) or die "無法開啟待統計檔案。/n";

#雜湊表,用於存放「漢字=>頻率值」對。

%frequency = ();

#讀取每一行,用chomp()刪除句末換行符,否則會出錯。

#用split函式將字串分割為每乙個漢字。每找到乙個漢字,該字頻率加1。

while($string = )++;}}

#列印統計結果。

print "字頻統計結果是: /n";

while ( ($k,$v) = each %frequency )

#排序後列印結果。

print "字頻統計結果是(由小到大排序後): /n";

@character = sort <=> $frequency }( keys %frequency);

foreach $character (@character)/n";}

中文字符集

gb2312 1980年 16位字符集,收錄有6763個簡體漢字,682個符號,共7445個字元。優點 適用於簡體中文環境,屬於中國國家標準,通行於大陸,新加坡等地也使用此編碼 缺點 不相容正體中文,其漢字集合過少。gbk 1995年 16位字符集,收錄有21003個漢字,883個符號,共21886...

Java中文位元組長度

中文的位元組編碼長度跟其本身長度是不一樣的,一般來說,位元組碼長度是本身長度的一倍。此處有待證實 其他英文數字的位元組碼長度跟本身長度是一樣的。32 16 11 11 public classgbk length public static voidmain string args string s...

設定中文字符集

目錄 二 漢字的編碼 三 設定linux的字符集 四 lang環境變數 五 修改客戶端的字符集 六 字符集轉換工具 七 應用經驗 字元編碼是一種法則,在數字與符號之間建立的對應關係。不同的國家有不同的語言,包含的文字 標點符號 圖形符號各有不同。例如在ascii編碼中,用數字97表達字元 a 與字符...