Python Jieba中文分詞工具實現分詞功能

程式功能及簡介：安裝和測試python下的中文分詞工具

開發時長：0.5個工作日。

開發要求及分析：在python下可以採用的較好的中文分詞工具是結巴中文分詞和中科院的分詞系統，現就jieba中文分詞使用功能做一些**。

一、操作步驟：

1、安裝結巴中文分詞工具

在32位，windows7 ，pycharm，anaconda下安裝最新的結巴中文分詞工具。

具體步驟：

（1）、pycharm,anaconda 安裝及配置，內含安裝說明

（2）、anaconda 整合了jieba庫，直接填加，操作如下：

3、程式程式設計**，詳見如下：

檔案目錄：

4、測試結果：

5、程式設計過程中遇到問題及解決方法：

replace函式只支援str格式，報錯：typeerror: a bytes-like object is required, not 'str'

除錯中發現問題

content 為byte型別，replace不支援，所以尋找到了問題，將content轉換成str型別。**如下：content = content.decode('ansi', 'ignore')

常見的中文編碼格式：

1、unicode編碼

unicode編碼通常由兩個位元組組成，稱作usc-2，個別偏僻字由四個位元組組成，稱作usc-4。前127個還表示原來ascii碼裡的字元，只不過由乙個位元組變成了兩個位元組。

優點：可以囊括多國語言，囊括了常用漢字

不足：表示乙個英文本元由乙個位元組變成了兩個，浪費儲存空間和傳輸速度。生僻字表示不足

測試不能用，亂碼。

2、utf-8編碼

unicode編碼的一種，unicode用一些基本的保留字元制定了三套編碼方式，它們分別為utf-8，utf-16，utf-32.在utf-8中，字元是以8位序列來編碼的，用乙個或幾個位元組來表示乙個字元。這種方式的最大好處是utf-8保留了ascii字元的編碼作為它的一部分。utf-8俗稱「萬國碼」，可以同屏顯示多語種，乙個漢字通常占用3位元組（生僻字佔6個）。為了做到國際化，網頁盡可能採用utf-8編碼。

測試不能用，亂碼。

3、gb2312編碼

gb2312簡體中文編碼，乙個漢字占用2個位元組，在大陸是主要的編碼方式。當文章/網頁中包含正體中文、日文、韓文等時，這些內容可能無法被正確編碼。

作用：國家簡體中文字符集，相容ascii

位數：使用2個位元組表示，能表示7445個符號，包括6763個漢字，幾乎覆蓋所有高頻率漢字。

範圍：高位元組從a1-a7，低位元組從a1到fe。將高位元組和低位元組分別加上0xa0即可得到編碼。

測試成功！

4、big5編碼

稱為正體中文編碼，主要在台灣地區使用。

未測試。

5、gbk編碼

作用：它是gb2312的擴充套件，加入對繁體字的支援，相容gb2312.

位數：使用2個位元組表示，可表示21886個字元。

範圍：高位元組從81到fe，低位元組從40到fe.

測試成功

6、gb18030編碼

作用：它解決了中文、日文、朝鮮語等的編碼，相容gbk。

位數：它採用變位元組表示（1ascii, 2,4位元組）。可表示27484個文字。

範圍：1位元組從00到7f；2位元組高位元組從81到fe，低位元組從40到7e和80到fe；4位元組第一三位元組從81到fe，第二四位元組從30到39.

測試成功

7、ansi編碼

盡然也是成功的。難道系統預設的。

二、中文分詞的用途：

在中文自然語言處理 (chinese natural language processing)過程中，許多分析技術需要用到「詞」的概念，需要在詞的基礎上處理，比如詞性標註、語法分析、詞義消歧、語義分析、自動文摘、文字分類、文字聚類、文字檢索、搜尋引擎、機器翻譯等。可以說中文分詞技術是中文資訊處理的基石。詞的正確切分是進行中文文字處理的必要條件。

ps：分詞**上傳到我的資源裡，試試吧

Python Jieba中文分詞工具實現分詞功能

Python jieba中文分詞庫基本操作

使用python jieba庫進行中文分詞

Python jieba分詞常用方法

Python Jieba中文分詞工具實現分詞功能

Python jieba中文分詞庫基本操作

使用python jieba庫進行中文分詞

Python jieba分詞常用方法

相關推薦