python 分詞 字串 常見中文分詞包比較

2021-10-14 14:59:56 字數 907 閱讀 3643

snownlp是乙個python寫的類庫,可以方便的處理中文文字內容,是受到了textblob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了乙個方便處理中文的類庫,並且和textblob不同的是,這裡沒有用nltk,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。注意本程式都是處理的unicode編碼,所以使用時請自行decode成unicode。

pkuseg具有如下幾個特點:

1.多領域分詞。不同於以往的通用中文分詞工具,此工具包同時致力於為不同領域的資料提供個性化的預訓練模型。根據待分詞文字的領域特點,使用者可以自由地選擇不同的模型。 我們目前支援了新聞領域,網路領域,醫藥領域,旅遊領域,以及混合領域的分詞預訓練模型。在使用中,如果使用者明確待分詞的領域,可載入對應的模型進行分詞。如果使用者無法確定具體領域,推薦使用在混合領域上訓練的通用模型。各領域分詞樣例可參考 example.txt。

2.更高的分詞準確率。相比於其他的分詞工具包,當使用相同的訓練資料和測試資料,pkuseg可以取得更高的分詞準確率。

3.支援使用者自訓練模型。支援使用者使用全新的標註資料進行訓練。

4.支援詞性標註。

thulac(thu lexical analyzer for chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。thulac具有如下幾個特點:

1.能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(約含5800萬字)訓練而成,模型標註能力強大。

2.準確率高。該工具包在標準資料集chinese treebank(ctb5)上分詞的f1值可達97.3%,詞性標註的f1值可達到92.9%,與該資料集上最好方法效果相當。

3.速度較快。同時進行分詞和詞性標註速度為300kb/s,每秒可處理約15萬字。只進行分詞速度可達到1.3mb/s。

Python字串常見操作

先初始化乙個字串scstring scstring my name is shenchong shen shen find scstring my name is shenchong shen shen print scstring.find shen 輸出結果,第乙個shen的s的角標為11 11...

Python(字串常見函式)

字串常見函式 find find 從左側查詢第一次出現 的位置 下標位置 index s.find print index 5 index s.find 如果要查詢的字元沒有出現在字串中則返回 1 print index rfind right find index s.rfind g 返回的是從右...

Python字串常見操作

如有字串mystr hello world hello everyone 以下是常見的操作 1 find與index 檢測 str 是否包含在 mystr中,如果是返回開始的索引值,否則find返回 1,index將報錯。返回 str 在 mystr裡面出現的次數,可以指定查詢範圍。把 mystr ...