「IT術語詞典」開發流程Day5

主要有以下工作：

一、詞庫選擇：

（一）詞庫比較

我們這個專案主要嘗試了jieba庫、foolnltk庫、中科院的nlpir詞庫、清華大學的thuocl(thu open chinese lexicon)詞庫，下面將對每乙個詞庫進行簡要介紹，以及在本專案中的發揮成效進行展示。

1.jieba庫：

（1）簡要介紹：

支援三種分詞模式：

它還可以支援繁體分詞和自定義詞典。

實現機制：

基於字首詞典實現高效的詞圖掃瞄，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (dag)，採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合，對於未登入詞，採用了基於漢字成詞能力的 hmm 模型，使用了 viterbi 演算法。

使用效果：

這是我們最早使用的詞庫，也是相比較於其他三個詞庫這也是最廣泛的庫，但是其對於本專案缺少專業性，分詞結果的噪音太大。

2.foolnltk———— 可能是最準的開源中文分詞，但很慢啊

基於 bilstm 模型訓練而成，包含分詞，詞性標註，實體識別,　都有比較高的準確率，使用者可以自定義詞典，並且訓練自己的模型，還可進行資料批量處理。

使用效果：

如果我們的硬體設施再好些，資料量再多一些，或許我們會使用這個詞庫，因為在實際的操作過程中，即使一篇很短的文章，也跑了將近半個小時，總的來說，並不適用於該專案。

3.中科院的nlpir詞庫——這次用過的最讚的

（1）採用工信部官網中《2006━2023年國家資訊化發展戰略》文章，對其進行分析，首先輸入**

（2）點選上圖中的藍色按鈕「開始分析」，檢視熱詞分析結果：

（4）這是其中的實體抽取，與本專案的專案意圖很契合，只是只能分析一篇文章的詞語關聯關係，因此我們若要使用它，還得進行優化。

使用效果：

這是我們最終選用的詞庫，功能實在龐大，對於分詞的視覺化展示效果很好，推薦學習和使用。

3.清華大學的thuocl(thu open chinese lexicon)詞庫

thuocl(thu open chinese lexicon)是由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫,詞表來自主流**的社會標籤、搜尋熱詞、輸入法詞庫等。 thuocl 具有以下特點: 包含詞頻統計資訊 df 值(document frequency),方便使用者個性化選擇使用。詞庫經過多輪人工篩選,保證詞庫收錄的準確性。

通過本專案也感受到我們還是才疏學淺，對於涉及到演算法的東西，目前還僅僅只能做到應用，對其進行改進還需要進一步的鑽研。由於開發時間有限，也只能將大佬們的研究成果加以應用。

「IT術語詞典」開發流程Day5

Day5 流程控制

網頁製作流程（day5）

py流程控制學習 day 5

「IT術語詞典」開發流程Day5

Day5 流程控制

網頁製作流程（day5）

py流程控制學習 day 5

相關推薦