「IT術語詞典」開發流程Day5

2022-04-28 21:30:25 字數 1551 閱讀 7581

主要有以下工作:

一、詞庫選擇:

(一)詞庫比較

我們這個專案主要嘗試了jieba庫、foolnltk庫、中科院的nlpir詞庫、清華大學的thuocl(thu open chinese lexicon)詞庫,下面將對每乙個詞庫進行簡要介紹,以及在本專案中的發揮成效進行展示。

1.jieba庫:

(1)簡要介紹:

支援三種分詞模式:

它還可以支援繁體分詞和自定義詞典。

實現機制:

基於字首詞典實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 (dag),採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合,對於未登入詞,採用了基於漢字成詞能力的 hmm 模型,使用了 viterbi 演算法。

使用效果:

這是我們最早使用的詞庫,也是相比較於其他三個詞庫這也是最廣泛的庫,但是其對於本專案缺少專業性,分詞結果的噪音太大。

2.foolnltk———— 可能是最準的開源中文分詞,但很慢啊

基於 bilstm 模型訓練而成,包含分詞,詞性標註,實體識別, 都有比較高的準確率,使用者可以自定義詞典,並且訓練自己的模型,還可進行資料批量處理。

使用效果:

如果我們的硬體設施再好些,資料量再多一些,或許我們會使用這個詞庫,因為在實際的操作過程中,即使一篇很短的文章,也跑了將近半個小時,總的來說,並不適用於該專案。

3.中科院的nlpir詞庫——這次用過的最讚的

(1)採用工信部官網中《2006━2023年國家資訊化發展戰略》文章,對其進行分析,首先輸入**

(2)點選上圖中的藍色按鈕「開始分析」,檢視熱詞分析結果:

(4)這是其中的實體抽取,與本專案的專案意圖很契合,只是只能分析一篇文章的詞語關聯關係,因此我們若要使用它,還得進行優化。

使用效果:

這是我們最終選用的詞庫,功能實在龐大,對於分詞的視覺化展示效果很好,推薦學習和使用。

3.清華大學的thuocl(thu open chinese lexicon)詞庫

thuocl(thu open chinese lexicon)是由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫,詞表來自主流**的社會標籤、搜尋熱詞、輸入法詞庫等。 thuocl 具有以下特點: 包含詞頻統計資訊 df 值(document frequency),方便使用者個性化選擇使用。 詞庫經過多輪人工篩選,保證詞庫收錄的準確性。

通過本專案也感受到我們還是才疏學淺,對於涉及到演算法的東西,目前還僅僅只能做到應用,對其進行改進還需要進一步的鑽研。由於開發時間有限,也只能將大佬們的研究成果加以應用。

Day5 流程控制

1.從鍵盤上輸 入 個數,顯示它的絕對值 允許使 用abs a float input 請輸入任意數值 if a 0 print 這個數字的絕對值是 0f a else print 這個數字的絕對值是 0f a 2.假設 使用者名為admin,密碼為123abc,從控制台分別輸 入 使用者名稱和密碼...

網頁製作流程(day5)

目標 理解 1.能夠說寫單頁面我們基本流程 2.能說出常見的css初始化語句 3.能說出我們css屬性書寫順序 應用css屬性書寫順序 重點 建議遵循以下順序 布局定位屬性 display position float visibility overflow 自身屬性 width height ma...

py流程控制學習 day 5

流程控制簡介 就是控制程式按照一種什麼樣的順序執行。1.順序結構 直接從上往下依次執行,例如 a 1 b 2 print a b 這種就是最普遍的按順序執行 2.分支結構 不僅僅是單一的資料,是有條件需要判斷的語句。根據不同的判斷執行流程。例如 a 1 if a 0 print 對 else pri...