基礎文字分析專案

2021-08-28 16:49:44 字數 1496 閱讀 4704

因此文字分析通常是作為一些專案的子專案來進行的

文字分析包含很多內容如:分詞,分類,錯別字糾正,輸入**等

【功能需求】

對於分詞:演算法以一段文字作為輸入,演算法輸出分詞後的文字,如:輸入"基礎文字分析專案"  演算法會輸出"基礎/文字/分析/專案"

對於分類:演算法以一段文字作為輸入,演算法輸出文字的主題分布

通過是否含有標記,在分類時選擇不同的演算法,含有標記則選擇nbc(樸素貝葉斯),否則使用lda(隱含狄利克雷分布)

(暫時只有這兩種功能。。。後續會新增功能)

【效能需求】

資訊量速率:未知

主存容量:未知

【可靠性和可用性需求】

ps:系統在乙個時間段出錯的次數不大於多少未知

【出錯處理需求】

ps:這類需求說明系統對於環境錯誤應該怎樣響應未知

【介面需求】

ps:資料的格式

【約束】

ps:在設計或實現應用系統時應遵守的限制條件,如:精度,工具和語言約束,設計約束,應該使用的標準,應該使用的硬體平台

精度: 分詞和文字分類的正確率在85%以上

分詞正確率 = (分詞正確數)/(真實分詞數),因為文字是沒有提前分詞的,因此採用抽樣法進行人工檢查

使用python語言,需要的庫有:

【逆向需求】

ps:軟體系統不應該做什麼

【將來可能提出的需求】

翻譯,搜尋引擎,文章推薦,人物-事物-事件關係圖

語言:python , 因為包含了大量的機器學習的第三方開源庫

資料結構:以utf-8文字儲存在資料庫中

1.通過python的jieba分詞對文字進行精確分詞

原理 (jiebao):

原理:3.詞頻統計

原理:4.向量化

原理:5.nbc(***** bayes classifier)

對於nbc分類,需要先對模型進行訓練,然後生成主題-詞條的概率向量,然後再通過python中的樸素貝葉斯分類器對文字進行分類

原理:5.lda(latent dirichlet allocation)

對於lda分類,

通過對測試集進行測試,得到模型的準確度,然後判斷是否需要對演算法進行優化處理

還在更新中。。。

文字分析基礎知識

1.基於字串匹配和規則的分詞方法 機械分詞法 與字典的進行匹配 存在的問題是對詞典的依賴性較大,分詞的效果的詞義偏差較大,不能識別一些新的登陸詞 其中按照是否與詞性標註相結合,又可以分為單純分詞方法和與標註相結合的方法。2.基於統計的分詞方法 只需要對語料中的字資訊進行統計,不需要切分詞典。主要常用...

python,文字分析

記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...

文字分析awk

awk awk是乙個強大的文字分析工具。相對於grep的查詢,sed的編輯,awk在其對資料分析並生成報告時,顯得尤為強大。簡單來說awk就是把檔案逐行的讀入,空格,製表符 為預設分隔符將每行切片,切開的部分再進行各種分析處理。awk f 支援自定義分隔符 支援正規表示式匹配 支援自定義變數,陣列 ...