人工智慧(文字特徵資料抽取)

2021-10-03 02:43:05 字數 1821 閱讀 6396

sklearn.feature_extraction.text.countverctorizer

from sklearn.feature_extraction import dictvectorizer

from sklearn.feature_extraction.text import countvectorizer

defdictvet()

:# mydict=dictvectorizer(sparse=false)

# # 呼叫fit_transform

統計所有文章當中所有的詞,重複的只做一次 詞的列表 對單個英文本母不進行分類

對於中文,不適用與特徵分析,無法單詞抽取

解決方案:在中間打上空格

使用–> import jieba jieba.cut(「文字字串」)

返回值–>詞語生成器

**:

def

dictword()

: word1=

"君子在下位則多謗,在上位則多譽;小人在下位則多譽,在上位則多謗。"

word2=

"你若要喜愛你自己的價值,你就得給世界創造價值。"

word3=

"如果我們想交朋友,就要先為別人做些事——那些需要花時間、體力、體貼、奉獻才能做到的事"

list_1=

list

(jieba.cut(word1)

) list_2=

list

(jieba.cut(word2)

) list_3=

list

(jieba.cut(word3)

) jieba_1=

" ".join(list_1)

jieba_2=

" ".join(list_2)

jieba_3=

" ".join(list_3)

cv=countvectorizer(

) data=cv.fit_transform(

[jieba_1,jieba_2,jieba_3]

)print

(cv.get_feature_names())

print

(data.toarray(

))

執行結果:

文字特徵抽取

例項 文字特徵抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer import jieba defcountvec 對...

人工智慧簡史 人工智慧簡史

人工智慧簡史 在人工智慧的早期,計算機科學家試圖在計算機中重建人類思維的各個方面。這就是科幻 中的智力型別,即或多或少像我們一樣思考的機器。毫無疑問,這種型別的智慧型稱為可理解性。具有可理解性的計算機可用於探索我們如何推理,學習,判斷,感知和執行腦力活動。可懂度的早期研究集中於在計算機中對現實世界和...

人工智慧複習資料

1 搜尋與求解 2 學習與發現 3 知識與推理 4 發明與創造 5 感知與響應 6 理解與交流 7 記憶與聯想 8 競爭與協作 9 系統與建造 10 應用與工程 機器學習方法的三大類 監督學習 無監督學習 強化學習 不確定性推理原理 不確定性可以理解為在缺少足夠資訊的情況下做出判斷,是智慧型問題的本...