Scikit learn 庫的使用

2022-07-26 20:15:13 字數 924 閱讀 7035

1. 與文字處理相關的庫

1. 對語料庫提取特徵詞集合

from sklearn.feature_extraction.text import

tfidfvectorizer, countvectorizer

#下面的語句初始化 tfidfvectorizer 物件,傳入引數有 max_df (df比率大於其的單詞進行過濾,停用詞,特徵詞的數量)

vectorizer = tfidfvectorizer(max_df=_max_df, stop_words=, max_features=_vocab_size)

vectorizer.fit(corpus)

#通過vectorizer.vocabulary_可以訪問特徵詞的字典,鍵為特徵詞,值為特徵詞在詞袋子列表中的下標

vocal =vectorizer.vocabulary_

#初始化向量統計物件,使用指定的詞袋子。否則會自動將語料庫中所有長度大於等於2的單詞作為詞袋子中的成員

baseline_vectorizer = countvectorizer(vocabulary=vocab)

#對語料庫二維列表進行特徵詞統計

x_base = baseline_vectorizer.fit_transform(corpus)

2. 稀疏矩陣

1. 壓縮稀疏矩陣行格式(csr)

from spicy.sparse.csr import

car_matrix

#rating 列表儲存稀疏矩陣的值,(user, item) 組成其對應的行列下標

r = car_matrix(rating, (user, item))

使用壓縮稀疏行矩陣可以快速的對行進行遍歷,得到每行的結果。如果需要對列進行遍歷,最好先將其轉換為csc矩陣,使用 tocsc() 成員函式。

Scikit Learn 使用技巧

1.使用 columntransformer 對 dataframe 不同的列分別進行不同的處理from sklearn.preprocessing import onehotencoder from sklearn.impute import imputer from sklearn.compos...

scikit learn樸素貝葉斯類庫使用小結

樸素貝葉斯是一模擬較簡單的演算法,scikit learn中樸素貝葉斯類庫的使用也比較簡單。相對於決策樹,knn之類的演算法,樸素貝葉斯需要關注的引數是比較少的,這樣也比較容易掌握。在scikit learn中,一共有4個樸素貝葉斯的分類演算法類。我們關注的是gaussiannb,multinomi...

Scikit learn機器學習庫的安裝

scikit learn是python的乙個開源機器學習模組,它建立在numpy matplotlib和scipy模組之上能夠為使用者提供各種機器學習演算法介面,可以讓使用者簡單 高效地進行資料探勘和資料分析。numpy 1.11.3 mkl cp27 cp27m win amd64.whl sci...