第四次作業

2021-10-17 05:28:13 字數 1530 閱讀 3241

由於原始**有多個類別,所以也需要處理:

將**的類別進行編碼,由於**的類別有多個,所以用多編碼

from sklearn.preprocessing import multilabelbinarizer

mlb = multilabelbinarizer()

data_label = mlb.fit_transform(data[『categories』].iloc[:])

tf-idf 提取特徵

方法一:tfidfvectorizer

from sklearn.feature_extraction.text import tfidfvectorizer

vectorizer = tfidfvectorizer(max_features=4000)

data_tfidf = vectorizer.fit_transform(data[『text』].iloc[:])

方法二:countvectorizer + tfidftransformer

from sklearn.feature_extraction.text import countvectorizer

from sklearn.feature_extraction.text import tfidftransformer

統計每個詞語的tf值

vectorizer = countvectorizer(max_features=4000)

#該類會統計每個詞語的tf-idf權值

tf_idf_transformer = tfidftransformer()

#將文字轉為詞頻矩陣並計算tf-idf

data_tfidf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(data[『text』].iloc[:])

劃分訓練集和測試集

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(data_tfidf, data_label,

test_size = 0.2,random_state = 1)

構建多標籤分類模型

from sklearn.multioutput import multioutputclassifier

from sklearn.*****_bayes import multinomialnb

clf = multioutputclassifier(multinomialnb()).fit(x_train, y_train)

評估from sklearn.metrics import classification_report

print(classification_report(y_test, clf.predict(x_test)))

輸出結果:

第四次作業

扎ogu 典型產品 最高傳輸速率 ieee 802.11a wi fi5 802.11a 43m 450 zyxel p334u 54mbps 1500 zyxel p335u 54mbps 1600 ieee 802.11b d link di 624 a 54mbps 215 linksys w...

第四次作業

作業題一 vs2012 rc在介面上,比beta版更容易使用,彩色的圖示和按照開發 執行 除錯等環境區分的顏色方案讓人愛不釋手。vs2012整合了asp.net mvc 4,全面支援移動和html5,wf 4.5相比wf 4,更加成熟,期待已久的狀態極工作流回來了,更棒的是,現在它的設計器已經支援c...

第四次作業

專案一求1000以內所有偶數的和 includevoid main cout sum includevoid main while i 1000 cout sum includeint main while i 1001 cout 專案3 乘法口訣表 程式設計序,輸出乙個乘法口訣表,形如 1x1 1...