透過資料探勘學python

2021-08-20 22:32:55 字數 1391 閱讀 5425

1.svm(support vector machine)是機器學習中為二分類而設計的一種演算法,旨在找到乙個最佳的分離超平面的分離器,使得資料集上的正負樣本間隔最大。簡單例子如下:

x = [[2,0],[1,1],[2,3]] #三個點

y = [0,0,1] #三個點對應的特徵值

clf = svm.svc(kernel='linear') #clf表示分類器

clf.fit(x,y)

print(clf) #輸出分類器

print(clf.support_vectors_) #輸出哪幾個點是在求得的平面上

print(clf.support_) #輸出在平面上的幾個點是在測試集合中的的幾個

print(clf.n_support_) #輸出1 和 0中的兩個特徵值各有幾個點

print(clf.predict([[2,0]])); #**[2,0]這個點的特徵值 但這個地方必須是乙個列表的形式

獲得結果如下

d:\python\pycharm\python大作業\venv\scripts\python.exe d:/python/pycharm/python大作業/test.py

svc(c=1.0, cache_size=200, class_weight=none, coef0=0.0,

decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',

max_iter=-1, probability=false, random_state=none, shrinking=true,

tol=0.001, verbose=false)

[[1. 1.]

[2. 3.]]

[1 2]

[1 1]

[0]

2.svc也能直接用來進行多分類,關鍵**如下

clf = svm.svc(decision_function_shape='ovo') # 表示分類器
部落格

3.通常拿到的資料中都會有資料不均衡的問題,這時候就需要我們對資料進行處理。

svc模型不是很好的演算法,感覺面對資料不均衡的問題時,處理之後的結果準確率不是很高,但我因為考研,只是為了應付作業,就沒有換算法。

我的處理方式是,修改權重,關鍵**如下:

clf.class_weight = 'balanced'
一下子正確率提高了很多哈哈省了很多麻煩

透過資料結構看C 的引用

通過c c 學習資料結構的同學一定會經常看到結構體指標,其中還夾雜著乙個特殊的符號 熟悉c語言的人會知道這是個取位址符,但在c 中它還有另乙個身份 引用。一 引用簡介 引用是c 引入的新語言特性,是c 常用的乙個重要內容之一,正確 靈活地使用引用,可以使程式簡潔 高效。引用就是某一變數 目標 的乙個...

python資料探勘需要學的內容

1 pandas庫的操作 panda是資料分析特別重要的乙個庫,我們要掌握以下三點 pandas 分組計算 pandas 索引與多重索引 索引比較難,但是卻是非常重要的 pandas 多表操作與資料透視表 2 numpy數值計算 numpy程式設計客棧資料計算主要應用是在資料探勘,對於以後的機器學習...

python資料探勘面試 位元組跳動資料探勘面試總結

1.資料探勘任務 使用者常住城市 2.資料倉儲任務 演出主藝人名標籤挖掘 3.mapreduce原理 4.mapreduce特別慢的原因 4.1 計算機效能 cpu 記憶體 磁碟健康 網路 4.2 i o操作優化 資料傾斜 map reduce數設定不合理 reduce等待過久 小檔案過多 大量的不...