透過資料探勘學python

1.svm（support vector machine）是機器學習中為二分類而設計的一種演算法，旨在找到乙個最佳的分離超平面的分離器，使得資料集上的正負樣本間隔最大。簡單例子如下：

x = [[2,0],[1,1],[2,3]] #三個點

y = [0,0,1] #三個點對應的特徵值

clf = svm.svc(kernel='linear') #clf表示分類器

clf.fit(x,y)

print(clf) #輸出分類器

print(clf.support_vectors_) #輸出哪幾個點是在求得的平面上

print(clf.support_) #輸出在平面上的幾個點是在測試集合中的的幾個

print(clf.n_support_) #輸出1 和 0中的兩個特徵值各有幾個點

print(clf.predict([[2,0]])); #**[2,0]這個點的特徵值但這個地方必須是乙個列表的形式

獲得結果如下

d:\python\pycharm\python大作業\venv\scripts\python.exe d:/python/pycharm/python大作業/test.py
svc(c=1.0, cache_size=200, class_weight=none, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
max_iter=-1, probability=false, random_state=none, shrinking=true,
tol=0.001, verbose=false)
[[1. 1.]
[2. 3.]]
[1 2]
[1 1]
[0]

2.svc也能直接用來進行多分類，關鍵**如下

clf = svm.svc(decision_function_shape='ovo') # 表示分類器

部落格

3.通常拿到的資料中都會有資料不均衡的問題，這時候就需要我們對資料進行處理。

svc模型不是很好的演算法，感覺面對資料不均衡的問題時，處理之後的結果準確率不是很高，但我因為考研，只是為了應付作業，就沒有換算法。

我的處理方式是，修改權重，關鍵**如下：

clf.class_weight = 'balanced'

一下子正確率提高了很多哈哈省了很多麻煩

透過資料結構看C 的引用

通過c c 學習資料結構的同學一定會經常看到結構體指標，其中還夾雜著乙個特殊的符號熟悉c語言的人會知道這是個取位址符，但在c 中它還有另乙個身份引用。一引用簡介引用是c 引入的新語言特性，是c 常用的乙個重要內容之一，正確靈活地使用引用，可以使程式簡潔高效。引用就是某一變數目標的乙個...

python資料探勘需要學的內容

1 pandas庫的操作 panda是資料分析特別重要的乙個庫，我們要掌握以下三點 pandas 分組計算 pandas 索引與多重索引索引比較難，但是卻是非常重要的 pandas 多表操作與資料透視表 2 numpy數值計算 numpy程式設計客棧資料計算主要應用是在資料探勘，對於以後的機器學習...

python資料探勘面試位元組跳動資料探勘面試總結

1.資料探勘任務使用者常住城市 2.資料倉儲任務演出主藝人名標籤挖掘 3.mapreduce原理 4.mapreduce特別慢的原因 4.1 計算機效能 cpu 記憶體磁碟健康網路 4.2 i o操作優化資料傾斜 map reduce數設定不合理 reduce等待過久小檔案過多大量的不...

透過資料探勘學python

透過資料結構看C 的引用

python資料探勘需要學的內容

python資料探勘面試 位元組跳動資料探勘面試總結

相關推薦

python資料探勘面試位元組跳動資料探勘面試總結