sklearn學習筆記之簡單線性回歸

2021-08-28 04:27:16 字數 1662 閱讀 9130

線性回歸是資料探勘中的基礎演算法之一,從某種意義上來說,在學習函式的時候已經開始接觸線性回歸了,只不過那時候並沒有涉及到誤差項。線性回歸的思想其實就是解一組方程,得到回歸函式,不過在出現誤差項之後,方程的解法就存在了改變,一般使用最小二乘法進行計算。

sklearn對data mining的各類演算法已經有了較好的封裝,基本可以使用fitpredictscore來訓練、評價模型,並使用模型進行**,乙個簡單的例子如下:

>>> from sklearn import linear_model

>>> clf = linear_model.linearregression()

>>> x = [[0,0],[1,1],[2,2]]

>>> y = [0,1,2]

>>> clf.fit(x,y)

>>> print(clf.coef_)

[ 0.5 0.5]

>>> print(clf.intercept_)

1.11022302463e-16

linearregression已經實現了多元線性回歸模型,當然,也可以用來計算一元線性模型,通過使用list[list]傳遞資料就行。下面是linearregression的具體說明。

例項化sklearn一直秉承著簡潔為美得思想設計著估計器,例項化的方式很簡單,使用clf = linearregression()就可以完成,但是仍然推薦看一下幾個可能會用到的引數:

還有一些引數感覺不是太有用,就不再說明了,可以去官網文件中檢視。

回歸其實在上面的例子中已經使用了fit進行回歸計算了,使用的方法也是相當的簡單。

方程linearregression將方程分為兩個部分存放,coef_存放回歸係數,intercept_則存放截距,因此要檢視方程,就是檢視這兩個變數的取值。

其實,多項式就是多元回歸的乙個變種,只不過是原來需要傳入的是x向量,而多項式則只要乙個x值就行。通過將x擴充套件為指定階數的向量,就可以使用linearregression進行回歸了。sklearn已經提供了擴充套件的方法——sklearn.preprocessing.polynomialfeatures。利用這個類可以輕鬆的將x擴充套件為x向量,下面是它的使用方法:

>>> from sklearn.preprocessing import polynomialfeatures

>>> x_train = [[1],[2],[3],[4]]

>>> quadratic_featurizer = polynomialfeatures(degree=2)

>>> x_train_quadratic = quadratic_featurizer.fit_transform(x_train)

>>> print(x_train_quadratic)

[[ 1 1 1]

[ 1 2 4]

[ 1 3 9]

[ 1 4 16]]

經過以上處理,就可以使用linearregression進行回歸計算了。

sklearn學習筆記之開始

自2007年發布以來,scikit learn已經成為python重要的機器學習庫了。scikit learn簡稱sklearn,支援包括分類 回歸 降維和聚類四大機器學習演算法。還包含了特徵提取 資料處理和模型評估三大模組。sklearn是scipy的擴充套件,建立在numpy和matplotli...

sklearn學習筆記之preprocessing

官方文件位址 這個模組的主要內容是資料的預處理 binarizersklearn.preprocessing.binarizer threshold 0.0,copy true 作用 將資料進行二值化,若是特徵值 feature value 大於閾值 threshold 則將特徵值賦值為1否則為0 ...

sklearn學習筆記之嶺回歸

嶺回歸是一種專用於共線性資料分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分資訊 降低精度為代價獲得回歸係數更為符合實際 更可靠的回歸方法,對病態資料的擬合要強於最小二乘法。乙個簡單的例子 from sklearn.linear model impor...