Coursera 線性回歸和邏輯回歸

在原式子裡加入乙個"error term"，之後得到這個「error tem」的正態分佈，從而到處輸出y和x、θ之間的概率關係。然後通過最大似然估計法，得到若要使得y的概率最大，等價於利用最小二乘法最小化θ。

引數θ的數量隨著訓練資料的增大而變多，但是當訓練資料量巨大的時候，每次**所需要的代價都很高。

原訓練資料需要保留，因為每當對乙個新的資料x進行**時，需要用到x周圍的測試資料，從而得出θ的值。對於和測試點靠近的訓練點資料，所得權值較高，而對於距離測試點很遠的測試資料，所得權值就很小，這就是為什麼叫做區域性線性回歸的原因。

對於線性回歸，，利用訓練資料求出θ之後，在對乙個新的資料進行**時，將不會再使用到原訓練資料

區域性加權線性回歸是一種非引數學習演算法，而線性回歸是一種引數學習演算法。

核心在於使用了sigmod函式，使得函式輸出的值分布在[0, 1]區間內。

在某些特定條件下，為了使得sigmod函式g(z)的輸出為兩個離散值：0和1.可以使用感知器學習演算法。

邏輯回歸推導到最後的公式形式和線性回歸中的最小二乘形式幾乎相同，但是它們屬於不同的演算法，因為h(θ)函式不同，導致了根本的差異。

在對引數θ進行極大似然估計時，可以採用newton』s method。這個演算法收斂的速度非常快（二次收斂），迭代次數也少，但是在每次迭代時，都需要計算一次hessian矩陣，計算量和n有關。因此當量級偏少少，牛頓迭代法也是乙個相當好的演算法。

引數的數值可以任取，但是一般取為零向量。

海森價值函式: \(j(\theta )=\frac\sum_^(\theta ^x^ - y^)^\)

\(h=x^x\)

無論θ的初始值為什麼，牛頓法迭代一次後即可得到：\(\theta^=(x^x)^x^\vec\), 即最小二乘法的解。

線性回歸和邏輯回歸中的伯努利分布和高斯分布都可以轉換為指數分布的形式。

在將伯努利分布轉換為指數分布的過程中，可以得到sigmod函式，這就是之前為什麼logisitic regression剛好是sigmod函式的原因。（當然，還有更深層次的原因）

區域性加權回歸中，引數設定非常重要，可能存在欠擬合和過擬合的情況。

引數θ的有多種更新方法——梯度下降法和牛頓法等，務必掌握其優缺點，合理選用。