4 ML的可行性(1)

2022-05-12 05:48:10 字數 1493 閱讀 4731

我這個筆記是結合了lecture4/5/6三節課的,開始討論機器學習的可行性:why can learn? 主要是對三節課背後的思想的核心進行總結,並加入一點自己的思考。

如果 \(e_\) 和 \(e_\) 毫無關聯,那麼基於 \(e_\) 找到的hypothesis h根本就無法適用於 \(e_\) ,換言之,雖然你找到的hypothesis h在你已知的 \(d_\) 上有良好的學習效果,但是它在未知的 \(d_\) 上的**結果根本就不可行,不可信。【本質原因是 \(d_\) 上的規律和 $ d_ $ 上的規律,可以完全沒有相關性】

如果 $ d_ $ 和 $ d_ $ 是【獨立同分布】的,即他們都是從同乙個資料來源經過不同的取樣過程得到的,那麼它們的潛在規律是相同的,那麼就有可能根據 $ d_ $ 上面找到的hypothesis h來處理 $ d_ $ 。

但是 $ d_ $ 上面的規律在什麼條件下才是適用於 $ d_ $ 呢?引入 $ e_ $ 和 $ e_ $ 表示某個hypothesis h在 $ d_ $ 和 $ d_ $上面的誤差,如下:

\[e_(h) = \frac \sum_^ \lvert h(x_n) \neq f(x_n) \rvert \\\

e_(h) = \epsilon_ \lvert h(x) \neq f(x) \rvert

\]問題轉化成:我們想找乙個hypothesis h,能讓 $ e_ = e_ $

hoffield-inequailty

\(p[\| e_ - e_ \| > \epsilon] \leq 2 exp \lgroup -2 \epsilon ^2 n \rgroup\)

至此,我們的【假設及目標】已經清晰:

bad data的問題:

根據hffield-inequality,我們推測bad-data的發生的union-bound

\[\begin

\ & \mathbb_}[bad\ \mathcal] \\\

\ & = \mathbb_}[bad\ \mathcal\ for\ h_1\ or\ bad\ \mathcal\ for\ h_2\ or\ ...\ or\ bad\ \mathcal\ for\ h_m]\\\

\ & \leq \mathbb_}[bad\ \mathcal\ for\ h_1] + \mathbb_}[bad\ \mathcal\ for\ h_2]+...+\mathbb_}[bad\ \mathcal\ for\ h_m] \\\

\ & \leq 2exp(-2\epsilon ^2n) + \leq 2exp(-2\epsilon ^2n) + ... + \leq 2exp(-2\epsilon ^2n) \\\

\ & = 2mexp(-2\epsilon ^2n)

\end

\]這是下節要解決的問題。

專案可行性的研究內容

可行性研究是一種系統的投資決策科學分析方法。專案可行性研究是指 在專案投資決策前,通過對專案有關的工程技術 經濟 社會等方面的條件和情況進行調查 研究和分析,對各種可能的技術方案進行比較論證,並對投資專案建成後的經濟效益和社會效益進行 和分析,以考察專案技術上的先進性和通用性 經濟上的合理性和盈利性...

mongodb分庫的可行性操作

1 建立乙個新的mongodb庫 2 把當前的mongodb集合改為比如 log data為log data 201904062230 3 把log data 201904062230備份到新庫中 4 在獲取資料的地方再連線新庫的log data 201904062230集合展示資料 示例如下 wh...

可行性研究報告 之機房收費系統的可行性研究報告

在做乙個專案之前,要對這個專案進行可行性研究,所謂可行性研究主要是指這個專案是否可行,是否值得繼續開發。開發後會帶來哪些好處等等。下面就說一下,可行性研究報告的書寫形式。以機房收費系統為例 機房收費系統 隨著國力越來越強,上網的需求越來越多,而同學們平時上網還要出學校去,很耽誤時間,所以,在機房上網...