資料探勘 機器學習 之 開新坑

2021-07-11 02:55:41 字數 1327 閱讀 6510

之前的部落格一直是關於leetcode的內容,接下來除了這個外我還會寫關於資料探勘/機器學習的一些東西,開乙個新的坑。這個乙個方向將會是我的重心,近期的計畫包括:

面試經驗

書籍閱讀筆記

自己的一些感想和經驗

在這裡我先介紹下我的心路歷程:

我本科和研究生的方向和資料探勘/機器學習其實不太沾邊,甚至和計算機都太沾邊。自己之所以私下裡搞這個方向主要是自己真的很喜歡,本科時喜歡玩每天過的比較瀟灑,一直不知道自己喜歡什麼,直到研一時選了《web搜尋》這個課程,了解了機器學習、模式識別的一些東西,後來又聽說了資料探勘這個方向,這個時候才發現自己對這個如此痴迷。我們生活在資訊**時代,移動網際網路有如此的廣泛普及,在資訊的海洋裡提煉出有價值的資訊,分辨出訊號和雜訊,需要使用資料探勘這個強大的工具。

我是如何進行自學的:

要先明確這是幹嘛的?可以用在什麼領域?我們平時接觸的一些東西中,哪些和這個相關或者用到了這些方面的技術?

學習台灣大學的《機器學習基石》:通過這個課程我了解了機器學習中基本概念,系統組成。一些基本的方法:感知機、邏輯回歸、線性回歸等,一些重要的概念:vc維,過擬合和欠擬合,正則化,交叉驗證,奧卡姆剃刀、抽樣偏差等。這個課程非常的好,非常適合沒有接觸過的人,林老師把原理過程以及引申講的非常清楚,這裡非常感謝他!

學習史丹福大學的《機器學習課程》,這個是吳恩達教授比較老的一版。和上面的比差別就在於,全面和深奧,這個課程將的模型和方法特別的多,而且只聽課程明顯不夠需要輔助教材和**,正如吳教授最後說的,如果你掌握了這個課程所有東西,那麼你就成為了機器學習領域的專家了,當然我距離這個還很遠。

《機器學習實戰》,這本書提供了機器學習演算法的簡單實現,配合著一些基本的課程和書,可以對如何實現各種模型,已經如何使用有一些初步的認識,這本書錯誤比較多

《集體智慧型程式設計》,這本書相比於上一本更貼近實際應用,**,深度和廣度都要比上一本好一點,最好是看這個

《統計學習方法》,我學習理論和準備面試的主要書籍,我重點看了前面的部分,這本書講的比較基礎易懂,在中文的書籍裡面是相當好的,初學者要看看

《資料探勘導論》,我是當做科普讀物來讀的,因為他介紹的東西比較全面,讀完後會對資料探勘有個初步的認識,會感覺到和機器學習不一樣的地方

《統計學習基礎》,目前正在看,因為是全英文的有點困難,暫時還沒啥想法

scikit-learn,python中的乙個很好的庫,常見的模型都有,最好是學習下如何使用,直接拿來用的結果還挺好的,想深入的話可以讀讀原始碼,了解下架構和實現。

kaggle,很不錯的練手**,上面的一些入門的例子,很適合初學者,也是通過這個**我才認識到資料處理的重要性,有時候模型上做不了太多工作時,資料的處理很影響結果。

prml,未來的目標,希望自己在看完統計學習基礎後能研究下這本書。

資料探勘 機器學習 大資料比賽羅列

最近自己想參加一些如題型別的比賽,卻發現找不到。自己知道的比賽平台要麼已經截止報名,要麼就是快結束了,內心真是一萬匹馬在奔騰。好不容易選了個阿里 的比賽,花了兩天時間初步實現了一種方法,提交結果還不錯,至少能進二期,卻發現由於自己沒看比賽規則,需要那啥實名驗證,而被直接淘汰。想想就心酸。看來有必要整...

資料探勘 機器學習 深度學習常用資料集

大的資料收錄 即被交付給的原始資料集 0.2.1 離散和連續型普通資料集 0.2.2 影象資料集 影象分類 目標檢測 目標跟蹤 語義分割 影象融合 超解析度 flyingchairs 22872張影象對,2d對應的3d影象,標註ground truth為光流。celeba202599張各個尺寸的,此...

資料探勘,機器學習,人工智慧區別

有篇很好的解釋 下面是以前自己總結的。資料探勘一般是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。機器學習專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧型的根本途徑,其應用遍及人工智慧的各個...