山東大學Python(13) 機器學習介紹

2021-10-01 03:47:30 字數 2472 閱讀 8912

#%%

# 使用 jupyter notebook 編寫

"""本章知識目錄:

1.什麼是機器學習

2.機器學習的應用

3.機器學習的任務

4.機器學習的通用步驟

5.為什麼資料處理是重要的

6.資料預處理的主要任務

7.資料清理(data cleaning)

8.資料整合

"""#%%

"""什麼是機器學習:

1.是尋找一種對自然/人工主題、現象或活動可**且/或可執行的機器理解方法

2.什麼是機器學習

機器通過分析大量資料來進行學習,不需要程式設計而從而歸納和識別特定的目標。

重在發現資料之間內在的模式(相關性),並做出**。

3.機器學習與人工智慧的關係

機器學習是人工智慧領域的一部分,並且和知識發現與資料探勘有所交集。

深度學習是機器學習的乙個子集,現在興起的人工智慧主要是大規模的深度學習。

4.機器學習最基本的做法,是使用演算法來解析資料、從中學習,

然後對真實世界中的事件做出決策和**。

與傳統的為解決特定任務、硬編碼的軟體程式不同,

機器學習是用大量的資料來「訓練」,通過各種演算法從資料中學習如何完成任務。

5.機器學習直接**於早期的人工智慧領域,

傳統的演算法包括決策樹、聚類、貝葉斯分類、支援向量機、em、adaboost等等。

從學習方法上來分,機器學習演算法可以分為監督學習(如分類問題)、

無監督學習(如聚類問題)、半監督學習、整合學習、深度學習和強化學習。

6.傳統的機器學習演算法在指紋識別、人臉檢測、物體檢測等領域的應用

基本達到了商業化的要求或者特定場景的商業化水平,但每前進一步都異常艱難,

直到深度學習演算法的出現。

機器學習的應用:

機器學習已經有了十分廣泛的應用,

例如:資料探勘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、

醫學診斷、檢測信用卡欺詐、**市場分析、dna序列測序、語音和手寫識別、

戰略遊戲和機械人運用。

機器學習的任務:

1。令w是這個給定世界的有限或無限所有物件的集合,由於觀察能力的限制,

我們只能獲得這個世界的乙個有限的子集q⊂w,稱為樣本集。

2.機器學習就是根據這個有限樣本集q ,推算這個世界的模型,

使得其對這個世界為真。

機器學習的通用步驟:

1.資料採集及預處理:對獲取的資料進行清洗,整合,規約等操作

2.選擇資料:將資料分成三組:訓練資料、驗證資料和測試資料

(訓練效果,驗證效果,泛化效果)

(特徵:對分類或者回歸結果有影響的資料屬性,例如,表的字段)

4.訓練模型:使用你的特徵資料接入你的演算法模型,來確定演算法模型的型別,引數等。

5.測試模型:使用你的測試資料檢查被訓練並驗證的模型的表現

(模型的評價標準 準確率,精確率,召回率等)

6.使用模型:使用完全訓練好的模型在新資料上做**

為什麼資料處理是重要的:

沒有高質量的資料,就沒有高質量的資料分析和挖掘結果!

高質量的決策必然依賴高質量的資料

例如, 重複或遺漏的資料可能導致不正確或誤導的統計.

資料倉儲需要高質量資料的一致整合

資料預處理的主要任務:

1.資料清理:填充缺失值, 識別/去除離群點, 光滑噪音, 並糾正資料中的不一致

2.資料整合:多個資料庫, 資料立方體, 或檔案的整合

3.資料變換:規範化和聚集

4.資料歸約:得到資料的歸約表示, 它小得多,

但產生相同或類似的分析結果:維度規約、數值規約、資料壓縮

5.資料離散化和概念分層

資料清理(data cleaning):

1.現實世界de資料是髒:很多潛在的不正確的資料,比如,

儀器故障,人為或計算機錯誤,許多傳輸錯誤

incomplete:缺少屬性值, 缺少某些有趣的屬性, 或僅包含聚集資料

e.g., 職業=「 」 (missing data)

noisy:包含錯誤或孤立點

e.g., salary=「−10」 (an error)

inconsistent:編碼或名字存在差異,

e.g., age=「42」, birthday=「03/07/2010」

以前的等級 「1, 2, 3」, 現在等級 「a, b, c」

重覆記錄間的差異

有意的(e.g.,變相丟失的資料)

jan. 1 as everyone』s birthday?

資料整合:

1.資料整合 data integration:

合併多個資料來源中的資料,存入乙個一致的資料儲存中

涉及3個主要問題:模式整合、冗餘資料、衝突資料值

2.模式整合 schema integration

3.冗餘:某個屬性可以由別的屬性推出。

"""

山東大學Python(3) 容器

使用 jupyter notebook 編寫 本章知識目錄 本節非常簡單,看ppt即可,下面的 為一些測試 考試 非常重要 查詢 增加 刪除 引用 ppt所有的都要看 list list name.remove x 刪除首次出現的值為x的元素,x不存在則丟擲異常 del list name inde...

山東大學Python(1) Python基礎

使用 jupyter notebook 編寫 本章知識目錄 1.python的特性 2.python的用途 3.限制python發展的因素 4.python的缺點 考試 python的特性 限制python的發展因素 python的特性 1.互動式命令列 2.不只是指令碼 3.強大易用的標準庫 4....

山東大學 資料科學導論 期末

一.簡答 1.dirty data在哪些過程怎麼產生 2.解釋entity resolution 3.兩個向量,計算距離 歐式,曼哈頓,漢明,切比雪夫,余弦 二.好像也是簡答?1.mapreduce 1 設計map和reduce方法實現表自然連線 2 兩個表的例項,根據表寫mapreduce自然連線...