python中pd的全稱 python機器學習簡介

2021-10-13 03:26:59 字數 3218 閱讀 8810

python

python開發

python語言

python機器學習簡介

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。從資料中提取知識,也被稱為**分析 或 統計學習。

它是人工智慧的核心,是使計算機具有智慧型的根本途徑。

下面就讓我們先了解一下機器學習吧。

一:學習機器學習原因和能夠解決的問題

1.原因

機器學習現在已經越來越流行,並且在實際生活運用以及高階的科學問題上做出了貢獻。

在早期的時候,許多系統和程式都是人為設定的決策規則,但是,人為制定的決策規則有缺點。乙個是任務稍微有變化,可能需要重寫系統;另一方面,還需要決策者對決策過程有很深刻的理解。

乙個例子就是人臉識別,人類和計算機對人臉的描述有所不同,因此有時候需要用機器進行非常複雜的操作,並且需要機器能夠自動學習和識別,這就需要讓計算機機器進行機器學習。因此學習機器學習是很有必要的。

2.機器學習能夠解決的問題

最成功的機器學習演算法是能夠將決策過程自動化的演算法,從已知的示例中推導並泛化得出。這種演算法叫做監督學習 。

在這種演算法中,使用者將成對的輸入和預期輸出提供給演算法,演算法根據輸入和預期輸出得到一種方法,就可以把該方法作用到其他資料集上,根據已知推測未知。這就好像有乙個老師監督著演算法。

還有一種演算法是無監督學習演算法。這種演算法只有輸入資料是已知的,沒有提供輸出資料,因此評估起來很困難。

將輸入資料表示成**形式是非常有用的,每乙個資料點代表行,該資料代表的屬性代表列。

在機器學習中,每個實體或每一行被稱為乙個樣本或資料點,而每一列(描述這些實體的某乙個屬性)則被稱為特徵。

必須要有有效的資訊集合,才能夠用某一機器學習演算法進行構建機器學習模型。

二:為什麼選擇python作為機器學習的語言

python既有通用程式語言的強大,也有特定領域指令碼語言的易用性。有很多功能庫,使用它的主要優勢是可以利用終端或其他類似jupyter notebook的工具直接與**進行互動。

三:機器學習常用庫簡介

1.scikit-learn

簡介:它是乙個開源的python庫,包含了目前最先進的機器學習演算法,也是最有名的python機器學習庫。

使用者指南:

安裝scikit-learn:直接裝集合了多個資料分析庫的python發行版anaconda,包含了所需的所有機器學習庫。

2.jupyter notebook

這是乙個可以在瀏覽器中執行**的互動環境,有很多方便的互動功能,可以用來整合**,文字和影象。

3.numpy

是基本的資料結構。功能包括多維陣列,高階數學函式,以及偽隨機數生成器等。所有的資料格式必須轉化為numpy多維陣列。簡稱為"numpy陣列"或"陣列"。

4.scipy

scipy是python中用於科學計算的函式集合。具有線性代數高階程式,數學函式優化,訊號處理,特殊函式和統計分布等功能。

5.matplotlib

matplotlib是python主要的科學繪相簿,功能為將資料分析並生成視覺化內容。一般用%matplotlib notebook和%matplotlib inline命令將影象顯示在瀏覽器中。

6.pandas

pandas是用於處理和分析資料的python庫。它基於一種叫做dataframe的資料結構。類似於資料庫中的二維表結構。

7.mglearn

實用函式庫,使用者快速美化繪圖,或者使用者獲取一些有趣的數字。

8.匯入機器學習常用庫

import sys

import pandas as pd

import matplotlib

import numpy as np

import scipy as sp

import ipython

import sklearn

四:機器學習流程

1.實際問題抽象成數學問題

將實際問題抽象成數學問題,目標的數學問題是乙個怎樣的問題,是乙個分類還是回歸,或聚類的問題,找到具體的問題型別,以及適合該問題可以用到哪些資料。

2.獲取資料

機器學習的第乙個步驟就是收集資料,收集到的資料的質量和數量將直接決定**模型是否能夠建好,將收集的資料去重複、標準化、錯誤修正,得到標準資料,並進行多維陣列化。儲存到文字檔案(csv,txt,json)或者資料庫中。

這裡要注意,獲取的資料報括獲取原始資料以及從原始資料中經過特徵工程從原始資料中提取訓練、測試的資料。資料決定機器學習結果的上限,而演算法只是盡可能的逼近這個上限。如果資料量太大可以考慮減少訓練樣本、降維或者使用分布式機器學習系統。

3.分析

主要是進行資料發現,找出每列的最大、最小值、平均值、方差、中位數、三分位數、四分位數、某些特定值(比如零值)所佔比例或者分布規律等。了解這些最好的辦法就是視覺化,直觀對資料進行分析。

4.特徵工程

特徵工程包括從原始資料中特徵構建、特徵提取、特徵選擇。特徵工程能夠使得演算法的效果和效能得到顯著的提公升,有時能使簡單的模型的效果比複雜的模型效果好。資料探勘的大部分時間就花在特徵工程上面,是機器學習非常基礎而又必備的步驟。資料預處理、資料清洗、篩選顯著特徵、摒棄非顯著特徵等等都非常重要。

5.向量化

向量化是對特徵提取結果的再加工,目的是增強特徵的表示能力,防止模型過於複雜和學習困難,把複雜的問題簡單化。

6.拆分資料集

將資料分為兩部分。一方面是用於訓練模型;另一方面是用於評估我們訓練有素的模型的表現,來測試我們的模型是否適合。

7.模型訓練

進行模型訓練之前,要確定合適的演算法,比如線性回歸、決策樹、隨機森林、邏輯回歸、梯度提公升、svm等等。最佳方法是測試各種不同的演算法,然後通過交叉驗證選擇最好的乙個。但如果訓練集很小,高偏差/低方差分類器(如樸素貝葉斯分類器)要優於低偏差/高方差分類器(如k近鄰分類器),更容易擬合,但是訓練集大的話,低偏差/高方差就比較適合了。

8.評估

訓練完成之後,通過拆分出來的訓練的資料來對模型進行評估,通過真實資料和**資料進行對比,來判定模型的好壞。常見的五個方法:混淆矩陣、提公升圖&洛倫茲圖、基尼係數、ks曲線、roc曲線。

完成評估後,如果想進一步改善訓練,我們可以通過調整模型的引數來實現,然後重複訓練和評估的過程。

9.檔案整理

模型訓練完之後,要整理出不同含義的檔案,確保模型能夠正確執行。

10.介面封裝,上線

通過封裝封裝服務介面,實現對模型的呼叫,以便返回**結果。然後將整個機器學習模型上線。

python中的pd進行資料處理

def excel one line to list df pd.read excel r poi grid.xlsx usecols 1 names none 讀取專案名稱列,不要列名 df li df.values.tolist print df li result for s li in df...

python金融分析 用於金融分析的Python包

recommended by activestate.1.numpy 實現各種陣列物件函式和傅利葉變換等等科學計算模組。3.matplotlib 乙個跨平台的數值繪圖包,可繪製高質量的2d,3d影象。4.mysql for python python操作mysql資料庫的介面軟體包。5.pyqt 乙...

不安裝Python的情況下用C 呼叫Python

想在不安裝python的情況下呼叫它,網上說的方法都不太詳細,就連官方給的chm檔案也沒提及怎麼配置,摸索了下,找到了簡單呼叫的辦法。記錄下。msvs 2010 c console程式 python 2.7 include資料夾 libs資料夾 lib資料夾 python27.dll檔案 新建控制台...