資料科學機器學習的工作流程

摘要：理解資料科學的工作流程，有助於我們合理有序地把控相關專案的開展。常見的整個過程包括：獲取，檢查和探索，清理和準備，建模，評估和最後的部署。

機器學習應用中的資料，可以來自不同的資料來源，它可能是通過電子郵件傳送csv檔案，也可能是從伺服器中拉取的日誌，或者它可能需要構建自己的web爬蟲。資料可能存在不同的格式，在大多數情況下，它是基於文字的資料……

訪問資料常見的方式之一是通過rest風格的api介面，需要知道的庫是 python request 庫（它被稱為給人類使用的http，為api的互動提供了乙個整潔和簡單的方式。

讓我們來看乙個使用requests進行互動的例子，它從github的api中拉取資料：

import requests
r = requests.get(r'')
print (r.json())

一旦獲得了資料，下一步就是檢查和探索它們。乙個良好的實踐是在資料上執行一些簡單的統計測試，並將資料視覺化。

pandas是乙個卓越的資料分析工具。根據pandas的文件（使用示例如下：

path = r'd:/iris/'
# 獲得經典的機器學習資料集，csv檔案
r = requests.get('') 
with open(path + 'iris.data', 'w') as f:
f.write(r.text)
# change the current working directory to the specified path.
os.chdir(path)
# 給資料集賦與列名
df = pd.read_csv(path + 'iris.data', names = ['sepal length', 'sepal width', 'petal length', 'petal width', 'class'])
# 列印靠前行的資料框
print(df.head()) 
# 按條件過濾
print(df[(df['class']=='iris-virginica') & (df['petal width'] >2.2) ]) 
# 得到更為詳細的資訊，包括 平均值、標準差……
print(df.describe())

matplotlib是目前python專案用得最多的繪相簿，可用其創造圖表，對資料進行視覺化。seaborn是專門為統計視覺化而建立的庫（可以和pandas資料框完美地協作，找幾個示例程式學習一下，很容易上手。

map方法適用於序列資料，所以在我們的例子中將用它來轉變資料框的某個列。假設我們覺得「類別」欄位的名字太長了，並且希望使用特殊的3個字母**系統對其進行編碼。實現**如下：

df['class'] = df['class'].map()
print(df)

對於統計建模和機器學習，python有許多很優秀的、文件詳實的庫供選擇。scikit-learn是乙個令人驚喜的python庫，作者們為其設計了無與倫比的文件，為幾十個演算法提供了統一的api介面。覆蓋的一些領域包括：分類、回歸、聚類、降維、模型選擇和預處理。讓我們看看乙個例子——使用iris資料建立乙個分類器，然後學習如何利用scikit-learn的工具來評估得到的模型：

clf = randomforestclassifier(max_depth=5, n_estimators=10)
# 獲取前4列資料
x = df.ix[:,:4]
# 獲取「class」列的資料
y = df.ix[:,4]
# 將資料分成訓練組和測試組
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=.3)
# 訓練
clf.fit(x_train, y_train)
# 執行、得到**結果
y_pred = clf.predict(x_test)
# 輸出**值和實際值的對比
rf = pd.dataframe(list(zip(y_pred, y_test)), columns=['predicted', 'actual'])
print(rf)
print(rf['correct'].sum()/rf['correct'].count())

資料科學機器學習的工作流程

資料科學機器學習工作流程

機器學習的工作流程

GPU 加速資料科學工作流程

資料科學 機器學習的工作流程

資料科學 機器學習工作流程

機器學習的工作流程

GPU 加速資料科學工作流程

相關推薦

資料科學機器學習的工作流程

資料科學機器學習工作流程