資料科學專案的完整流程,主要分為哪幾大步驟?

2021-09-27 13:32:42 字數 1462 閱讀 2332

資料科學專案的完整流程通常是這樣的五步驟:需求定義=》資料獲取=》資料治理=》資料分析=》資料視覺化

一、需求定義

需求定義是資料科學專案和資料科學比賽的較大不同之處,在真實情景下,我們往往對目標函式、自變數、約束條件都並不清晰。需要通過訪談、**、文件等等形式對問題進行系統地分析,將實際問題量化為可以解決的抽象問題,確定自變數、約束條件以及目標函式。在真實情景下,需求往往是多變化的,臨時的,如何把握好需求成為了整個專案後續推進的關鍵要素。

二、資料獲取

資料獲取的形式主要包括:

現有資料庫的呼叫

現有api的呼叫

自行設計的爬蟲

在資料獲取中,比較重頭的 項就是爬蟲的開發,這裡 r 雖然開發了 rvest 包, 不過比起 django-scrapy 這樣完整的爬蟲排程系統不禁黯然失色,所以在第 步,我建議使用python做爬蟲的開發。

三、資料治理

資料治理第 步就是資料的定義,而資料的定義通過 python的各種orm框架和admin系統,可以非常出色地完成資料倉儲的定義和管理。通過 airflow 我們又可以很好的對etl過程做全流程的監控。所以,在步,我依然建議使用python作為資料治理的工具。

四、資料分析

五、資料視覺化

資料視覺化本來是js的天下,但是感謝 r語言生態中熱衷於給js做封裝的們,現在市面上絕大部分在bi領域會涉及到的js庫都已經被 r 語言封裝好了,比如 echarts、highcharts、rcharts、d3等等。另 方面,通過 shiny, 我們快速好大地簡化了bi構建的流程,跳過底層jquery、boostrap、websocket等等細節,直接針對業務場景構建bi系統,幫助我們在快速構建bi原型上掃清障礙,而不是在tornado裡面辛苦地改template。顯然,使用 r 做資料視覺化可以大大減少我們的開發時間。所以,第四部,我也建議使用 r 完成資料視覺化的工作。

總結這樣正常資料科學專案做下來,我們需要交付 個爬蟲管理系統(django-scrapy)、 個資料倉儲管理系統(django)、 個流程監控系統(airflow)、 個bi分析系統(shiny),真正完成對整個資料科學專案的可監控、可維護,然後在這個過程中我們不斷去迭代我們的資料產品,優化流程,完善模型,較終實現反哺業務。

總結起來,將python作為資料科學的基礎,而r作為上層建築是 個不錯的解決方案,當然這 切都建立在資料開發人員具有過硬的開發技能,否則python和r的隨意性會釀成巨大的**。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注於人工智慧和大資料的入門和科譜,在此為你推薦幾篇優質好文:

大資料產業有哪幾大分類,主要有什麼特點

大資料應用,主要包括哪幾種商業模式

大資料學習難不?怎樣才能入門大資料技術呢?

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

話單資料完整流程

原始資料 解析 解析後的資料 入庫 彙總的資料 1.原始資料 上游中興的原始資料,在遠端桌面winscp軟體中檢視。丟失了下游也沒法補充採集。得等上游補充採集後下游才能解析。當原始資料存在,而話單資料顯示紅點,則要補採。2.解析後的資料 當 資料完整性檢查 中的紅點變為綠點,則表示解析過。解析後的資...

完整機器學習專案的流程

1 抽象成數學問題 明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情,胡亂嘗試時間成本是非常高的。這裡的抽象成數學問題,指的明確我們可以獲得什麼樣的資料,抽象出的問題,是乙個分類還是回歸或者是聚類的問題。2 獲取資料 資料決定了機器學習結果的上限,而演算法只是盡可能逼近這...

node模擬介面調取資料庫實現完整流程

前提 在 本篇文章之前你需要有基本的 node 知識 開始展示 展示 呼叫 this store.dispatch login this 到介面 const actions await axios.post ele login vm.adminform post請求 if data.ok 1 els...