DCIC 資料分析學習 0 準備工作

2021-10-24 10:32:54 字數 2598 閱讀 3722

學習主題

學習目標

資料分析

資料分析介紹

資料分析軟體

資料分析與資料型別

資料分析與視覺化方法

資料分析流程

描述型資料分析

集中趨勢的描述性統計量

離散程度的描述性統計量

分布形態的描述性統計量

探索型資料分析

驗證型資料分析

演算法分析真實場景:a城市巡遊⻋與網約⻋運營特徵對比分析

賽題簡介:參賽方需依據平台提供的出租⻋(包括巡遊⻋和網約⻋)gps和訂單資料, 對出租⻋執行的時間、空間分布特徵進行量化計算 。並根據出租⻋的時空運營特徵,對巡遊⻋與網約⻋的融合發展提出相關建議。

賽題說明:計程車作為城市客運交通系統的重要組成部分,以高效、便捷、靈活等優點深受居民青睞。計程車每天的運營中會產生大量的上下車點位相關資訊,對這些資料進行科學合理的關聯和挖掘,對比在工作日以及休息日、節假日的計程車資料的空間分布及其動態變化,對計程車候車泊位、管理排程和居民通勤特徵的研究具有重要意義。

賽題任務:

參賽者需依據賽事方提供的計程車(包括巡遊車和網約車)gps和訂單資料

綜合應用統計分析方法分別對所提供的巡遊車和網約車運營的時間、空間分布特徵進行量化計算,包括計算2年的每年工作日取日平均,非工作日取日平均和節假日取日平均,三種型別各自平均的時變分布變化,三種時間型別按網格劃分的平均空間分布(網格劃分顆粒度選手自選),並分別對比分析所提供的網約車、巡遊車,計算2年每年按工作日取日平均,非工作日取日平均和節假日取日平均三種型別的日均空駛率、訂單平均運距、訂單平均執行時長、上下客點分布密度等時變特性;

根據巡遊車和網約車的時空運營特徵,並嘗試對巡遊車與網約車的融合發展提出相關建議。在分析過程,參賽者必須用到但不侷限於提供的資料,可自行加入自有資料進行參賽,但需說明自帶資料**並保證資料合法合規使用。

資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。資料分析是為了提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

資料也稱為觀測值,是實驗、測量、觀察、調查等的結果。在我們日常生活中所有的觀測值都是資料,可以拿來進行分析。需要注意的是,資料分析是有目的的、有步驟的和有結果的行為。

資料分析的具體步驟可分為資料處理與統計和資料視覺化,在現有的工具中都或多或少包含上述兩種功能。對於資料處理與統計,基本上所有可以完成基本計算的軟體都可以用來進行統計。

資料統計的關鍵指標包括:

在上述資料分析軟體中,rsasspssstata在數學領域使用的較多,sqlpyhton在計算機領域使用的較多。在網際網路企業sql和python是最為常見的資料處理和分析軟體。

由於本次賽題的資料字段眾多,有經緯度、日期和訂單等複雜型別,因此比較建議使用python軟體進行分析,實現起來比較快速。當然如果想使用r或者sql來做資料處理也是可以的,但可能會更加費事一些。

我們日常生活中充滿了各類資料,也有多種資料型別劃分方法:

不同型別的資料會有不同的資料儲存方法和統計方法,也需要不同型別的視覺化方法來完成。

資料視覺化方法有非常多種,具體可以根據資料型別、對比方法和展示方法進行細分:

明確分析目的和思路;

收集資料;

資料統計處理;

資料分析與視覺化;

報告撰寫;

描述性資料分析(descriptive data analysis,dda)屬於比較初級的資料分析,常見的分析方法包括對比分析法、平均分析法、交叉分析法等。描述性統計分析要對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分布、以及一些基本的統計圖形。

探索性資料分析(exploratory data analysis,eda)主要的工作是:對資料進行清洗,對資料進行描述(描述統計量,圖表),檢視資料的分布,比較資料之間的關係,培養對資料的直覺,對資料進行總結等。

探索性資料分析(eda)與傳統統計分析(classical analysis)的區別:

應用傳統統計分析方法的資料分析步驟:

應用探索性資料分析方法的資料分析步驟:

驗證型資料分析(confirmatory data analysis, cda)根據資料樣本所提供的證據,肯定還是否定有關總體的宣告。

假設驗證的基本流程:

提出零假設(我們希望推翻的結論),及備擇假設(我們希望證明的結論)

在零假設的前提下,推斷目前樣本統計量出現的概率 *統計量可符合不同分布,即對應不同的檢驗方法

設定乙個拒絕零假設的閾值(常見5%,及統計學意義「顯著」,significant),如果目前樣本統計量在零假設下出現的概率小於閾值,則拒絕零假設,承認備擇假設。

0 準備工作

為了防止因為錯誤操作導致電腦壞掉,我們將使用虛擬機器來進行實驗。安裝virtualbox和它的擴充套件virtualbox 6.1.16 oracle vm virtualbox extension pack安裝kali系統 常見問題解答 選擇nat網路 無顯示的問題 blank screen問題 ...

資料分析高階 DCIC競賽 task0準備工作

學習資源 學習手冊 賽事詳情 共有三個部分的競賽 1 端午假期a城市交通網路擁堵識別及緩堵策略研究 需要具有從經緯度對映到路段的能力 2 a城市巡遊車與網約車與運營特徵對比分析 主要是對計程車和網約車的分布之類的對比,相對於第乙個賽題難度稍小 3 創意題 城市巡遊車與網約車運營特徵對比分析 賽題說明...

學習光線追蹤 0 準備工作

其實想晚一點寫一篇相關部落格,與大家分享一下最近學習的光線追蹤,但是vs2019不太給力,出了bug,這導致我之前寫的 丟了一部分,本打算是整理好一遍發的,這回正好,邊整理邊發吧。首先說明,我不是專門研究光線追蹤的,只是覺得這個挺有意思,或者說效果挺讓人震撼的,這不禁讓我對其有了興趣,然後就閱讀了一...