暑期學習第二期 實戰 day1

2021-08-26 14:44:56 字數 1251 閱讀 9623

1.資料集過於龐大

第一期,資料分析小組同學們多用excel處理資料。excel最多只能處理十萬餘條資料,但是這次資料集裡包含兩千萬條資料,遠遠超過了excel的能力範圍。因此我們進行討論,發現分拆資料集,用python讀取檔案,用sql處理資料,都是可行的。

2.特徵工程

知乎上大佬的文章:特徵工程到底是什麼? - 城東的回答 - 知乎

特徵工程的作用便是最大限度的提取原始資料的特徵以供演算法和模型使用。

首先確認資料的可用性,對資料進行預處理,此時需要考慮很多情況,如資料的缺失,資訊冗餘。

第二便是資料特徵的提取,這時不僅需要利用科學方法來計算,還要適當結合常識進行觀察。

這次學習需要給出完整的理論依據

我對資料進行的預處理如下:

使用工具:python (import pandas)

1.首先,地理位置缺失過多,且據觀察,地理位置的表達沒有明顯含義,所以這一條我們決定當作冗雜資訊。

解決方案:pandas.drop

2.經過組內討論,我們**目標是十九號當天的購買情況。經過討論,小組成員決定放棄具體時間,將具體時間作為冗雜資訊。而且年份是相同的,因此不會導致任何差異,所以年份也被我們當作了冗雜資訊

解決方案:slice切片

3.將商品和使用者聯絡起來。在本次實戰中,只討論商品或者使用者的行為有失偏頗,需要將使用者和商品**起來觀察,這樣可以觀測到乙個使用者對某一樣商品的行為

解決方案:python字串連線

還未解決的問題:

4.找出每乙個使用者對某乙個商品的所有操作,目的是為了觀察先前的行為對購買到底有沒有影響。在這一步我試圖使用簡單的list計數。

首先我將所有的資料**成使用者_ 商品 _ 行為,然後將其轉化為乙個list,接下來將list裡的資料轉化為set。然後迴圈set中的值,利用list的函式count來計數。

難點:因為資料太多,進行的很慢。

改進:依據行為分類,分出1,2,3,4,然後根據使用者_商品進行計數。

未完成原因:依舊執行中。

待完成處理:

5.找出熱銷商品

解決方案:在4中得到的**可以得到每一種行為的次數,再通過pandas相關函式進行計算。

6.雙十二資料干擾:雙十二當天購買量十分龐大,對資料造成了一定的影響,現還需對雙十二的資料進行詳細分析排查。

7.以時間為特徵,觀察近幾天的操作與商品購買是否有一定聯絡

學習報告第二期

學習報告2020 7 30 學習報告 第二期 時間週期 7月1日 7月30日 姓名 專業 徐斌 電子資訊專碩 一.內容 1 基本掌握gpio的埠位配置和輸出模式位 2 通過跑馬燈庫函式實驗初步掌握1.使能io口時鐘 不同的io,呼叫的時鐘使能函式不一樣 2.初始化io口模式。呼叫gpio init函...

第二期題目

1.請寫乙個擴充套件string的類mystring,加入乙個println 方法,你覺得用繼承string類的方法呢,然後加乙個println 方法簡單?還是在mystring內部建立乙個string物件進行擴充套件?2.類a的預設建構函式中,有這麼一句,system.out.println a ...

第二期訓練題1

問題分析 該題只需按照題目要求輸入資料,並將每組資料的第乙個作為最小值,再將這個最小值逐一與輸入的資料比較大小,如果輸入的資料小於最小值,則將輸入的資料代替最小值,最後得到這組資料的最小值。ac通過的 如下 includeusing namespace std int main if m 0 cou...