機器學習入門 第一天 資料的處理

2021-09-11 18:28:56 字數 845 閱讀 1865

第一步:導入庫

注意:要pip安裝pandas庫

第二步:匯入資料集(及資料的列印)

注意:所操作的.csv檔案要與所執行的py程式在同一級目錄下!

第三步處理丟失的資料:

注意:所有缺失值的補充是存在變數x中的

missing_values:缺失值,可以為整數或nan(缺失值numpy.nan用字串『nan』表示),預設為nan

strategy:替換策略,字串,預設用均值『mean』替換

①若為mean時,用特徵列的均值替換

②若為median時,用特徵列的中位數替換

③若為most_frequent時,用特徵列的眾數替換

axis:指定軸數,預設axis=0代表列,axis=1代表行

copy:設定為true代表不在原資料集上修改,設定為false時,就地修改,存在如下情況時,即使設定為false時,也不會就地修改

①x不是浮點值陣列

②x是稀疏且missing_values=0

③axis=0且x為crs矩陣

④axis=1且x為csc矩陣

statistics_屬性:axis設定為0時,每個特徵的填充值陣列,axis=1時,報沒有該屬性錯誤

列印x的效果:

機器學習100天 第一天(資料預處理)

step 1 導入庫 numpy 包含數學計算函式 pandas 用於匯入和管理資料集 step 2 匯入資料集 資料集通常都是 csv格式。csv檔案以文字形式儲存 資料。檔案的每一行是一條資料記錄。用 pandas 的 read csv 讀取本地csv檔案為乙個資料幀。然後從資料幀中製作自變數和...

activiti入門 第一天

從年前看activiti相關大約乙個多月了,在網上搜尋了無數的文章,感謝這個樓主的分享,從他的幾篇文章總算是入門了,自己嘗試寫了比較複雜的流程,總算實現了所有功能和業務,樓主鏈結再次感謝大牛的快速入門。activiti工作流的流程圖是bpmn的格式,新建之後直接畫圖即可。這次就介紹乙個比較簡單的流程...

C 入門第一天

今天開始學習c cout cin getline cin,inputline getline cin,inputline 其中 cin 是正在讀取的輸入流 而 inputline 是接收輸入字串的 string 變數的名稱int mian 下面 有問題嗎?int main 和上面的原理一樣 cin的...