python資料分析與挖掘實戰學習筆記(一)

2021-10-02 03:19:22 字數 1228 閱讀 7070

numpy,scipy,matplotlib,pandas,statsmodels,scikit-learn,keras,gensim 具體用處不一一展示,下面記錄各個工具庫的安裝配置。

如果你安裝的python是anaconda發行版,那麼它已經自帶了以下庫numpy,scipy,matplotlib,pandas,scikit-learn,使用時直接匯入即可。

在windows中,numpy的安裝和普通的第三方庫一樣,可以通過pip安裝

pip install numpy
在linux下這種方法也是可行的,如在ubuntu下可以使用』』』sudo apt-get install python-numpy』』』 安裝

由於scipy依賴於numpy,因此安裝它之前得先安裝numpy。安裝scipy的方式與numpy的方法一樣。

不論是資料探勘還是數學建模,都免不了資料視覺化的問題,其安裝方式與前兩個一樣。

pip install matplotlib
在linux下也可用類似的sudo apt-get install python-matplotlib安裝

pandas是資料探勘使用的主力工具。pandas的安裝和上面幾個一樣。由於我們頻繁使用到讀取和寫入excel,但是預設的pandas還不能讀寫excel檔案,需要安裝xlrd(讀)和xlwt(寫)庫才能實現excel的讀寫。方法如下

pip install xlrd

pip install xlwt

scikit-learn是python下強大的機器學習包,提供了資料預處理,分類回歸,聚類,**和模型分析等工具,其安裝與上面幾個庫的安裝並無異同

pip install scikit-learn //windows下

sudo

apt-get

install python-scikit-learn //ubuntu下

keras是神經網路的工具庫。安裝keras之前首先需要安裝numpy,scipy和theano。安裝theano先要準備乙個c++編譯器,這在linux下是自帶的。所以在linux下安裝theano和keras是非常簡單的,而且在windows下keras的執行速度會大打折扣。

本人在安裝keras時遇到了很多問題,原因是自己的linux學的不咋地,一些基本命令不太會用,下面列出了幾個鏈結,可以參考安裝。

Python資料分析與挖掘實戰 挖掘建模

常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...

python資料分析與挖掘實戰 資料探勘基礎

從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...

Python資料分析與挖掘實戰學習07

一 python基礎 1.python簡介 python是一種物件導向的解釋型語言,由荷蘭人guido van rossum與1989年發明,第乙個公開發行版本於1991年發布。python語法簡潔清晰,強制用空白符作為語句縮排。python語言最大的特點是簡單和強大。2.python庫 1 bas...