python資料分析與挖掘實戰學習筆記（一）

numpy,scipy,matplotlib,pandas,statsmodels,scikit-learn,keras,gensim 具體用處不一一展示，下面記錄各個工具庫的安裝配置。

如果你安裝的python是anaconda發行版，那麼它已經自帶了以下庫numpy,scipy,matplotlib,pandas,scikit-learn，使用時直接匯入即可。

在windows中，numpy的安裝和普通的第三方庫一樣，可以通過pip安裝

pip install numpy

在linux下這種方法也是可行的，如在ubuntu下可以使用』』』sudo apt-get install python-numpy』』』安裝

由於scipy依賴於numpy，因此安裝它之前得先安裝numpy。安裝scipy的方式與numpy的方法一樣。

不論是資料探勘還是數學建模，都免不了資料視覺化的問題，其安裝方式與前兩個一樣。

pip install matplotlib

在linux下也可用類似的sudo apt-get install python-matplotlib安裝

pandas是資料探勘使用的主力工具。pandas的安裝和上面幾個一樣。由於我們頻繁使用到讀取和寫入excel，但是預設的pandas還不能讀寫excel檔案，需要安裝xlrd(讀）和xlwt(寫）庫才能實現excel的讀寫。方法如下

pip install xlrd

pip install xlwt

scikit-learn是python下強大的機器學習包，提供了資料預處理，分類回歸，聚類，**和模型分析等工具，其安裝與上面幾個庫的安裝並無異同

pip install scikit-learn //windows下 sudo apt-get

install python-scikit-learn //ubuntu下

keras是神經網路的工具庫。安裝keras之前首先需要安裝numpy，scipy和theano。安裝theano先要準備乙個c++編譯器，這在linux下是自帶的。所以在linux下安裝theano和keras是非常簡單的，而且在windows下keras的執行速度會大打折扣。

本人在安裝keras時遇到了很多問題，原因是自己的linux學的不咋地，一些基本命令不太會用，下面列出了幾個鏈結，可以參考安裝。