python 大資料處理小結

1.shop_min=shop.drop(['category_id','longitude','latitude','price'],axis=1)

pandas中刪除多個列

2.mall=shop_min.drop_duplicates(subset='mall_id')

pandas中將某一列去重

3.python寫檔案有空行

# python 2

with open('/pythonwork/thefile_subset11.csv', 'wb') as outfile:

writer = csv.writer(outfile)

# python 3

with open('/pythonwork/thefile_subset11.csv', 'w', newline='') as outfile:

writer = csv.writer(outfile)

4.python file 開啟檔案方式

r 以唯讀方式開啟檔案。檔案的指標將會放在檔案的開頭。這是預設模式。

rb 以二進位制格式開啟乙個檔案用於唯讀。檔案指標將會放在檔案的開頭。這是預設模式。

r+ 開啟乙個檔案用於讀寫。檔案指標將會放在檔案的開頭。

rb+ 以二進位制格式開啟乙個檔案用於讀寫。檔案指標將會放在檔案的開頭。

w 開啟乙個檔案只用於寫入。如果該檔案已存在則將其覆蓋。如果該檔案不存在，建立新檔案。

wb 以二進位制格式開啟乙個檔案只用於寫入。如果該檔案已存在則將其覆蓋。如果該檔案不存在，建立新檔案。

w+ 開啟乙個檔案用於讀寫。如果該檔案已存在則將其覆蓋。如果該檔案不存在，建立新檔案。

wb+ 以二進位制格式開啟乙個檔案用於讀寫。如果該檔案已存在則將其覆蓋。如果該檔案不存在，建立新檔案。

a 開啟乙個檔案用於追加。如果該檔案已存在，檔案指標將會放在檔案的結尾。也就是說，新的內容將會被寫入到已有內容之後。如果該檔案不存在，建立新檔案進行寫入。

ab 以二進位制格式開啟乙個檔案用於追加。如果該檔案已存在，檔案指標將會放在檔案的結尾。也就是說，新的內容將會被寫入到已有內容之後。如果該檔案不存在，建立新檔案進行寫入。

a+ 開啟乙個檔案用於讀寫。如果該檔案已存在，檔案指標將會放在檔案的結尾。檔案開啟時會是追加模式。如果該檔案不存在，建立新檔案用於讀寫。

ab+ 以二進位制格式開啟乙個檔案用於追加。如果該檔案已存在，檔案指標將會放在檔案的結尾。如果該檔案不存在，建立新檔案用於讀寫。

大資料處理

大資料處理的流程主要包括以下四個環節採集匯入預處理統計分析挖掘，下面針對這四環節進行簡單闡述。大資料處理之一採集在大資料的採集過程中，其主要特點和挑戰是併發數高，因為同時有可能會有成千上萬的使用者來進行訪問和操作，比如火車票售票和它們併發的訪問量在峰值時達到上百萬，所以需要在採集...

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫，pandas在資料處理方面很強大，整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題計算資料的某個欄位的所有值，對其欄位所有值進行運算處理的字段資料為時間戳，需要計算該時間戳距離現在的時間，單位為天。一般方法使用現在的...

大資料處理隨筆

1.mssql當資料庫資料超過1000萬的時候超時是正常的，所以當表資料到1000萬時候注意delete 2.今天遇到資料庫時間格式2014021000 當然是int型別哦 3.聯合索引使用開始時間與結束時間這樣一起查詢的要建成索引 4.訂閱資料庫，只可以查詢操作，這樣的話可以在這個表上面建立索引...

python 大資料處理小結

大資料處理

資料處理 pandas資料處理優化方法小結

大資料處理隨筆

相關推薦