Vaex處理大資料的Python庫

2021-10-03 11:10:08 字數 535 閱讀 5362

隨著社會的發展,5g和雲技術的普及,資料也越來越方便蒐集儲存。隨之而來的就是資料越來越大,資料科學家面對 50gb 甚至 500gb 大小的資料集的情況變得越來越普遍。海量資料的處理也變的越來困難和重要。本文推薦處理大資料的乙個python庫,vaex。vaex 是乙個開源的資料框架庫(類似於pandas),用於視覺化和探索大型**資料集。vaex使用記憶體對映,零記憶體複製策略和惰性計算來獲得最佳效能。

效能:適用於海量**資料,流程》109 行/秒

惰性/虛擬列:動態計算,不浪費記憶體

高效的內存在執行過濾/選擇/子集時沒有記憶體副本

視覺化:直接支援,單線通常就足夠了

使用者友好的api:您只需要處理dataframe物件,而製表符完成+ docstring可以幫助您:ds.mean,感覺與pandas非常相似

jupyter整合:vaex-jupyter將在jupyter筆記本和jupyter實驗室中為您提供互動式視覺化和選擇。

精益:分成多個包。

vaex 官方**: 

文件:github:

pypi:

大資料的處理

大資料時代,大家都在從資料中淘金。龐大的資料量隱藏著一些重要的資訊,這些需要被挖掘,來輔助企業制定決策。龐大的資料量如何轉化為有價值的資訊呢?參考hadoop的設計,使用分布式檔案系統hdfs來儲存超大規模的資料集,使用分布式計算框架來處理資料。其中hdfs的設計 是一次寫入,多次讀取。hdfs是如...

大資料關聯處理 大資料預處理之資料清洗

現實世界的資料常常是不完全的 有雜訊的 不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。1 忽略該條記錄 若一...

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...