簡單大資料處理 學習筆記

2021-06-17 15:43:51 字數 852 閱讀 4931

試問年輕時誰沒有幾個夢想? 

大資料處理一直在我計畫之中,只不過人在江湖,身不由己,公司平台上一直沒有接觸這方面的工作,因為初創公司的資料量,***...

最近在思考來創業公司的幾年打拼經歷,感覺收效甚微,技術層次還停留在幾年前的水平,這裡不是怪公司提供的平台不給力,只是後悔期間自己沒有合理的安排學習時間,天天忙碌加班,蹉跎了大把大把的時間。

為了重拾往日的夢想,決定私下著手實際,行動起來:

一,資料準備:寫爬蟲,抓取大把資料量

先初步計畫抓取100萬資料,瞄準幾家大的新聞門戶,期間肯定會遇到各種問題:防抓取/多執行緒/儲存...

上週寫了乙個單執行緒的小爬蟲,效率不高,而且抓取過的url都記錄在記憶體中,還不能暫停抓取,問題一堆,但是就在寫這篇文章當前它還在不遺餘力的跑著,已經抓取了30+萬條news

所以接下來第一步打算先整個多併發的抓取,提高生產率

二,資料清洗,去除噪音

清洗資料,為下一步資料處理做準備,目標是識別網頁上的新聞正文

計畫把不同**的針對同一件事的給揪出來,文字相似度

文字分類

四,面對大資料量的計算,各種未知情況

之前從來沒有做這麼大的資料量的加工,途中肯定會遇到各種未知的問題

儘管這些都有人已經實現,但是自己不動動手,很難沉入進去

計畫十一前出個小成果來與大夥分享

美好的一天已經開始, 早起的鳥兒有蟲吃~~~

持續更新~~~~

Python 資料處理學習筆記

2.列表 3 字典 4.集合 固定長度,不可變的物件序列 逗號分隔 tup 4,5,6tup 1 2,3 4 5 tuple轉換函式 tup tuple strings a tup 0 1.元組物件不可更改,但物件內部可以修改 2.元組拆包 tup 1,2,3 4 a,b,c,d tup a,b 1...

Pandas資料處理學習筆記

1.pandas的基本資料型別 1 pandas一共包含了兩種資料型別,分別是series和dataframe series型別就類似於一維陣列物件。它是由一組資料以及一組與之相關的資料標籤 索引 組成的。import pandas as pd 例項化乙個series物件,引數是乙個陣列。obj p...

點雲資料處理學習筆記

三維計算視覺研究內容包括 1 三維匹配 兩幀或者多幀點雲資料之間的匹配,因為雷射掃瞄光束受物體遮擋的原因,不可能通過一次掃瞄完成對整個物體的三維點雲的獲取。因此需要從不同的位置和角度對物體進行掃瞄。三維匹配的目的就是把相鄰掃瞄的點雲資料拼接在一起。三維匹配重點關注匹配演算法,常用的演算法有最近點迭代...