python hank python學習路線

2021-10-12 10:47:50 字數 1202 閱讀 7685

爬蟲

1.基礎知識:**基本原理,html,python,多程序/多執行緒/協程等(必學)

2.html基礎、網路請求模組:requests(必學),urllib(可以了解)

3.需要了解一些常見的反爬策略以及對應的解決方案:常見的有ip頻率限制,user-agent、referer、origen驗證,cookie限制,動態載入及驗證碼等,

對應的處理手段有ip**池,偽造header,cookie儲存與處理(基礎高階)

4.網頁分析提取:beautifulsoup&xpath(二選一),正規表示式(必學)

5.動態執行js,js加密以及selenium,ocr識別或者打碼平台(選學)

6.資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)

7.網路抓包分析(選學)

8.爬蟲框架:scrapy(選學),pyspider(選學)

9.分布式爬蟲(選學)

資料分析與處理

1.基礎知識:python(函式、模組、物件導向),正規表示式,json(必學)

2.上述爬蟲相關:

·基礎知識:**基本原理,html,python,多程序/多執行緒/協程等(必學)

·html基礎、網路請求模組:requests(必學),urllib(可以了解)

·需要了解一些常見的反爬策略以及對應的解決方案:常見的有ip頻率限制,user-agent、referer、origen驗證,cookie限制,動態載入及驗證碼等,

對應的處理手段有ip**池,偽造header,cookie儲存與處理(基礎高階)

·網頁分析提取:beautifulsoup&xpath(二選一),正規表示式(必學)

·動態執行js,js加密以及selenium,ocr識別或者打碼平台(選學)

·資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)

4.圖表繪圖與視覺化:matplotlip,詞云(必學)

大資料(資料探勘、機器學習)

1.基礎知識:python(基礎+高階)(必學)

2.金融學、統計學、計量經濟學、投資學(必學)

3.資料儲存(檔案讀寫、資料庫、excel/csv模組等)(必學)

5.圖表繪圖與視覺化:matplotlip等(必學)

boosting、聚類、推薦系統、plsa、lda、gdbt、regularization、異常檢測、em演算法、apriori、

fp growth等(必學)

開發路,學習路

經過1年多的coding,做了幾個專案以後,終究在自己覺得最看不起的地方跌倒了,以前在學習的時候竟然認為程式設計思想嘛 理論嘛,那些都是無所謂的東西,應該更加注重coding的實踐 因為自己的夢想就是成為乙個coding牛人 然後在幾次回頭修正 擴充套件自己以往做過的專案的時候,我才發現,許久的co...

git漫漫學習路

1 倉庫 repository 受版本控制的所有檔案修訂歷史的共享資料庫 2 工作空間 workspace 本地硬碟或unix 使用者帳戶上編輯的檔案副本 3 工作樹 區 working tree 工作區中包含了倉庫的工作檔案。您可以修改的內容和提交更改作為新的提交到倉庫。4 暫存區 staging...

web css開發學習路1 0

盒子的製作 1.盒子寬高不能糾結,允許1 2px誤差 2.字型大小不能糾結,允許1 2px誤差 3.顏色拾取不能糾結,允許 值誤差 4.寫盒子的順序 1 從外到內,從上到下,先總體後細節 設定盒子寬高 寬有時不設 設定乙個輔助背景顏色後面注釋刪除掉以便於觀察,2 設定 box sizing bord...