爬蟲學習 爬蟲基本流程

2021-08-20 12:17:22 字數 721 閱讀 2535

標籤(空格分隔): 資料探勘 爬蟲

1、發起請求;

2、獲取相應內容;

3、解析網路內容;

4、儲存資料(結構化儲存);

user -> server : request

server -> user : response

1、請求方式:get,post,head,put,delete

2、get和post的區別:請求的引數包含的部分不同;get請求可以直接通過輸入訪問,post只能由提交表單進行實現。

3、請求url:

4、請求頭:瀏覽器的配置資訊;

5、請求體:post內容請求體;

1、響應狀態碼;

2、響應頭;

3、響應體;

只要能獲取到,都可以抓;

1、直接處理;

2、json解析;

3、正規表示式;

4、beautifulsoup提取;

5、pyquery和xpath提取;

微博的話很多用的都是js格式。原生的html**沒有那麼多微博的資訊的。

1、分析ajax請求,返回的json字串;

2、使用webdriver進行載入乙個檔案

3、splash庫進行;

4、用另外的庫進行模擬;

1、文字;

2、關係型資料庫;

3、非關係型資料庫;

4、二進位制檔案;

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

Python爬蟲學習 三 爬蟲的基本操作流程

一般我們使用python爬蟲都是希望實現一套完整的功能,如下 1.爬蟲目標資料 資訊 2.將資料或資訊存入資料庫中 3.資料展示,即在web端進行顯示,並有自己的分析說明。這次我先介紹第乙個功能中所需要實現的基本操作 匯入爬蟲所需要的庫 如 urllib urllib2 beautifulsoup ...