Python3抓取糗百 不得姐

2021-08-25 11:18:47 字數 1162 閱讀 1245

重要提示1:本文所列程式均基於python3.6,低於python3.6的python版本可能無法執行.

重要提示2:因所抓取的**可能隨時更改展示內容,因此程式也需及時跟進.

重要提示3:本程式僅供學習,不能拿去做壞事.​

1.安裝python 3.6;

2.安裝以下庫:

整個程式,按照下面的步驟:

上述部分體現在**中,就是如下:

首先在main.py中,定義:

​用來格式化不得姐獲取到的資料,下面還要定義乙個qsyk來處理來自糗事百科的資料:

**中還有乙個kanqu.com的抓取處理,這裡就不羅列了,這幾個唯一的區別就是:呼叫common.formatcontent時,傳遞的第二個引數不一樣,第二個引數為要抓取的內容(html)的class.

commongrab中依賴了userutils.py中的**.

下面是commongrab的定義,在commongrab中主要做了兩件事:

抓取網頁內容,儲存到記憶體;

解析html內容(使用beautifulsoup)

將資料新增到資料庫中.(不新增資料庫到資料庫中.)

**如下:

之後就是把上述的幾部分組合起來.

執行部分的**如下,主要就是呼叫了上述幾部分的**:

檔案:

main.py: 執行

userutils.py:工具​

>>>>閱讀全文

Python3 爬蟲 抓取百度貼吧

前言 天象獨行 import os,urllib.request,urllib.parse 測試要求 1 輸入吧名,首頁,結束頁進行爬蟲。2 建立乙個以吧名為名字的資料夾,裡面是每一頁的html的內容,檔名格式 吧名 page.html url ba name input home page int...

Python3網頁抓取urllib

開啟網頁的過程其實就是瀏覽器作為乙個瀏覽的 客戶端 向伺服器端傳送了一次請求,把伺服器端的檔案 抓 到本地,再進行解釋 展現。爬蟲最主要的處理物件就是url,它根據url位址取得所需要的檔案內容,然後對它進行進一步的處理。網頁抓取,就是把url位址中指定的網路資源從網路流中讀取出來,儲存到本地。類似...

Python3 爬蟲例項(一) 簡單網頁抓取

在著手寫爬蟲之前,要先把其需要的知識線路理清楚。http是hyper text transfer protocol 超文字傳輸協議 的縮寫。它的發展是全球資訊網協會 world wide web consortium 和internet工作小組ietf internet engineering ta...