python3爬蟲之爬取糗事百科段子

2021-09-24 10:42:14 字數 988 閱讀 1552

# -*- coding: utf-8 -*-

import urllib.request as urllib2

from time import sleep

from bs4 import beautifulsoup

#宣告變數且賦值

#迴圈13次

#**靜態的

#這個url是糗事百科**

url = ''

# user-agent是爬蟲與反爬蟲的第一步

#這個值寫自己電腦的

try:

# 通過urllib2.request()方法構造乙個請求物件

req = urllib2.request(url=url,headers=headers)

source_code = urllib2.urlopen(req).read()

plain_text=source_code.decode('utf-8')

except urllib2.error.urlerror:

if hasattr(e,"code"):

print (e.code)

if hasattr(e,"reason"):

print (e.reason)

soup=beautifulsoup(plain_text,'html.parser')

#獲取class為context的內容

python3糗事百科爬取

import urllib.request import re 糗事百科爬蟲類 class sqbk def init self self.pageindex 1 self.user agent mozilla 4.0 compatible msie 5.5 windows nt initial h...

python爬蟲(一)爬取糗事百科

最近需要收集語料,因此學習了一些爬蟲的知識,參考網上對糗事百科的爬蟲,編寫了如下 usr bin env python coding utf 8 import re from urllib import request for page in range 1,2 print page url str...

多執行緒爬取糗事網python3

使用到了多執行緒這裡使用queue進行資料互動 2.建立爬取頁面的類 3.建立處理資料的類 4.建立呼叫函式 cram exit false parse exit false def main pagequeue queue 20 for i in range 1,21 pagequeue.put ...