我的第乙個爬蟲(爬取糗百的段子)

2022-09-03 14:24:11 字數 1363 閱讀 3414

#coding=utf8

import requests

from bs4 import beautifulsoup

import os

import codecs

import mysqldb

def mysql(title):

conn= mysqldb.connect(

host='127.0.0.1',

port = 3306,

user='root',

passwd='',

db ='test',

charset="utf8",

)cur = conn.cursor()

sqli="insert into qiubai(text) values(%s)"

cur.execute(sqli,(title))

cur.close()

conn.commit()

conn.close()

def qiushi(url):

content = requests.get(url, headers=headers)

all_a = beautifulsoup(content.text, 'lxml').find('div', class_='col1').find_all('div', class_='content')

title_all =

for a in all_a:

title = a.get_text()

os.chdir("d:\mzitu")

f = open("111.txt", 'a')

for i in title_all:

x = i.encode("utf-8")

f.write(i.encode('utf-8'))

f.write("\n")

s=mysql(i.encode('utf-8')) ##這句是儲存乙份到資料庫中,如果沒配置資料庫的話,可以注釋掉

f.close()

url = ''

qiushi = qiushi(url)

寫個這麼簡答的東西踩的坑有:

os.chdir("d:\mzitu")

f = open("111.txt", 'a')

一開始下面寫的是d:\mzitu.111.txt,拼命的儲存,就是看不到資料,我這暴脾氣,簡直不能忍。

還有直接列印文字內容會出現亂碼 然後type()了一下發現是unicode,要用encode('utf-8')轉換一下。

後面儲存到mysql中又出現亂碼,還是不一樣的亂碼,我真是踏馬的萬馬奔騰一馬平川的草泥馬,後來發現是我建表沒設定utf-8編碼。

然後終於完成了這個小小的東西

python爬取糗百第一頁的笑話

自學python網路爬蟲,發現request比urllib還是要好用一些,因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取,當然select也是乙個不錯的選擇。下面是臨時的...

我的第乙個爬蟲日誌

剛剛開始學習爬蟲,很多東西不懂,還望前輩們多多指教。總結流程 1 匯入相應的包 1 傳送 多頁在此不傳送頁碼,新編函式迴圈傳入新的頁碼 2 構建函式 1 傳送請求 2 伺服器的響應 3 讀取 編碼資訊 3 編寫正規表示式提取所需內容,括號內容具有唯一性 import urllib import ur...

我的第乙個爬蟲程式

最近開始迷上python了,當然,最讓我著迷的還是它的 風格,用一句話形容 乾淨利索脆。由於我有一些vb基礎,現在學python感覺特別的輕鬆。必須要強調一句 興趣是最好的老師。既然學寫爬蟲,先給自己定乙個小目標 爬一本 好了。從 縱橫中文網 裡找了部章節少的 神魔武帝 練手,別看就簡簡單單爬取一部...