我的第乙個爬蟲（爬取糗百的段子）

#coding=utf8
import requests
from bs4 import beautifulsoup
import os
import codecs
import mysqldb
def mysql(title):
conn= mysqldb.connect(
host='127.0.0.1',
port = 3306,
user='root',
passwd='',
db ='test',
charset="utf8",
)cur = conn.cursor()
sqli="insert into qiubai(text) values(%s)"
cur.execute(sqli,(title))
cur.close()
conn.commit()
conn.close()
def qiushi(url):
content = requests.get(url, headers=headers)
all_a = beautifulsoup(content.text, 'lxml').find('div', class_='col1').find_all('div', class_='content')
title_all = 
for a in all_a:
title = a.get_text()
os.chdir("d:\mzitu")
f = open("111.txt", 'a')
for i in title_all:
x = i.encode("utf-8") 
f.write(i.encode('utf-8'))
f.write("\n")
s=mysql(i.encode('utf-8')) ##這句是儲存乙份到資料庫中，如果沒配置資料庫的話，可以注釋掉
f.close()
url = ''
qiushi = qiushi(url)

寫個這麼簡答的東西踩的坑有：

os.chdir("d:\mzitu")

f = open("111.txt", 'a')

一開始下面寫的是d:\mzitu.111.txt，拼命的儲存，就是看不到資料，我這暴脾氣，簡直不能忍。

還有直接列印文字內容會出現亂碼然後type()了一下發現是unicode，要用encode('utf-8')轉換一下。

後面儲存到mysql中又出現亂碼，還是不一樣的亂碼，我真是踏馬的萬馬奔騰一馬平川的草泥馬，後來發現是我建表沒設定utf-8編碼。

然後終於完成了這個小小的東西

python爬取糗百第一頁的笑話

自學python網路爬蟲，發現request比urllib還是要好用一些，因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取，當然select也是乙個不錯的選擇。下面是臨時的...

我的第乙個爬蟲日誌

剛剛開始學習爬蟲，很多東西不懂，還望前輩們多多指教。總結流程 1 匯入相應的包 1 傳送多頁在此不傳送頁碼，新編函式迴圈傳入新的頁碼 2 構建函式 1 傳送請求 2 伺服器的響應 3 讀取編碼資訊 3 編寫正規表示式提取所需內容，括號內容具有唯一性 import urllib import ur...

我的第乙個爬蟲程式

最近開始迷上python了，當然，最讓我著迷的還是它的風格，用一句話形容乾淨利索脆。由於我有一些vb基礎，現在學python感覺特別的輕鬆。必須要強調一句興趣是最好的老師。既然學寫爬蟲，先給自己定乙個小目標爬一本好了。從縱橫中文網裡找了部章節少的神魔武帝練手，別看就簡簡單單爬取一部...

我的第乙個爬蟲（爬取糗百的段子）

python爬取糗百第一頁的笑話

我的第乙個爬蟲日誌

我的第乙個爬蟲程式

相關推薦