農機資訊網 資料爬取 原始碼 一蓑煙雨任平生

2021-10-10 11:16:34 字數 2238 閱讀 5803

# -*- coding: utf-8 -*-

import requests

import pymysql

from bs4 import beautifulsoup # 用來解析網頁

import uuid

import time

url =

""headers =

conn = pymysql.connect(host=

'127.0.0.1'

, user=

'root'

, passwd=

'123456'

, db=

'zhang'

, charset=

'utf8'

)cur = conn.cursor(

)print

("連線成功"

)for i in

range(1

,10):

# 爬取第一頁到第3頁的資料

resp = requests.get(f"/list/9?p="

, headers=headers)

page_one = beautifulsoup(resp.content,

"html.parser"

) dd = page_one.find(

'div'

, class_=

'layer2_left'

).find_all(

'h3'

)for ss in dd:

surl = url + ss.find(

'a')

['href'

]# 開啟二級網頁進行爬取

rp = requests.get(surl, headers=headers)

page_two = beautifulsoup(rp.content,

"html.parser"

) papaer_id =

str(uuid.uuid1())

if page_two.find(

'div'

, class_=

'content_left1')is

none

:continue

# 標題

title = page_two.find(

'div'

, class_=

'content_left1'

).find(

'h1'

).text

# 時間

print

(surl)

timet = page_two.find(

'div'

, class_=

'content_left1'

).find(

'div'

).text[12:

22]# **

source = page_two.find(

'div'

, class_=

'content_left1'

).find(

'div'

).text[32:

].strip(

)print

(source)

# 內容

content = page_two.find(

'div',id

='article_content'

).text.strip(

)print

(content)

sql =

"insert into knowledge(id,title,timet,content,p_type,url,source) values (%s,%s,%s,%s,%s,%s,%s)"

cur.execute(sql,

(papaer_id, title, timet, content,

"機械農業"

, surl, source)

)print

("sql正在執行第{}頁執行完畢"

.format

(i))

conn.commit(

) time.sleep(1)

# 防止伺服器蹦了,間隔一秒鐘

爬取豆瓣網電影資訊

coding utf 8 import urllib2 import bs4 from bs4 import beautifulsoup 爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class dbtop def init self self.usr agent mozilla 5.0 w...

Python爬取拉勾網招聘資訊

最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...

某房產網資訊爬取

有反爬,出現訪問驗證!窮人,手裡沒啥 因為是著名大站,所以只貼出部分,防止侵權或者非法用途等等,僅供學習交流,我也是個菜!愁人!class ftxspider scrapy.spider name ftx allowed domains fang.com start urls def parse s...