網頁版簡單爬蟲

2021-10-09 03:16:08 字數 2005 閱讀 2359

#爬取requests/beautifulsoup

import requests

import mysqldb

from bs4 import beautifulsoup

url =

''#瀏覽器獲取url

defget_page

(url)

: response = requests.get(url)

soup = beautifulsoup(response.text,

'lxml'

)return soup

#封裝成函式,作用是獲取列表下面所有租房頁面的鏈結,返回乙個鏈結列表;

defget_links

(link_url)

: soup = get_page(link_url)

links_div = soup.find_all(

'div'

,class_ =

"content__list--item"

) links =

[div.a.get(

'href'

)for div in links_div]

return links

#get_links(url)

def

get_house_info

(house_url)

: soup = get_page(house_url)

house_info = soup.find_all(

'li'

, class_ =

'fl oneline'

) area = house_info[1]

.text[3:

5]direction = house_info[2]

.text[3:

] location = house_info[7]

.text[7:

] agent_name = soup.find(

'span'

,class_ =

'contact_name'

).text

info =

return info

house_url =

'bj2563816808117444608.html'

house = get_house_info(house_url)

house

database =

defget_db

(database)

:return mysqldb.connect(

**database)

definsert

(db,house)

: values =

"'{}',"*3

+"'{}'"

sql_values = values.

format

(house[

'經紀人名字'

],house[

'位置'

],house[

'方向'

],house[

'面積'])

sql =

"""

insert into house_info(agent_name,location,direction,area) values ({})

""".format

(sql_values)

print

(sql)

cursor = db.cursor(

)#定義乙個資料庫游標實現對資料的操作

cursor.execute(sql)

#執行單條sql語句

db.commit(

)#成功插入資料

db = get_db(database)

#連線資料庫

insert(db,house)

簡單網頁爬蟲

目錄安裝requests模組 pip install requests import re 匯入re模組 import requests 匯入request模組 response requests.get 獲取網頁內容源 data response.text 將網頁內容源 存放在文字格式記錄data...

php網頁簡單爬蟲

str replace 函式以其他字元替換字串中的一些字元 區分大小寫 該函式必須遵循下列規則 注釋 該函式區分大小寫。請使用 str ireplace 函式執行不區分大小寫的搜尋。注釋 該函式是二進位制安全的。初始化curl curl curl init 這是你想用php取回的url位址。你也可以...

Java簡單網頁爬蟲

簡單原理就是使用apache訪問網頁,獲取網頁內容,然後根據匹配的開始和結束位置,得到想要的結果 首先需要引入apache的幾個包 import org.apache.http.util.entityutils 然後設定url,需要獲取的開始和結束位置的html,具體位置可以通過檢視網頁源 得到 p...