網頁版簡單爬蟲

#爬取requests/beautifulsoup
import requests
import mysqldb
from bs4 import beautifulsoup
url =
''#瀏覽器獲取url
defget_page
(url)
: response = requests.get(url)
soup = beautifulsoup(response.text,
'lxml'
)return soup
#封裝成函式，作用是獲取列表下面所有租房頁面的鏈結，返回乙個鏈結列表；
defget_links
(link_url)
: soup = get_page(link_url)
links_div = soup.find_all(
'div'
,class_ =
"content__list--item"
) links =
[div.a.get(
'href'
)for div in links_div]
return links
#get_links(url)

def
get_house_info
(house_url)
: soup = get_page(house_url)
house_info = soup.find_all(
'li'
, class_ =
'fl oneline'
) area = house_info[1]
.text[3:
5]direction = house_info[2]
.text[3:
] location = house_info[7]
.text[7:
] agent_name = soup.find(
'span'
,class_ =
'contact_name'
).text
info =
return info
house_url =
'bj2563816808117444608.html'
house = get_house_info(house_url)
house

database =
defget_db
(database)
:return mysqldb.connect(
**database)
definsert
(db,house)
: values =
"'{}',"*3
+"'{}'"
sql_values = values.
format
(house[
'經紀人名字'
],house[
'位置'
],house[
'方向'
],house[
'面積'])
sql =
""" 
insert into house_info(agent_name,location,direction,area) values ({})
""".format
(sql_values)
print
(sql)
cursor = db.cursor(
)#定義乙個資料庫游標實現對資料的操作
cursor.execute(sql)
#執行單條sql語句
db.commit(
)#成功插入資料
db = get_db(database)
#連線資料庫
insert(db,house)

簡單網頁爬蟲

目錄安裝requests模組 pip install requests import re 匯入re模組 import requests 匯入request模組 response requests.get 獲取網頁內容源 data response.text 將網頁內容源存放在文字格式記錄data...

php網頁簡單爬蟲

str replace 函式以其他字元替換字串中的一些字元區分大小寫該函式必須遵循下列規則注釋該函式區分大小寫。請使用 str ireplace 函式執行不區分大小寫的搜尋。注釋該函式是二進位制安全的。初始化curl curl curl init 這是你想用php取回的url位址。你也可以...

Java簡單網頁爬蟲

簡單原理就是使用apache訪問網頁，獲取網頁內容，然後根據匹配的開始和結束位置，得到想要的結果首先需要引入apache的幾個包 import org.apache.http.util.entityutils 然後設定url，需要獲取的開始和結束位置的html，具體位置可以通過檢視網頁源得到 p...

網頁版簡單爬蟲

簡單網頁爬蟲

php網頁簡單爬蟲

Java簡單網頁爬蟲

相關推薦