Python爬蟲學習筆記 一

2021-09-11 18:49:56 字數 2268 閱讀 3267

以爬取乙個租房**的每一頁的每乙個租房資訊為例。

分別使用集合和列表在csv檔案中展示為例。

程式設計中需注意的是:

from bs4 import beautifulsoup

import requests

import pandas as pd

import time

headers =

def judgement_***(class_name):

if class_name == ['member_boy_ico']:

return '男'

else:

return '女'

def get_links(url):

wb_data = requests.get(url, headers=headers)

soup = beautifulsoup(wb_data.text, 'lxml')

links = soup.select('#page_list > ul > li > a')

# print(links)

# page_list > ul > li:nth-child(1) > a

# page_list > ul > li:nth-child(2) > a 此處歸一化,把後面的child刪除

for link in links:

href = link.get("href")

# print(href) # right

get_info(href)

# 獲取鏈結位址的資訊

def get_info(url):

wb_data = requests.get(url, headers=headers)

soup = beautifulsoup(wb_data.text, 'lxml')

tittles = soup.select('div.pho_info > h4 > em')

# body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em

addresses = soup.select('div.pho_info > p > span')

prices = soup.select('#pricepart > div.day_l > span')

imgs = soup.select('#curbigimage')

names = soup.select('#floatrightbox > div.js_box.clearfix > div.w_240 > h6 > a')

***s = soup.select('#floatrightbox > div.js_box.clearfix > div.w_240 > h6 > span')

# for tittle,address,price,img,name,*** in zip(tittles,addresses,prices,imgs,names,***s):

# data =

for tittle, address, price, img, name, *** in zip(tittles, addresses, prices, imgs, names, ***s):

tittle.get_text().strip(), # strip()去除兩側多餘空格

address.get_text().strip(),

price.get_text(),

img.get("src"),

name.get_text(),

judgement_***(***.get('class'))

])# print(data)

data =

if __name__ == '__main__':

urls = [''.format(number) for number in range(1, 5)]

for single_url in urls:

# print(single_url)

get_links(single_url)

time.sleep(2) # 睡眠兩秒,防止請求過快導致爬蟲崩壞

df = pd.dataframe(data)

df.columns = ['tittle', 'address', 'price', 'img', 'name', '***']

df.to_csv('d:/機器學習實現/網路爬蟲/output.csv', encoding='utf_8_sig', index=false)

Python爬蟲學習筆記一

爬蟲 網路蜘蛛,通俗講就是模擬瀏覽器。所需要的知識架構 關於基礎知識,隨便找本書就可以 urllib和urllib2是基本的爬蟲庫 正規表示式比較關鍵 框架比較高階,至於是什麼我現在也剛開始學習,一起交流。爬網頁,首先要了解瀏覽網頁是怎麼工作的?使用者輸入 之後,經過dns伺服器,找到伺服器主機,向...

python爬蟲學習筆記(一)

由於我也不是什麼專業人士,我也是在學習,這個就是我自己的乙個學習筆記,什麼爬蟲可以做什麼,為什麼學爬蟲我就不再贅述了,總結一點,爬蟲用來爬取網頁上的東西!在python中用到urllib和urllib2,urllib是python原生的乙個庫,urllib2是python創始人覺得urllib不好使...

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...