2018 1 9 爬蟲學習第三天

2021-09-08 08:51:54 字數 2645 閱讀 5867

#encoding: utf-8

from bs4 import beautifulsoup

html = 「」"

職位名稱

職位類別

人數地點

發布時間

22989-金融雲區塊鏈高階研發工程師(深圳)

技術類1

深圳2017-11-25

22989-金融雲高階後台開發

技術類2

深圳2017-11-25

技術類2

深圳2017-11-25

技術類1

深圳2017-11-25

teg03-高階研發工程師(深圳)

技術類1

深圳2017-11-24

teg03-高階影象演算法研發工程師(深圳)

技術類1

深圳2017-11-24

teg11-高階ai開發工程師(深圳)

技術類4

深圳2017-11-24

15851-後台開發工程師

技術類1

深圳2017-11-24

15851-後台開發工程師

技術類1

深圳2017-11-24

sng11-高階業務運維工程師(深圳)

技術類1

深圳2017-11-24

"""

# 1. 獲取所有tr標籤

# 2. 獲取第2個tr標籤

# 3. 獲取所有class等於even的tr標籤

# 4. 將所有id等於test,class也等於test的a標籤提取出來。

# 5. 獲取所有a標籤的href屬性

# 6. 獲取所有的職位資訊(純文字)

soup = beautifulsoup(html,'lxml')

# 1. 獲取所有tr標籤

# trs = soup.find_all('tr')

# for tr in trs:

# print(tr)

# print('='*30)

# 2. 獲取第2個tr標籤

# tr = soup.find_all('tr',limit=2)[1]

# print(tr)

# 3. 獲取所有class等於even的tr標籤

# atrribute

# trs = soup.find_all('tr',attrs=)

# for tr in trs:

# print(tr)

# print('='*30)

# 4. 將所有id等於test,class也等於test的a標籤提取出來。

# alist = soup.find_all('a',id='test',class_='test')

# alist = soup.find_all('a',attrs=)

# for a in alist:

# print(a)

# 5. 獲取所有a標籤的href屬性

# alist = soup.find_all('a')

# for a in alist:

# # 1. 通過下表操作的方式

# # href = a['href']

# # print(href)

# # 2. 通過attrs屬性的方式

# href = a.attrs['href']

# print(href)

# 6. 獲取所有的職位資訊(純文字)

# trs = soup.find_all('tr')[1:]

# movies =

# for tr in trs:

# movie = {}

# # tds = tr.find_all("td")

# # title = tds[0].string

# # category = tds[1].string

# # nums = tds[2].string

# # city = tds[3].string

# # pubtime = tds[4].string

# # movie['title'] = title

# # movie['category'] = category

# # movie['nums'] = nums

# # movie['city'] = city

# # movie['pubtime'] = pubtime

## infos = list(tr.stripped_strings)

# movie['title'] = infos[0]

# movie['category'] = infos[1]

# movie['nums'] = infos[2]

# movie['city'] = infos[3]

# movie['pubtime'] = infos[4]

## print(movies)

tr = soup.find_all('tr')[1]

text = tr.string

print(text)

爬蟲小試第三天

coding utf 8 import sys import urllib2 import datetime import random from bs4 import beautifulsoup reload sys sys.setdefaultencoding utf8 links 鏈結 nam...

爬蟲的第三天

聚焦爬蟲 爬取頁面中指定的頁面內容 正則解析爬取專案實戰 import requests import re import os if name main if not os.path.exists qiutulibs os.mkdir qiutulibs 設定乙個通用的url模板 url head...

學習第三天

額,又是美好的一天!祝賀比利時奪得季軍!下面,還是先看資訊學 今天繼續看倍增。這道題是和倍增沾邊的題,額,其實就是兩邊floyd。但是思路還是可以借鑑的。這道的思路是,使用兩個陣列,乙個是f k u v 這個陣列表示節點u到節點v之間是否距離為2 k,如果是,則為1,否則為0.代表u和v之間是否1s...