python爬蟲,爬取財富五百強,裡面有沒有你!?

2021-10-10 16:31:31 字數 4529 閱讀 2662

乙個簡單的demo,python爬蟲,其實是以前的存貨,很久很久沒有寫爬蟲了,渣渣更渣了啊!

fake_useragent庫本地使用

來自於吾愛破解**(id:jxt441621944)上的分享,fake_useragent庫也是本渣渣比較喜歡使用的乙個庫,比較方便吧,好用倒也說不上,看著用吧,fake_useragent庫本地使用方法,這裡給大家整理和打包了一下!

useragent就是使用者**,是一串字串,相當於是瀏覽器的身份證明,在寫爬蟲的時候頻繁更換請求頭中的useragent可以避免觸發反爬機制(配合**ip食用更佳)。

fake_useragent就是可以獲得乙個隨機的使用者**的庫。

fake_useragent庫總共250條ua!

ua庫檔案:fake_ua.txt

py呼叫檔案:fakeua.py

# -*- coding: utf-8 -*-

import random

with open('fake_ua.txt', 'r') as f:

fake_ua = [fua.strip() for fua in f.readlines()]

print(random.choice(fake_ua))

交流**學習!

#qq群:850973621

]@property #把方法變成屬性的裝飾器

workbook = xlsxwriter.workbook('{}_search_results.xlsx'.format("2023年《財富》中國500強排行榜")) # 建立乙個excel檔案

worksheet = workbook.add_worksheet("2023年《財富》中國500強排行榜")

title = ['排名', '上年排名', '公司名稱(中文)', '營業收入(百萬元)', '利潤(百萬元)'] # **title

worksheet.write_row('a1', title)

for index, data in enumerate(data_list):

# content = content.rstrip()

# keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data

num0 = str(index + 2)

row = 'a' + num0

# data = [name, size, game_id]

worksheet.write_row(row, data)

workbook.close()

def get_mdata(self):

html=requests.get(self.murl,headers=self.random_headers,timeout=5).content.decode('utf-8')

#print(html)

req = etree.html(html)

rankings=req.xpath('//table[@class="wt-table"]/tbody/tr/td[1]/text()')

companys=req.xpath('//table[@class="wt-table"]/tbody/tr/td[2]/a/text()')

incomes=req.xpath('//table[@class="wt-table"]/tbody/tr/td[3]/text()')

profits=req.xpath('//table[@class="wt-table"]/tbody/tr/td[4]/text()')

data_list=

for ranking,company,income,profit in zip(

rankings,companys, incomes, profits

):data = [

ranking,company,income,profit

]print(data)

print('\n')

self.write_to_mxlsx(data_list)

def write_to_mxlsx(self, data_list):

workbook = xlsxwriter.workbook('{}_search_results.xlsx'.format("2023年《財富》美國500強排行榜")) # 建立乙個excel檔案

worksheet = workbook.add_worksheet("2023年《財富》美國500強排行榜")

title = ['排名', '公司名稱(中文)', '營業收入(百萬美元)', '利潤(百萬美元)'] # **title

worksheet.write_row('a1', title)

for index, data in enumerate(data_list):

# content = content.rstrip()

# keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data

num0 = str(index + 2)

row = 'a' + num0

# data = [name, size, game_id]

worksheet.write_row(row, data)

workbook.close()

if __name__=="__main__":

spider=get_data()

#spider.get_data()

spider.get_mdata()

Python 爬蟲爬取網頁

工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...

python爬蟲爬取策略

在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...

python爬蟲 seebug爬取

1.找相關的標籤一步一步往下查詢 2.有cookie才能查詢 3.用import re而不用from re import 是為了防止衝突 coding utf 8 from requests import import re from bs4 import beautifulsoup as bs h...