爬蟲初學3

2021-10-03 21:54:07 字數 1091 閱讀 5811

import requests

import urllib3 #urllib 側重於 url 基本的請求構造,urllib2側重於 http 協議請求的處理,而 urllib3是服務於公升級的http 1.1標準,且擁有高效 http連線池管理及 http **服務的功能庫

import json

import urllib

import urllib.request

from bs4 import beautifulsoup #beautiful soup是python的乙個庫,最主要的功能是從網頁抓取資料。

# 1、json.dumps()和json.loads()是json格式處理函式(可以這麼理解,json是字串)

#   (1)json.dumps()函式是將乙個python資料型別列表進行json格式的編碼(可以這麼理解,json.dumps()函式是將字典轉化為字串)

#   (2)json.loads()函式是將json格式資料轉換為字典(可以這麼理解,json.loads()函式是將字串轉化為字典)

## 2、json.dump()和json.load()主要用來讀寫json檔案函式

for i in range(0, 14):

#url1 = ''

url2 = str(0)

uel3 = '&pagesize=10&pin=null&_=1584241238668'

finalurl = url1 + url2 + uel3

finalurl = ""

xba = requests.get(finalurl)

#儲存資料

u1 = "d:\python\pycharm python\scrapy ture\jingdong1\\"

u2 = str(i)

u3 = ".json"

finalu = u1+u2+u3

file = open(finalu, "w")

file.write(xba.text)

print("finished")

# cc

# 4.0

# by - sa

爬蟲實戰 3初學Python網路爬蟲(5個例項)

要爬取的頁面為 如下 import requests defgethtmltext url try r requests.get url,timeout 30 r.raise for status 如果狀態不是200,引發httperror異常 print r.status code print r...

初學python爬蟲

上 之前先說下這個簡易爬蟲框架的思路 排程器 爬蟲的入口 知道沒有url或爬蟲終端,輸出結果 上 1,排程器 from myspider import urls manager,html html paser,html outer class legendspider object def init...

python爬蟲初學

0x01環境搭建 import os import requests from lxml import etree from urllib.parse import urljoin import urllib pip installl 包名字0x02介紹這裡寫了乙個爬 的爬蟲指令碼 如果不能解決就手...