Python 爬蟲 學習筆記

2021-10-04 21:19:56 字數 3421 閱讀 1732

#爬取搜狗首頁的頁面資料

import requests

if __name__ == "__main__":

#指定url

url = ''

#發起請求

#get方法會返回乙個響應物件

response = requests.get(url=url)

#獲取響應資料,text返回的是字串形式的響應資料

page_text = response.text

print(page_text)

#持久化儲存

with open('./sougou.html','w',encoding='utf-8') as fp:

fp.write(page_text)

print('爬取資料結束!!!')

#簡易的網頁採集器

import requests

if __name__ == "__main__":

#ua偽裝:將對應的user-agent封裝到乙個字典中

header =

url = 'web'

#處理url攜帶的引數:封裝到字典中

kw = input('enter a word : ')

param =

#對指定的url發起的請求對應的url是攜帶引數,並且請求過程中處理了引數

response = requests.get(url = url, params = param, headers = header)

page_text = response.text

filename = kw+'.html'

with open(filename,'w',encoding='utf-8') as fp:

fp.write(page_text)

print(filename,'儲存成功!')

import requests

import json

if __name__ == "__main__":

#指定url

post_url = ''

#ua偽裝

header =

#post請求引數處理(同get請求一致)

word = input('enter a word:')

data =

#請求傳送

response = requests.post(url=post_url, data=data, headers=header)

#獲取響應資料:json()方法返回的是obj

dic_json = response.json()

#持久化儲存

filename = word+'.json'

fp = open(filename, 'w', encoding='utf-8')

json.dump(dic_json, fp=fp, ensure_ascii=false)

print('over!')

#爬取豆瓣電影分類排行榜

import requests

import json

if __name__ == "__main__":

#指定url

post_url = ''

param =

#ua偽裝

header =

response = requests.get(url=post_url, params=param, headers=header)

list_data = response.json()

#持久化儲存

fp = open('./douban.json', 'w', encoding='utf-8')

json.dump(list_data, fp=fp, ensure_ascii=false)

print('over!')

#爬取國家藥品監督管理總局

import requests

import json

if __name__ == "__main__":

id_list =

all_data_list =

#指定url

post1_url = ''

# ua偽裝

header =

for page in range(1, 5):

data =

json_ids = requests.post(url=post1_url, data=data, headers=header).json()

for dic in json_ids['list']:

post2_url = ''

for id in id_list:

post_data =

detail_json = requests.post(url=post2_url,data=post_data,headers=header).json()

fp = open('./detail_data.json', 'w', encoding='utf-8')

json.dump(all_data_list, fp=fp, ensure_ascii=false)

print('over!')

#爬取

import requests

if __name__ == "__main__":

url = ''

#屬性content返回的是二進位制資料

fp.write(img_data)

#正則解析,爬取糗事百科

import requests

import re

import os

if __name__ == "__main__":

#建立乙個資料夾,儲存所有

if not os.path.exists('./qiutulibs'):

os.mkdir('./qiutulibs')

url = ''

page_start = int(input('enter start page:'))

page_end = int(input('enter end page:'))

for pagenum in range(page_start,page_end):

new_url = format(url%pagenum)

#屬性content返回的是二進位制資料

page_text = requests.get(url=new_url, headers=header).text

ex = '未完,有空再續吧

python爬蟲學習筆記

一 爬蟲思路 對於一般的文章而言,思路如下 1.通過主頁url獲取主頁原始碼,從主頁原始碼中獲得 標題 鏈結 如想要抓取知乎上的新聞,就獲得主頁上的新聞鏈結 2.繼續通過 標題 鏈結獲得 標題 原始碼,進而獲得 標題 中的內容。其中,當存在多頁時,先將每一頁都一樣的url寫下來,然後迴圈加入頁碼,具...

Python爬蟲學習筆記

1.使用build opener 修改報頭 headers user agent 定義變數headers儲存user agent資訊 opener urllib.request.build opener 建立opener物件並賦給變數 openeropener.addheaders headers ...

python爬蟲學習筆記

2.網頁資訊提取 beautiful soup庫 這是 學習北理的嵩山天老師mooc教程的筆記,是老師上課用的例項。import requests url try kv 將爬蟲偽裝成瀏覽器 r requests.get url,headers kv r.raise for status print ...