教你怎麼用python爬取愛奇藝熱門電影

2022-09-25 16:24:11 字數 2259 閱讀 8716

找到目標先分析一下網頁(url:很幸運這個只有乙個網頁,不需要翻頁。

找到目標,分析如何獲取需要的資料。找到href與電影名稱

'''爬取愛奇藝電影與位址路徑

操作步驟

1,獲取到url內容

2,css選擇其選擇內容

3,儲存自己需要資料

'''#匯入爬蟲需要的包

import requests

from bs4 import beautifulsoup

#requests與beautifulsoup用來解析網頁的

import time

#設定訪問網頁時間,防止自己ip訪問多了被限制拒絕訪問

import re

class position():

def __init__(self,position_name,position_require,):#構建物件屬性

self.position_name=position_name

self.position_require=position_require

def __str__(self):

return '%s%s/n'%(self.position_name,cdinlself.position_require)#過載方法將輸入變數改成字串形式

class aiqiyi():

def iqiyi(self,url):

head= #模擬的伺服器頭

html = requests.get(url,headers=head)

#headers=hard 讓指令碼以瀏覽器的方式去訪問,有一些**禁止以python的反爬機制,這就是其中乙個

soup = beautifulsoup(html.content, 'lxml', from_encoding='utf-8') # beautifulsoup打看網頁

soupl = soup.select(".qy-list-wrap") # 查詢標籤,用css選擇器,選擇自己需要資料 進行選擇頁面第一次內容(標籤要找到唯一的,找id好,如果沒有考慮其他標籤如class)

results = # 建立乙個列表用來儲存資料

for e in soupl:

biao = e.select('.qy-mod-li') # 進行二次篩選

for h in biao:

p=position(h.select_one('.qy-mod-link-wrap').get_text(strip=true),

h.select_one('.title-wrap').get_text(strip=true))#呼叫類轉換(繼續三次篩選選擇自己需要內容)

results.append(p)

return results # 返回內容

def address(self,url):

#儲存**

head = # 模擬的伺服器頭

html = requests.get(url, headers=head)

soup = beautifulsoup(html.content, 'lxml', from_encoding='utf-8') # beautifulsoup打看網頁

alist = soup.find('div', class_='qy-list-wrap').find_all("a") # 查詢div塊模組下的 a標籤

ls=for i in alist:

ls.append(i.get('href'))

return ls

if __name__ == '__main__':

time.sleep(2)

#設定2秒訪問一次

a=aiqiyi()

url = ""

with open(file='e:/練習.txt ', mode='a+') as f: # e:/練習.txt 為我電腦新建的檔案,a+為給內容進行新增,但不進行覆蓋原內容。

for item in a.iqiyi(url):

line = f'\t\n'

f.write(line) # 採用方法

print("**完成")

with open(file='e:/位址.txt ', mode='a+') as f: # e:/練習.txt 為我電腦新建的檔案,a+為給內容進行新增,但不進行覆蓋原內容。

f.write(line) # 採用方法

print("**完成")

Python趣味爬蟲之爬取愛奇藝熱門電影

找到目標先分析一下網頁很幸運這個只有乙個網頁,不需要翻頁。找到目標,分析如何獲取需要的資料。找到href與電影名稱 操作步驟 1,獲取到url內容 2,css選擇其選擇內容 3,儲存自己需要資料 匯入爬蟲需要的包 import requests from bs4 import beautifulso...

手把手教你用Python爬取p站

首先開啟我們的p站進行抓包 不好意思,不好意思 輸錯了 我們今天要爬取的內容是p站的排行榜 在我們往下滑的時候進行抓包會發現有個包 這是乙個ajax請求,就是獲取排行榜頁面的包 如下 import requests from lxml import etree import time 進行ua偽裝 ...

用python爬取小說章節內容

在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model from bs4 import beautifulsoup import requests import re 獲取目標鏈結位址 ur...