Python趣味爬蟲之爬取愛奇藝熱門電影

2022-09-25 12:15:11 字數 2268 閱讀 7021

找到目標先分析一下網頁很幸運這個只有乙個網頁,不需要翻頁。

找到目標,分析如何獲取需要的資料。找到href與電影名稱

'''操作步驟

1,獲取到url內容

2,css選擇其選擇內容

3,儲存自己需要資料

'''#匯入爬蟲需要的包

import requests

from bs4 import beautifulsoup

#requests與beautifulsoup用來解析網頁的

import time

#設定訪問網頁時間,防止自己ip訪問多了被限制拒絕訪問

import re

class position():

def __init__(self,position_name,position_require,):#構建物件屬性

self.position_name=position_name

self.position_require=position_require

def __str__(self):

return '%s%s/n'%(self.position_name,self.position_require)#過載方法將輸入變數改成字串形式

class aiqiyi():

def iqiyi(self,url):

www.cppcns.com head= #模擬的伺服器頭

html = requests.get(url,headers=head)

#headers=hard 讓指令碼以瀏覽器的方式去訪問,有一些**禁止以python的反爬機制,這就是其中乙個

soup = beautifulsoup(html.content, 'lxml', from_encoding='utf-8') # beautifulsoup打看網頁

soupl = soup.select(".qy-list-wrap") # 查詢標籤,用css選擇器,選擇自己需要資料 進行選擇頁面第一次內容(標籤要找到唯一的,找id好,如果沒有考慮其他標籤如class)

results = # 建立乙個列表用來儲存資料

for e in soupl:

biao = e.select('.qy-mod-li') # 進行二次篩選

for h in biao:

p=position(h.select_one('.qy-mod-link-wrap').get_text(strip=true),

h.select_one('.title-wrap').get_text(strip=true))#呼叫類轉換(繼續三次篩選選擇自己需要內容)

results.append(p)

return results # 返回內容

def address(self,url):

#儲存**

head = # 模擬的伺服器頭

html = requests.get(url, headers=head)

soup = beautifulsoup(html.content, 'lxml', from_encoding='utf-8') # beautifulsoup打看網頁

alist = soup.find('div', class_='qy-list-wrap').find_all("a") # 查詢div塊模組下的 a標籤

ls=for i in alist:

ls.append(i.get('href'))

return ls

if __name__ == '__main__':

time.sleep(2)

#設定2秒訪問一次

a=aiqiyi()

url = ""

with open(file='e:/練習.txt ', mode='a+') as f: # e:/練習.txt 為我電腦新建的檔案,a+為給內容進行新增,但不進行覆蓋原內容。

for item in a.iqiyi(url):

程式設計客棧 line = f'\t\n'

f.write(line) # 採用方法

print("**完成")

with open(file='e:/位址.txt ', mode='a+') as f: # e:/練習.txt 為我電腦新建的檔案,a+為給內容進行新增,但不進行覆蓋原內容。

f.程式設計客棧write(line) # 採用方法

print("**完成")

教你怎麼用python爬取愛奇藝熱門電影

找到目標先分析一下網頁 url 很幸運這個只有乙個網頁,不需要翻頁。找到目標,分析如何獲取需要的資料。找到href與電影名稱 爬取愛奇藝電影與位址路徑 操作步驟 1,獲取到url內容 2,css選擇其選擇內容 3,儲存自己需要資料 匯入爬蟲需要的包 import requests from bs4 ...

Python爬蟲之爬取動漫之家

python爬蟲之爬取動漫之家 小白上手爬蟲第一天,簡單爬取 動漫之家。小小目標 1.爬取5頁的動漫 2.以list返回其動漫位址和動漫名字 簡單粗暴,直接附上原始碼 import requests import re 獲取頁面 defgethtmltext url try kv r request...

python爬蟲初戰之小說爬取

廢話不多說,上 總體思路是構建函式然後迴圈。函式分兩塊,第乙個函式得到標題和每一章節的 第二個函式得到每一章節的具體內容,然後迴圈就ok。import urllib.request as req import re 開啟頁面,找到正文 url name 流星蝴蝶劍 defget url title ...