python 抓取https豆瓣電影資訊

2021-10-08 17:38:25 字數 2782 閱讀 6405

1、豆瓣**為https,python需要模擬瀏覽器行為,新增請求頭資訊,

2、開啟開發者工具,對資訊進行提取

2.1定位到電影資訊頭,先把關注的資訊提取出來

table = re.findall(r'(.*?)顯示全部影片

', data, re.s) 

#print(table)

firsttable = table[0]  

2.2 提取具體每個電影描述資訊,以list-item為分割,提取每個電信資訊

python程式:

print ("https 獲取成功")

table = re.findall(r'(.*?)顯示全部影片

', data, re.s)

#print(table)

firsttable = table[0]

#print(firsttable)

def step3():

print("start step3")

score =

# 1.按li標籤對獲取**中所有行,儲存在列表rows中:

rows = re.findall(r'class="list-item"(.*?)', firsttable, re.s)

print(rows[0])

# 2.迭代rows中的所有元素,獲取每一行的資料,並把資料組成item列表,將每乙個item新增到scorelist列表:

movielist =

for row in rows:

items =

#獲取電影名稱

title = re.findall(r'data-title=(.*?)\n', row, re.s)

print("title is",title[0])

title[0]=title[0].replace('"','')

#獲取評分

score = re.findall(r'data-score=(.*?)\n', row, re.s)

print("score is",score[0])

#獲取電影發布時間

release = re.findall(r'data-release=(.*?)\n', row, re.s)

print("release is",release[0])

#獲取電影時長

duration = re.findall(r'data-duration=(.*?)\n', row, re.s)

print("duration is",duration[0])

#獲取上映地區

region = re.findall(r'data-region=(.*?)\n', row, re.s)

print("region is",region[0])

#獲取導演

director = re.findall(r'data-director=(.*?)\n', row, re.s)

print("director is",director[0])

#獲取主要演員

actors = re.findall(r'data-actors=(.*?)\n', row, re.s)

print("actors is",actors[0])

#獲取投票數

votecount = re.findall(r'data-votecount=(.*?)\n', row, re.s)

print("votecount is",votecount[0])

df=pd.dataframe(movielist,index=list(range(1,len(movielist)+1)),columns=['名稱', '評分', '上映時間','時長','上映地區','導演','主演','投票數'])

df.to_csv("movie.csv",encoding='utf_8_sig')

return movielist

def test():

#time.sleep(2)

print("test is running!")

print("get result")

print(step3())

print("end result")

Python python抓取豆瓣電影top250

一直對爬蟲感興趣,學了python後正好看到某篇關於爬取的文章,就心血來潮實戰一把吧。實現目標 抓取豆瓣電影top250,並輸出到檔案中 1.找到對應的url 2.進行頁面元素的抓取 3.編寫 第一步 實現抓取第乙個頁面 第二步 將其他頁面的資訊也抓取到 第三步 輸出到檔案 4.5.結果 1 控制台...

抓取豆瓣2023年電影 分類 python

嗯,這次簡單點 突然很想看電影,於是就抄起了python搞了一發豆瓣的電影年度清單,順便統計了評分排名和分類之類的。還算簡單吧 16年電影都在這個鏈結 大概 83 ad e9 97 a8 sort time page limit 365 page start 0 這裡其實是可以get傳輸直接訪問豆瓣...

Python 爬蟲 抓取豆瓣讀書TOP250

coding utf 8 author yukun import requests from bs4 import beautifulsoup 發出請求獲得html原始碼的函式 def get html url 偽裝成瀏覽器訪問 resp requests.get url,headers heade...