編寫Python爬蟲爬取豆瓣出版社列表並寫入檔案

2021-09-25 04:55:20 字數 1611 閱讀 3300

本文介紹了如何編寫python程式從**』 爬取豆瓣出版社列表並寫入檔案:

import requests,re

from bs4 import beautifulsoup

def gethtmltext(url,code='utf-8'):

try:

r=requests.get(url,timeout=30)

r.raise_for_status

if r.encoding != code:

r.encoding = code

return r.text

except:

print("爬取失敗\n")

return ""

def main():

hrefpath='出版商.txt'

with open(hrefpath,'w',encoding='utf-8') as f:

url=''

html=gethtmltext(url,code='utf-8')

soup=beautifulsoup(html,'html.parser')

info=re.compile('(.+?)

').findall(str(soup))

for i in info:

f.write(i)

f.write('\n')

main()

人民東方出版傳媒

人民文學雜誌社

上海九久讀書人

世紀文景

四川數字出版傳媒****

上海譯文出版社

時代華文

上海雅眾文化

世紀文睿

時代華語

商務印書館

生活·讀書·新知三聯書店

上海社會科學院出版社

社會科學文獻出版社

山西春秋電子音像出版社

雁北堂陝西人民出版北京分公司

《書城》雜誌

世界圖書出版公司北京公司

四川文藝出版社

上海文藝出版社

上海人民出版社

上海交通大學出版社

斯坦威圖書

上海人民美術出版社

圖靈社群

trajectory

武漢大學出版社北京分社

萬有圖書

未讀新星出版社

新華先鋒文化傳媒

雪球懸疑世界

現代出版社

西南財經大學出版社

新華出版社

新華先鋒出版科技

譯林出版社

譯言·東西文庫

譯言·古登堡計畫

悅讀紀陽光部落格

悅讀名品

燕山出版社

閱文集團華文天下

中信出版社

中國人民大學出版社

中作華文

中國輕工業出版社

紫圖圖書

浙版數媒

**編譯出版社

知乎中國國家地理圖書部

浙江攝影出版社

中國經濟出版社

中國青年出版社

中國民主法制出版社

中國傳媒大學出版社

中國言實出版社

浙江大學出版社

湛廬文化

Python爬蟲 爬取豆瓣電影(二)

檢視上乙個專案,請看 上乙個專案中獲取到了一定數量的電影url資訊,這次來獲取單個電影的電影詳情。對傳遞的url返回乙個名為soup的beautifulsoup物件 defget url html soup url header request body.get header proxies req...

python爬蟲爬取豆瓣電影資訊

我們準備使用python的requests和lxml庫,直接安裝完之後開始操作 目標爬取肖申克救贖資訊 傳送門 導入庫import requests from lxml import etree 給出鏈結 url 獲取網頁html前端 一行搞定,在requests中已經封裝好了 data reque...

爬蟲 豆瓣電影爬取案例

直接上 僅供參考。目標爬取資料是某地區的 正在上映 部分的資料,如下圖 完整 如下 usr bin python coding utf 8 from lxml import etree import requests 目標 爬取豆瓣深圳地區的 正在上映 部分的資料 注意點 1 如果網頁採用的編碼方式...