python爬蟲 舌尖上的中國

2021-10-24 00:16:01 字數 1479 閱讀 4442

#匯入模組

import re

import os

import time

import random

import requests

import pandas as pd

import jieba

from wordcloud import wordcloud

from wordcloud import stopwords  # 停用詞

import matplotlib.pyplot as plt

%matplotlib inline

# 正規表示式,爬取後頁的關鍵字

patt2 = re.compile('.*?start=(\d+).*?class="next">後頁 >')

start = re.findall(patt2,html)[0] # 這裡注意返回的是乙個列表,findall匹配的是乙個列表,雖然每次都是乙個!!這裡通過索引取數 

if response.status_code == 200 :

print('正在爬取start為%s 的資料'%start)

for one_short in short:

with open(r'./豆瓣舌尖中國.txt', 'a', encoding='utf-8') as f: # 模式現在a 表示在原資料的前提上進行追加

f.write(one_short + '\n')        

time.sleep(random.randint(6,10))

except exception as e:

print(e)

break

# 自定義停用詞,因為jieba自帶的停用詞都是英文本元

stop_word = [',', '的', '說實話', '看了第一集', '舌尖上的中國']

# 詞雲圖分析,增加背景

with open('./豆瓣舌尖中國.txt', 'r', encoding='utf-8') as f:

txt = f.read()

# 結巴分詞

new_txt = jieba.lcut(txt)

new_txt = ''.join(new_txt)

# 設定背景

plt.axis('off')  # 不顯示座標尺寸

從《舌尖上的中國》到「品味SEO

最近 舌尖上的中國 一下子火了,帶動了不少吃貨的慾望,也一下出現了各種各樣 舌尖上的 連 也出了乙個 舌尖上的 專題。今天筆者也落一會俗套,講講舌尖上的seo。一 自然的饋贈。自然饋贈於我們seo的就是搜尋引擎,我們完全是依靠搜尋引擎存活的。我們可以利用搜尋引擎這個平台進行有www.cppcns.c...

舌尖上的SD WAN

從 烽火戲諸侯 的聲光通訊,到tcp ip協議一統江湖的internet,人類的資訊交流在一代代人智慧型的推動下,變得更加高效 快捷。其中,已到不惑之年的網路,經歷了成長時的披荊斬棘,正走向神秘而多變的明天,網路熱門方向sd wan首當其衝。調查機構idc近期發布了2018年全球sd wan市場報告...

舌尖上的燕園

作為全世界享有一定盛譽的美食家,eden 決定對燕園的美食進行一次全面的鑑賞,並記錄在這篇隨筆中 2022.02.20 這是個由 0 和 2 構成的週期為 3 的字串!要素察覺 今天來鑑賞的是肉夾饃,其視窗位於農園二層。肉夾饃的餡主要是豬肉,配以秘製的醬汁和高湯,實在是美味,酸味和鹹味完美地融合在一...