python爬蟲舌尖上的中國

#匯入模組

import re

import os

import time

import random

import requests

import pandas as pd

import jieba

from wordcloud import wordcloud

from wordcloud import stopwords # 停用詞

import matplotlib.pyplot as plt

%matplotlib inline

# 正規表示式，爬取後頁的關鍵字

patt2 = re.compile('.*?start=(\d+).*?class="next">後頁 >')

start = re.findall(patt2,html)[0] # 這裡注意返回的是乙個列表，findall匹配的是乙個列表，雖然每次都是乙個！！這裡通過索引取數

if response.status_code == 200 :

print('正在爬取start為%s 的資料'%start)

for one_short in short:

with open(r'./豆瓣舌尖中國.txt', 'a', encoding='utf-8') as f: # 模式現在a 表示在原資料的前提上進行追加

f.write(one_short + '\n')

time.sleep(random.randint(6,10))

except exception as e:

print(e)

break

# 自定義停用詞,因為jieba自帶的停用詞都是英文本元

stop_word = [',', '的', '說實話', '看了第一集', '舌尖上的中國']

# 詞雲圖分析，增加背景

with open('./豆瓣舌尖中國.txt', 'r', encoding='utf-8') as f:

txt = f.read()

# 結巴分詞

new_txt = jieba.lcut(txt)

new_txt = ''.join(new_txt)

# 設定背景

plt.axis('off') # 不顯示座標尺寸

從《舌尖上的中國》到「品味SEO

最近舌尖上的中國一下子火了，帶動了不少吃貨的慾望，也一下出現了各種各樣舌尖上的連也出了乙個舌尖上的專題。今天筆者也落一會俗套，講講舌尖上的seo。一自然的饋贈。自然饋贈於我們seo的就是搜尋引擎，我們完全是依靠搜尋引擎存活的。我們可以利用搜尋引擎這個平台進行有www.cppcns.c...

舌尖上的SD WAN

從烽火戲諸侯的聲光通訊，到tcp ip協議一統江湖的internet，人類的資訊交流在一代代人智慧型的推動下，變得更加高效快捷。其中，已到不惑之年的網路，經歷了成長時的披荊斬棘，正走向神秘而多變的明天，網路熱門方向sd wan首當其衝。調查機構idc近期發布了2018年全球sd wan市場報告...

舌尖上的燕園

作為全世界享有一定盛譽的美食家，eden 決定對燕園的美食進行一次全面的鑑賞，並記錄在這篇隨筆中 2022.02.20 這是個由 0 和 2 構成的週期為 3 的字串！要素察覺今天來鑑賞的是肉夾饃，其視窗位於農園二層。肉夾饃的餡主要是豬肉，配以秘製的醬汁和高湯，實在是美味，酸味和鹹味完美地融合在一...

python爬蟲 舌尖上的中國

從《舌尖上的中國》到「品味SEO

舌尖上的SD WAN

舌尖上的燕園

相關推薦

python爬蟲舌尖上的中國