爬取微博客戶端使用者評論

2021-10-11 12:06:05 字數 1722 閱讀 6637

'''

# -*- coding:utf-8 -*-

@filename: weibo_comment.py

@date : 2018/12/5 13:01

@author : 風夏

@hobby : mi mi 貓

'''import requests

import json

import time

import emoji #pip install emoji

import schedule #pip install schedule

import re

def task():

# with open('comment.txt', 'r') as f:

# file = f.read()

for i in range(1, 3): #微博客戶端**目前只能爬取16頁資料

print('********************第頁********************'.format(i))

header =

if i == 1:

url = ''

else:

url = ''.format(max_id)

cookie =

response = requests.get(url, headers=header, cookies=cookie)

text = json.loads(response.text)['data']

max_id = text['max_id']

comments = text['data']

for j in comments:

comment = emoji.demojize(comment)#去除表情

comment = re.sub(":\s+?:"," ",comment)

# name = emoji.demojize(name)

# name = re.sub(":\s+?:"," ",name)

print(name, created_at, comment)

with open("comment.txt", "a",encoding='utf-8') as f:

f.write(name + " " + created_at + " " + comment + "\n")

# if comment in file:

# pass

# else:

# try:

# with open("1.txt", "a") as f:

# f.write(name + " " + created_at + " " + comment + "\n")

# except:

# pass

time.sleep(2) #防止爬得太快被反爬,進行睡眠2s

# schedule.every(30).minutes.do(job) #定時任務,每隔30分鐘呼叫一次job函式

schedule.every(20).seconds.do(task) #定時任務,每隔20秒呼叫一次job函式

# task()

while true:

# time.sleep(1)

schedule.run_pending()

爬取部落格評論

通過抓包獲取資料 還要找到真實的 url 位址 多數在 networt xhr 中 import requests import json link headers r requests.get link,headers headers print 頁面狀態響應碼 r.status code 此時已...

客戶端爬取 答網友問

客戶端爬取 發布之後,有鮮花也有質疑,也有很多愛智求真 善於思考的同學在點讚之餘,提出了一些有價值或者覺得有必要一答的問題,包括技術層面和道德層面,本文就主要問題作出解答。爬蟲技術 一 一篇文章了解爬蟲技術現狀 爬蟲技術 二 客戶端爬蟲 爬蟲技術 三 客戶端爬取 問題二 客戶端爬蟲應用在什麼場景 需...

android oauth 微博客戶端 架構一

ui層微博中的各個窗體 就是所謂的各個activity logic層 程式的核心控制排程模組,獲取ui傳遞的資料 要執行的任務,呼叫微博介面,獲得網路資料,返回訊息,重新整理 切換 ui 相當於mvc中的control,處理相應的業務邏輯.資料庫操作 以上都是mvc中的model,即使相應資料操作。...