抓取大眾點評評論

2021-09-13 09:54:25 字數 2106 閱讀 4010

獲取每個字代表的偏移量

def get_font_dict():

"""獲取每個字代表的偏移量

:return:

"""url = ''

url = ''

r = requests.get(url, headers=headers)

font_list = re.findall('.*?', r.text)

font_dict = {}

for font in font_list:

# print(font)

class_font = font.split('{')[0].replace('.', '')

pianyi_list = re.findall('\d+', font.split('{')[1])

num_list = [int(x) for x in pianyi_list if int(x) != 0]

if len(num_list) == 1:

num_list.insert(0, 0)

font_dict[class_font] = num_list

# print(font_dict)

return font_dict

獲取每一行的文字

def get_font_place():

"""獲取每一行對應的文字

:return:

"""# url = ''

url = ''

place_list =

id_dict =

r = requests.get(url, headers)

# print(r.text)

soup = beautifulsoup(r.text, 'html.parser')

# print(soup)

text_list = soup.find_all('text')

# text_list = soup.find_all('textpath')

# id_list = soup.find_all('path')

# print(len(text_list))

for i in range(len(text_list)):

# x = text_list[i]['textlength']

# # st = text_list[i].text

# # # print(id_list[i])

# # y = id_list[i]['d'].split()[1]

# # # print(y, st)

y = text_list[i]['y']

text = text_list[i].text

# print(place_list)

return place_list

獲取相應的位置對應的真實文字

def get_ture_font(place):

""":param place:

:return:

"""num = 0

for i in font_place:

for k in i:

if int(k) > place[1]:

# print(i)

num = 1

st = i[k]

# st = i[k][1]

# leng = i[k][0]

if num:

break

# st_num = int((int(leng) - place[0]) / 14)

st_num = int(place[0]) / 14

# print(st_num)

# true_font = st[len(st) - st_num]

true_font = st[int(st_num)]

# print(true_font)

return true_font

大眾點評的反爬比較嚴重,對ip、賬號的實行限制,對字型也進行反爬,而且字型反爬的鏈結、規則也會變化,是個進行爬蟲技能檢閱的不錯的**。下面是詳細的**:詳細**位址

大眾點評評論抓取 CSS加密破解

這裡我們看到了jazj3i這個變數對應的兩個畫素值 163.0px,89.0px 這很重要,先記下來。在這裡我們看到了乙個鏈結。url 你會發現,返回的是一些數字。現在直接看源 可以看到這裡面的幾個關鍵數字 font size 字型大小 還有y的值,y是個閾值,起的是個控制的作用。jazj3i這個變...

大眾點評面試

今天早上去大眾點評面試,面試官問了乙個關於演算法的題目,當時腦袋短路,沒有回答出來,在地鐵上想了想,現在把答案發出來。題目大意是這樣的 實現乙個先進後出的佇列,要求能返回最大值,不能用迴圈。public class mystack public void push int a int array n...

基於Python爬蟲的大眾點評商家評論的文字挖掘

使用工具 程式語言工具 python 2.7 r 2 2.1 excel 瀏覽器 google chrome 資料庫 mongodb 情感分析 sentiment analysis 又被稱為傾向性分析 意見挖掘,是通過對帶有一定的情感色彩的主觀性文字進行處理分析,歸納推理的過程,例如通過使用者對產品...