Python資料分析之貼吧的問與答

2021-09-11 16:53:58 字數 1448 閱讀 8273

上次爬蟲小分隊爬取了貼吧中python問題的精品回答,我自己也用scrapy寫了乙個程式,爬取了一點資訊,存入mongodb資料庫中,**就不上了,今天主要是通過pandas庫讀取資料,做問與答的文字雲。

pandas庫讀取檔案很方便,主要是運用dataframe,首先匯入需要的模組;

import pandas as pd

import pymongo

import jieba.analyse

然後連線資料庫,讀取資料;

我們知道分詞需要的是字串格式的資料,所以需要通過dataframe的切片提取question這列的資料,並轉化為字串格式。

question_data = ''  #初始化字串

for i in range(563): #數字為資料的行數

index = data.ix[i,:] #取每行

question = index['question'] #取每行的question

這部分以前講過,貼上**。

jieba.analyse.set_stop_words('停用詞表路徑')

類似,也可以做出回答的詞云。

問:

答:

網易資料分析資訊搜尋貼

1 工具 主要使用什麼分析工具 會很細 臨場出題 2資料分析專案 用的什麼分析方法 達到什麼效果 目標,過程,價值 3 分析方法 具體看什麼指標,從哪些維度去資料分析 4 資料體系 定位 發展規劃 網易杭研公共技術資料分析崗 一面 1 1個小時左右,主要問了專案以及實習的情況 各種具體細節,對於專案...

Python之資料分析(寶可夢資料分析)

在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...

python資料分析之Numpy

numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...