利用python對亞馬遜智慧型產品評論進行分析

2021-10-05 22:45:50 字數 2820 閱讀 4670

1.資料**2.分析指標1.選取指標

為了方便分析,對指標進行了重新命名:

df=pd.read_csv(

"amazon_review.csv"

)df=df[

['id'

,'asins'

,'reviews.date'

,'reviews.dorecommend'

,'reviews.numhelpful'

,'reviews.rating'

,'reviews.text'

,'reviews.title']]

columns=

df.rename(columns=columns,inplace=

true

)df.info(

)

然後看下資料的一些基本資訊:

2.重複值處理

df.duplicated().

sum(

)

看出該資料沒有重複值,可以不進行處理

3.缺失值處理

df=df.dropna(subset=

['產品編號',,

,,'評分'

],how=

'any'

)

df.fillna(

,inplace=

true

)

4.資料型別轉換將時間轉為datetime

df[

]=df[

].astype(

str)

.str[:

10]df

=pd.to_datetime(df)

df.info(

)

處理後的資料還剩下34590條

5.重新索引

對時間進行排序,方便後續分析

1.智慧型產品整體分析1.2 整體滿意度

可以看出大部分使用者都評了4分,5分,在這裡把4,5分作為好評,1-3分作為差評。

此時好評率高達93%以上,說明使用者對亞馬遜智慧型產品整體是非常滿意的。

差評詞云:

在差評詞雲中,對質量的爭議也是最多的,特別是執行效率這塊最為關注。

2.top5智慧型產品分析3.潛力產品分析

3.1 按幫助性分數進行分析

在原df新增兩列,將幫助性分數拆開為好評幫助性分數和差評幫助性分數

df[

'好評幫助性分數']=

[df.loc[i,

'幫助性分數'

]if df.loc[i,

'好-差評']==

'好評'

else

0for i in

range

(len

(df))]

df['差評幫助性分數']=

[df.loc[i,

'幫助性分數'

]if df.loc[i,

'好-差評']==

'差評'

else

0for i in

range

(len

(df)

)]

3.2 綜合分析

以下**為按照好評率大小進行排序並展示產品各個指標的排名:

(好評幫助性分數比例=好評幫助性分數/(好評幫助性分數+差評幫助性分數),即好評幫助性分數佔總的幫助性分數中的比例)

綜合考慮好評幫助性分數比例排名、好評幫助性分數排名以及好評率,產品b00ioyam4i,b00ioy8xwq,b01ahb9cyg需進一步挖掘,考慮加大推廣力度;

特別是產品b00ioyam4i,好評高達百分之百,且好評幫助性分數也不低,降低了刷評的可能性,建議大力推廣該產品。

6.非top5產品中,產品b00ioyam4i,b00ioy8xwq,b01ahb9cyg需進一步挖掘,考慮加大推廣力度;特別是產品b00ioyam4i,好評高達百分之百,建議大力推廣該產品。

利用python對巨量資料排序

我們有乙份100g左右的資料需要根據關鍵字進行排序,當時想的是直接從資料庫select出來的時候直接order by,但是爆記憶體了,於是考慮匯出後直接利用python進行排序。直接利用切割排序,再合併的方式,將100g檔案分為40個2.5g的資料檔案,分別排序後再歸併,思想和leetcode合併n...

利用python對csv檔案進行分割

有個任務,就是將乙個大的csv分割為幾個小的csv,當然是的包含表頭的。於是,我想到了類似於,用雙指標來做。import csv import os path users mac desktop 186 3.csv with open path,r newline as file csvreader...

利用python實現對系統的監控

1.獲取當前主機資訊,包含作業系統名,主機名,核心版本,硬體架構等 2.獲取開機時間和開機時長 3.獲取當前登陸使用者import os import psutil from datetime import datetime print 主機資訊 center 50,info os.uname pr...