機器學習實戰2 時光網評論分析

2022-08-11 23:45:18 字數 2940 閱讀 3624

#

coding: utf-8

#in[74]:

import

sys

reload(sys)

sys.setdefaultencoding(

'utf8')

import

graphlab

import

datetime

#in[75]:

graphlab.set_runtime_config(

'graphlab_default_num_pylambda_workers

', 4)

#in[76]:

products = graphlab.sframe.read_csv('

data/commit.csv')

#in[77]:

products.head()

#in[78]:

#products['

word_count

'] = graphlab.text_analytics.count_words(products['

commits'])

#in[79]:

products.head()

#in[80]:

graphlab.canvas.set_target(

'browser')

#in[81]:

products[

'movie_name_zh

'].show()

#in[82]:

#獲取戰狼2的點評

giraffe_reviews = products[products['

movie_name_zh

'] == '

戰狼2']#

in[83]:

len(giraffe_reviews)

#點評數量

#in[84]:

giraffe_reviews[

'userscore

'].show(view='

categorical

') #

檢視分類性質的評分分布

#發現戰狼2打7分的人最多

#in[88]:

#products = products[products['

userscore

'] != '

none']

products[

'userscore']

products[

'userscore

'] = products['

userscore

'].astype(float)

products = products[products['

userscore

'] != 5]

#in[89]:

#篩選正面評價

products['

sentiment

'] = products['

userscore

'] >=6.0

#in[90]:

products.head()

#in[91]:

#區分訓練集和測試集,並限定seed

train_data,test_data = products.random_split(.8, seed=0)

#in[92]:

#建立邏輯回歸分類器

sentiment_model =graphlab.logistic_classifier.create(train_data,

target='

sentiment',

features=['

word_count'],

validation_set=test_data)

#in[93]:

#評估情感分析模型.roc(受試者工作特徵曲線)

sentiment_model.evaluate(test_data, metric='

roc_curve')

#in[94]:

#視覺化評估結果

sentiment_model.show(view='

evaluation')

#in[95]:

#新增新的一列,predicted_sentiment(情感**),結果概率**

giraffe_reviews['

predicted_sentiment

'] = sentiment_model.predict(giraffe_reviews, output_type='

probability')

#in[96]:

giraffe_reviews.head()

#in[97]:

#排序,ascending決定是否公升序

giraffe_reviews = giraffe_reviews.sort('

predicted_sentiment

', ascending=false)

#in[98]:

giraffe_reviews.head()

#in[110]:

giraffe_reviews[0]

#in[112]:

giraffe_reviews[2]

#in[113]:

giraffe_reviews[-1]

#in[114]:

giraffe_reviews[-2]

#in[117]:

giraffe_reviews = giraffe_reviews[giraffe_reviews['

userscore

'] == '

none']

#in[119]:

giraffe_reviews.tail()

#in[ ]:

**位址(附作業答案): 

第2課時 初識機器學習

學科 人工智慧 年級 四年級上 課題 第2課時 初識機器學習 課時數 1 教材分析 在掌握人工智慧的概念,了解人工智慧在當前各領域 各方面的應用及人工智慧的作用,了解人工智慧發展的歷史的基礎上,本課通過讓學生體驗人工智語音助手回答問題 人工智慧識別植物的體驗,引發學生思考人工智慧是如何能得出問題的答...

機器學習演算法 2 K近鄰演算法實戰

前言 這篇是 部分,不會涉及原理部分的闡述,但整個程式的實現會分為2種,一種是純手工 不用調庫,第二種方法是會借用sklearn的庫來實現。這裡使用的k近鄰案例是我們比較熟悉的手寫數值的識別,其中我會把訓練資料 測試資料 程式放在乙個同一檔案下。from numpy import from os i...

機器學習(2) 回歸演算法 回歸分析

在統計學中,回歸分析 regression analysis 指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。回歸分析按照涉及的變數的多少,分為一元回歸和多元回歸分析 按照因變數的多少,可分為 簡單回歸 分析和多重回歸分析 按照 自變數和 因變數之間的關係型別,可分為 線性回歸 ...