影評情感分類(基於IMDB資料集)

2021-09-27 22:26:19 字數 1006 閱讀 6807

回顧以前的筆記

在keras中,內建了imdb電影評分資料集,來進行評價**

安裝keras

conda install keras
conda就幫依賴全部搞定,記得加源

匯入imdb

from keras.datasets import imdb
資料集簡要說明

在資料中不是單詞,而是單詞的索引

一共就5萬句子

import keras

from keras import layers

import matplotlib.pyplot as plt

%matplotlib inline

data = keras.datasets.imdb

max_word = 10000

# 載入前10000個單詞 最大不超過10000

(x_train, y_train), (x_test, y_test) = data.load_data(num_words=max_word)

檢視資料

x_train.shape, y_train.shape

out:

((25000,), (25000,))

x_train[0]

y_train[0]

out:

輸出的是

詞彙的index

輸出的是

array([1, 0, 0, ..., 0, 1, 0], dtype=int64)

1 代表 正面評價 0 代表負面怕評價

載入index和詞彙的對應關係

#載入詞彙

word_index = data.get_word_index()

#將index和value 互換

index_word = dict((value, key) for key

基於Keras的imdb資料集電影評論情感二分類

載入資料集 from keras.datasets import imdb train data,train labels test data,test labels imdb.load data num words 10000 train data 0 1,14,22,16,178,32 trai...

基於Keras的imdb資料集的情感二分類

簡單的 後注上解析 from keras.preprocessing import sequence from keras.models import sequential from keras.layers import dense,embedding from keras.layers impo...

IMDB資料集的解釋

目的 了解keras上的imdb資料集是怎麼一回事。前文主要是我的理解,官方解釋在後文,覺得官方解析得不夠到位。比如 embedding max features 20000 maxlen 100 embedding size 128 x train,y train x test,y test im...