貝葉斯(Kaggle比賽之影評與觀影者情感判定)

2021-07-30 07:10:21 字數 1341 閱讀 6376

本文參考部落格而來

「` import re #正規表示式

from bs4 import beautifulsoup #html標籤處理

import pandas as pd

########資料匯入

train = pd.read_csv(『f: learning//tensorflow//bynet//bags_of_popcorn//kaggle//labeledtraindata header=0, delimiter=」\t」, quoting=3)

test = pd.read_csv(『f: learning//tensorflow//bynet//bags_of_popcorn//kaggle//testdata header=0, delimiter=」\t」, quoting=3 )

y_train = train[『sentiment』]

特徵處理

from sklearn.feature_extraction.text import tfidfvectorizer as tfiv

tfv = tfiv(min_df=3, max_features=none, strip_accents=』unicode』, analyzer=』word』,token_pattern=r』\w』, ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1, stop_words = 『english』)

x_all = train_data + test_data

len_train = len(train_data)

tfv.fit(x_all)

x_all = tfv.transform(x_all)

x = x_all[:len_train]

x_test = x_all[len_train:]

##########################建模

from sklearn.*****_bayes import multinomialnb as mnb

model_nb = mnb()

model_nb.fit(x, y_train) #特徵資料直接灌進來

mnb(alpha=1.0, class_prior=none, fit_prior=true)

from sklearn.cross_validation import cross_val_score

import numpy as np

print(「多項式貝葉斯分類器20折交叉驗證得分: 「, np.mean(cross_val_score(model_nb, x, y_train, cv=20, scoring=』roc_auc』)))

貝葉斯方法及電影評價例項

kaggle imdb影評者情感褒貶分類問題,kaggle位址為 原文使用的方法是word2vec將詞語轉為詞向量,再用deep learning方式處理,我們這裡使用tf idf作為特徵,用最簡單的樸素貝葉斯和邏輯回歸嘗試 import re 正規表示式 from bs4 import beaut...

《貝葉斯方法 概率程式設計與貝葉斯推斷》 1 8答案

1 計算後驗的均值 即後驗的期望值 我們只需要用到樣本和a.mean函式。print lambda 1 samples.mean print lambda 2 samples.mean 2 給定兩個數a 和 b,相對增長可以由 a b b給出。在我們的例項中,我們並不能確定 1和 2的值是多少。通過...

《貝葉斯方法 概率程式設計與貝葉斯推斷》一導讀

貝葉斯方法 概率程式設計與貝葉斯推斷 貝葉斯方法是一種常用的推斷方法,然而對讀者來說它通常隱藏在乏味的數學分析章節背後。關於貝葉斯推斷的書通常包含兩到三章關於概率論的內容,然後才會闡述什麼是貝葉斯推斷。不幸的是,由於大多數貝葉斯模型在數學上難以處理,這些書只會為讀者展示簡單 人造的例子。這會導致貝葉...