textblob 自己訓練模型

2021-09-23 17:41:37 字數 966 閱讀 5301

textblob 實際上是封裝了以下nltk,幾乎所有方法都是呼叫的nltk庫。

#coding=utf-8

import random, nltk

from nltk.corpus import names

from textblob.classifiers import nltkclassifier

from textblob import textblob

def gender_features(word):

'''''提取每個單詞的最後乙個字母作為特徵'''

return

# 先為原始資料打好標籤

labeled_names = (

[(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])

# 隨機打亂打好標籤的資料集的順序,

random.shuffle(labeled_names)

# 從原始資料中提取特徵(名字的最後乙個字母, 參見gender_features的實現)

featuresets = [(gender_features(name), gender) for (name, gender) in labeled_names]

# 將特徵集劃分成訓練集和測試集

train_set, test_set = featuresets[500:], featuresets[:500]

classif=nltkclassifier(train_set)

classif.nltk_class=nltk.*****bayesclassifier;

blob = textblob("man",classifier=classif)

print blob.classify()

新增自己的訓練政策模型

pydial的主要目標便是提供乙個通用的語言統計對話模型,開發者可以方便的向其中新增整合和測試自己的模型.pydial位主要模組都設計了明確定義的通用介面,為了了解這個,我們首先來看一下pydial的整體框架.如上所示,多域功能的對話模型主要使用主題 來進行實現,主題 來識別使用者輸入的主題,可以保...

訓練自己的物體檢測模型

資料集 一般有兩個 使用labelimg自己標註,或者使用網上開源的資料集。本文使用的是開源的voc 2007,總共有20個分類。資料集包括5001張,以及對應的.xml檔案,分別存放在image和annotation資料夾中。本文通過.csv檔案生成.record檔案,如果習慣直接使用.xml檔案...

VGG16模型訓練自己資料集

vgg是由simonyan 和zisserman在文獻 very deep convolutional networks for large scale image recognition 中提出卷積神經網路模型,其名稱 於作者所在的牛津大學視覺幾何組 visual geometry group 的...