K means 無監督NLP文字聚類

2021-08-27 18:28:08 字數 874 閱讀 3385

用kmeans對有標註少量文字做了個無監督分類,效果一般般。原因可能是

1.停用詞不全面

2.kmeans等分類器對於 高緯度向量 分類能力交叉,可以考慮降維再分類

3.部分詞頻在多個型別的文字中重複高頻出現

# -*- coding: utf-8 -*-

"""created on wed sep 5 13:23:31 2018

@author: lenovo

"""import jieba as jb

import numpy as np

import lightgbm as lgb

import pandas as pd

from gensim.models.doc2vec import doc2vec, taggeddocument

from sklearn import feature_extraction

from sklearn.feature_extraction.text import tfidftransformer

from gensim import corpora,models

from sklearn.feature_extraction.text import countvectorizer

from sklearn.feature_extraction.text import tfidfvectorizer

from gensim.similarities.docsim import similarity

from sk

機器學習 無監督聚類K means

參考 聚類屬於無監督學習,以往的回歸 樸素貝葉斯 svm等都是有類別標籤y的,也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y,只有特徵x,比如假設宇宙中的星星可以表示成三維空間中的點集 優點 原理簡單 速度快 對大資料集有比較好的伸縮性 缺點 需要指定聚類數量k 對異常值敏感 對初始...

無監督學習 K Means聚類

無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...

無監督學習 K means聚類

先用圖來描述k means怎麼做的 對於如下資料 如果你想分成2類 k 2 演算法會隨機生成兩個聚類中心 然後會分別計算每個資料 綠點 與聚類中心的距離 一般是歐式距離 來決定屬於哪個類 距離哪個聚類中心近 這樣,就得到了資料的第一次分類,接下來演算法會計算已分類的資料的 中心 將它們作為新的聚類中...