基於短文本的推薦

2021-09-11 05:17:52 字數 620 閱讀 5236

很多時候系統只會推送那些大v發布的微博,而對於新人發布的優質內容就會忽略。那麼如何避免這一問題呢?首先要做的就是發現優質內容的微博。

(1)基本屬性

一般指使用者側的基本屬性,如年齡、性別等。由於資料中無相關資訊,於是無需進行分析。

(2)使用者-博文交叉特徵(統計特徵)

1)過去乙個月:

-發布博文總數

2)過去一周:

-發布博文總數

(1)基本屬性

-是星期幾

-是否週末

-是否是節假日

-發文時間段(分24個時間段)

(2)統計特徵

過去一周每個時間段的:

-發布博文總數

注:由於**的資料集中存在沒有使用者統計特徵的資料,為了提高模型的泛化性,最後新增一維特徵為

-是否有使用者統計特徵(過去三個月是否發過微博)

實驗結果是大大改進模型的精度,於是如何細化到每人每詞的統計特徵,但是這樣會使得特徵十分稀疏,於是把詞的粒度放粗,對微博進行聚類,得到每人每類簇的統計特徵,從而大大提高模型的效果。

使用者-類別的互動特徵

(1)利用訓練集訓練詞向量;

(2)使用詞向量對微博進行聚類;

(3)計算每人每類簇的統計特徵;

基於simhash的短文本去重

usr bin env python coding utf 8 利用simhash進行文字去重 from simhash import simhash,simhashindex import jieba import codecs import datetime import os class du...

基於ML的中文短文本聚類

整個過程分為以下幾個步驟 一 引入,python 依賴包,並載入語料 import random import jieba import pandas as pd import numpy as np from sklearn.feature extraction.text import tfidf...

標籤,短文本引用

想在你的html中加一段引用嗎?比如在你的網頁的文章裡想引用某個作家的一句詩,這樣會使你的文章更加出彩,那麼標籤是你所需要的。語法 引用文字 如下面例子 最初知道莊子,是從一首詩莊生曉夢迷蝴蝶。望帝春心託杜鵑。開始的。雖然當時不知道是什麼意思,只是覺得詩句挺特別。後來才明白這個典故出自是莊子的 逍遙...