基於lucene的微博內容檢索及觀點分析

2021-06-09 01:03:55 字數 327 閱讀 8402

1、呼叫微博api獲得微博,將每乙個微博轉化成lucene的乙個document(類似於資料庫的乙個記錄,或者搜尋引擎中的乙個網頁);

2.1 token的實現,這裡採用中文分詞器mmseg4j,好處是支援使用者定義的詞典,對於垂直分析領域,使用特定的分詞庫很有必要;

2.2 將document寫入磁碟index。

3、建立indexsearch,對於使用者給定的關注事件(或者乙個查詢),進行微博的查詢;(記錄每個微博被查詢命中的次數,寫入document的具體field中,也可以作為以後微博相關度排序的引數)

4.1 展示正反方評分;

4.2 將正方方微博分類展示。

爬取微博指定使用者的微博內容

使用python3爬取微博指定使用者的內容 import urllib.request import json 定義要爬取的微博大v的微博id id 5866810652 設定 ip proxy addr 192.168.1.101 定義頁面開啟函式 獲取微博主頁的containerid,爬取微博內...

python微博內容提取

import requests import re import json from bs4 import beautifulsoup 微博要用cookies登入 乙個知識點 有script裡的內容用正則取出再處理 headers cookies處理格式 url res requests.get u...

基於Redis的微博的註冊

基於redis的微博的註冊 redis在網際網路公司中是必選的技術,因為網際網路公司的系統天生就是高併發特徵。但是能把redis運用的最好的就屬微博了。正因為redis的廣泛應用,使得微博能夠快速支撐日活躍使用者超2億,每日訪問量百億級,歷史資料高達千億級。微博線上規模,100t 儲存,1000 臺...