垂直搜尋平台初步構想

2021-08-30 09:18:11 字數 833 閱讀 1317

* 採用http1.1協議,支援https等常用協議。

* 編碼問題: 支援自動識別,遇到得不到編碼的網頁採用分析網頁的方式判斷編碼。

* 動態資料: 要支援登入驗證,以及支援cookie,要能理解簡單的js等。

* url去重:基於md5壓縮對映儲存,儲存庫使用berkeley db,將壓縮後的的url存入key中,布林值作為value

2.資料處理模組

* 初步處理: 遍歷dom樹,先去除 (主要針對傳統網頁)導航、js、廣告、沒有文字的空白塊等會對抽取結果的準確性產生干擾的資訊。

* 標題抽取: 遍歷dom樹,標題一般包含在strong、h1、title等標籤中,抽取這些節點資訊並做分詞 處理,分的詞在正文中出現次數最多的那條文字一般就是標題。

* 正文抽取:判斷正文區域,也許在p,div等節點中,遍歷這些節點計算其中內容長度,文字連續越長後面的文字得分越高... ...(辦法很多,有待深入)。

3. 索引和分詞模組

* 索引和分詞: 可提高檢索精確度和速度,將處理好的資料進行分詞、索引採用增量索引(準備封裝開源元件)。

4. 資料儲存模組

* 關係型資料庫?檔案系統?

5. 分布式

* 有分布式的的功能,包括採集、資料處理等,能夠快速根據需要部署成分布式的應用來應對高併發需求(這個最後實現,先考慮進去)

6. 系統後台管理模組

* 系統管理平台: 靈活可定製組合各個模組執行,對系統的各項引數可以自由配置。

資料處理預設為自動抽取正文,可針對一些網頁寫模板進行處理(比如動態網頁)。

以上只是乙個粗略的構想,需要乙個乙個去完善,如果您是這方面的高手請指教!

團隊專案 初步構想

團隊專案 初步構想 主要分為四個部分 首頁 車 訊息 我的 首頁 分為三大功能部分,垃圾分類 二手和市場 垃圾分類 分為紙質品 塑料 金屬 玻璃 電器等 二手 使用者與使用者之間直接交易 市場 使用者與負責廠商交易 車 類似於 購物車,功能相似 訊息 使用者與使用者私密交流和公開交流 我的 使用者登...

搜尋引擎平台化的構想

ios和android系統給軟體行業提供了乙個非常好的範例。由大公司提供平台,由海量的自由開發者提供與使用者體驗直接相關的應用。這裡面乙個重要的啟發是,作業系統平台的需求,比如 ios,windows,實際上是比較封閉的,是可以由大公司滿足的。而與終端使用者相關的需求,通常是無窮無盡的,由單一的大公...

人工智慧(三 三維初步構想)

早期的數學不再說明了。只大體上說一些有用的吧。由於本人大學時數學學習不好,現在畢業被生活所累,再學習的幾會也不多。所以難免有很多東西說不到。有興趣的朋友自己去學習吧。說到三維,當然少不了x,y,z軸了,這三個軸把整個空間分為八個象限。對於空間中的乙個點,我們直接用複數形式表示,z xi yj zk....