Web風行者的設計方案與計畫

2021-09-05 14:36:55 字數 616 閱讀 3516

去年(2023年)花了數月的時間寫了乙個web spider。主要集中於功能實現,執行緒模型,任務自動化,資料攫取方面。在兩個月的執行測試中,改正了不少的bug。當時給這個程式起的名字叫"龍龍"(俺是獸族的嘛).龍龍的缺點是完全定製性的控制台程式,對不同的網頁必須進行硬編碼解析。於是想開發"龍龍2.0",加入規則系統和ui介面。前一陣比較忙,就停下了"龍龍"的開發。現在開始接續龍龍2.0,並為龍龍2.0起乙個正式的名字:「web風行者」。

「web風行者」目標是開發乙個易用的,可配置規則,可除錯規則的html web資料探勘系統。規則部分原則上採用xquery/xpath/xslt近似的語法,但可能擴充套件這些語法,使其能夠在更細粒度,能夠整合文字挖掘,甚至在語義層面進行挖掘。

「web風行者」主要考慮易用性和實用性。先將網頁解析成xhtml格式,在根據規則從xhtml檔案中解析出資料,進行持久化。其結構圖初步設想如下:

web風行者不開源,計畫開發免費版,商用版和web服務版三種版本。推出時間不定。反正本獸一直不閒著,一有時間就開發。

注:本來想用c#寫的,但是.net這邊沒找到可用的開源xquery實現。

iOS中一種網路層與業務層的設計方案

提起ios架構,免不了要談到現在很火的mvvm和mvcs,但萬變不離其宗,這兩個概念其實也都基於mvc,它們的主要思想簡而言之就是mvc中的c controller裡面的 太多,在專案不斷新增功能逐漸變大時,不利於開發也不利於維護.xbbusinessmanager 戳這裡 僅僅舉例個人入行兩年來所...

關於工作流引擎取回審批的設計方案與實現過程

關於工作流引擎取回審批的設計方案與實現過程 需求背景 0,本文中盡量避免審批概念,因為在我們認為沒有審批節點或者審核節點,任何節點都是資料採集.1,取回處理,也可以稱呼為提前處理,是對於擁有絕對審批許可權的人,為了工作的需要直接的從下屬工作人員中取回工作而直接處理。2,這種做法是違反規範的,但是在一...

乙個最小的物聯網系統設計方案及原始碼 與伺服器通訊

這裡寫的資料通訊指的是兩部分,一部分是與伺服器,一部分是與微控制器。這樣設計的另外乙個原因是,更好的分層,能讓我們更好的理解這個系統。負責這個功能的這裡用的是raspberry pi,或者是你的pc兩者都可以,我想你也看到了之前的 那麼先讓我們看看與伺服器通訊的這部分。示例中的 是這樣子的,如果你沒...