人肉搜尋引擎

2021-04-13 13:59:57 字數 1873 閱讀 8596

針對搜尋引擎的link farm和spam也許永遠不會停止,因為他們能夠從他們的作惡中得到利益。我們知道得到利益不是作惡的唯一原因,然而大規模的工業化的作惡唯一的原因當然是那樣可以得到利益。

所以,這是一場永遠無法結束的戰爭,只要搜尋引擎還是應用最廣泛的一種網際網路應用,只要搜尋引擎還是使用者使用者找到合適服務的最主要手段,這就是一場永遠無法結束的戰爭。很多人把問題歸結於pagerank技術,歷史是何其相似啊,當年人們也是這樣地抱怨meta關鍵字和描述技術。也許google或者其他的公司能夠研究出來更加偉大的技術(註一)來取代pagerank,但是誰知道這新的技術什麼時候又會變成明日黃花。

很多人知道的中國有乙個叫做貓撲的論壇,人氣非常旺。tiny在2023年到2023年期間是這個論壇的忠實使用者。在我的印象中,人肉搜尋引擎的概念應該出自於貓撲。

跟很多論壇一樣,貓撲上面也經常有人問這個問題那個問題。同時貓撲有種虛擬貨幣叫做mp,問問題的人往往會用mp來獎勵可以幫助他們的人。雖然mp不能吃不能喝,但是還是很多人醉心於掙取更多的mp(註二)。那些慣於通過回答問題掙取mp的人在貓撲一般叫做賞金獵人。

於是很有趣味的一幕出現了,某人需要解決乙個問題,就在貓撲發貼並許與一定數量的mp作為酬謝。很快,就會有賞金獵人看到這個貼子,他們就會去用搜尋引擎來尋找問題的答案,然後爭先恐後地把找到的答案回在帖子裡面邀功。最後,提問題的人得到了答案,賞金獵人得到了mp,皆大歡喜。這也就形成了所謂的人肉搜尋引擎的機制。有趣的是,我們可以發現人肉搜尋引擎的搜尋流程和搜尋引擎在不同伺服器之間的分布式搜尋流程看起來是那麼的相似,區別僅僅在於發動和執行流程的是人,還是機器。

同時很多人也為自己是乙個人肉搜尋引擎的使用者感到自豪,因為這確實太好用了,不需要擔心分詞不準確,不用擔心電腦錯誤的理解了你的話,不用擔心搜尋引擎收錄範圍不同造成的風險(註四),甚至不需要學習搜尋引擎怎麼用(註五),而且答案也不會僅僅侷限於搜尋引擎能找到的資訊,雖然絕大部分問題是通過搜尋引擎就可以找到的。

1、貓撲人肉搜尋引擎和論壇的差異不夠明顯。或者說在貓撲裡,人肉搜尋引擎只是論壇的一種應用而已,任何需要人肉搜尋引擎服務的人必須是論壇的使用者,這降低了使用者普及度(註六)。

2、mp過於遊戲化。mp是虛擬貨幣,是遊戲化的貨幣,這也給貓撲的人肉搜尋引擎加上了遊戲性的標籤。做賞金獵人的人僅僅是喜歡這個遊戲化氛圍的人,或者說是能被mp這樣的虛擬貨幣激勵的人,這影響了賞金獵人隊伍的擴大,從而影響了人肉搜尋引擎的擴大。

3、人肉搜尋引擎的反映比較慢。google可以在0.00001秒內給你乙個答案,然而人肉搜尋引擎需要等待有人看到你的帖子,並找出結果才會有所反應。

4、貓撲人肉搜尋引擎不能保留歷史紀錄,每次有乙個問題出現,就會引發一次分布式搜尋。即使問題是重複的,也會同樣引發這個流程,而且相同的問題在不同的時間問,答案可能迥異(註七),不能對相同答案給予一致性的結果。

或者說,我覺得以上4點如果能夠解決,人肉搜尋引擎將能幫助我們更快更好的找到有用的資訊。

-------------------

註一:按照某些人的猜測,新的搜尋引擎頁面估值革命性技術也許是利用google加速器記錄的使用者訪問行為來評估**的流量,這個方案可以解決 pagerank的動態性不足問題。然而這個方案和alexa何其的類似,一旦出台新一輪的作弊風潮一定出現,可以想象每個商業**都會要求員工安裝 google加速器了,就像他們現在要求員工安裝alexa一樣。當然google的技術實力遠非alexa可比,一切也還僅僅是某些人的猜測。題外話,如果google真的有一天聲稱會用google加速器的訪問記錄來評估**,那麼google加速器在中國安裝量一定會非常的驚人,看起來這倒可以作為乙個不錯的推廣方法。

註二:這實際上就是mp機制帶來的遊戲性造成的,在分析貓撲的時候,mp是乙個關鍵,它造成了貓撲的遊戲性,而貓撲的遊戲性應該是它一直以來人氣旺盛的主要原因。有人甚至說貓撲就是最好玩的網遊,這還是有一定道理的。

註三:我猜測這是mp機制的動力,也是其他的遊戲機制的動力。

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

搜尋引擎 倒排索引

本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件,每行代表乙個單詞,打對勾的位置代表包含關係。圖3...