Google搜尋技術揭秘

2021-04-08 18:06:15 字數 1566 閱讀 3062

引:google將其成功部分地歸功於公司所發明的獨有運算機制,令其搜尋引擎可以在極短時間內對數以百萬計的網路使用者的搜尋請求提供答案。

上周三,google副總裁urs hoelzle在eclipse會議上的一番發言,令與會者有機會 了解google的搜尋技術是如何產生以及該技術現在是如何運作的。

hoelzle對與會者說,要發明google的技術,開發者必須拋棄過去大型資料庫所使用技術的思維定勢。由於一天裡面所有搜尋請求的內容都是不可預計的,因此手頭上就必須擁有100億左右的網頁資料,這是確實是很大的挑戰。

hoelzle出示了一系列早期google硬體資料中心的**。2023年拍的**中是兩台破舊的台式電腦。2023年,是數台intel伺服器,機器後面露出一堆亂七八糟的資料線。2023年的資料中心內,擺放的是1000臺排列整齊的雙處理器伺服器。

hoelzle表示,「底層的硬體**十分低廉,但卻完成了許多任務作。」同時,使用如此多的伺服器,可靠性是google關心的另一重點。hoelzle表示,「google使用自動控制的機制進行運作。否則,工程師們需要為重啟伺服器而疲於奔命。」

為了抵抗不可抗力帶來的影響,google搭建了google檔案系統,該系統與google的搜尋運算系統緊密結合,並且對伺服器故障有很高的承受能力。

google的所有操作均基於一系列的大容量檔案,這些檔案被拆分為64m大小的資料報,分布在多個「資料報伺服器」中。檔案的描述、資料報的數目和資料報的位置等資料都存放在**伺服器中。每乙個64m的資料報都會在另外兩個伺服器上備份,三份拷貝的路徑亦存放在**伺服器中。

由於所有的檔案都存放在red hat linux伺服器中,google以很低的成本就保證了服務的可靠性。**伺服器會定時向資料報伺服器發出脈衝訊號,確定資料報伺服器是否在正常運作。如果沒有收到應答訊號,又或者應答訊號中顯示某台資料報伺服器的資料受到損害,**伺服器會從其他資料報伺服器上取出資料報修復受損的伺服器。這一工作通常在一分鐘內則可以完成。

hoelzle指出,只有三颱伺服器上的拷貝同時受損,才會對google的服務有所影響。這時候,就需要用一段長時間去收集網際網路的資料以重建受損檔案。

google會對web crawler收集到的網頁進行索引, web crawler亦會對這些網頁的作出描述。hoelzle表示,建立網頁的索引是很艱鉅的一項工作,需要數百台計算機運算數天。同時,索引必須經常地更新。

為了高速地對索引進行檢索,google將其分成許多稱為「碎片」的小塊,分布在不同的伺服器中,以便進行並行搜尋。每一台伺服器都搜尋出一部分結果,然後再整合在一起成為完整的答案。

hoelzle表示,google的檔案系統、索引技術及商用伺服器的網格令每一次搜尋的平均時間四分之一秒。而檔案系統的定時脈衝訊號機制,則給予google很高的可靠性和可用性。

同時,當google的伺服器分析搜尋請求的時候,會將該搜尋請求拆分,然後再從資料庫中找出令大部分使用者滿意的結果,這一過程稱為「map reduction」。hoelzle表示,「google曾經在一次大型維護意外事故中失去了2000臺map reduction伺服器中的1800臺。」但由於系統的負載均衡機制,將未完成的搜尋任務合理分配,google仍然能完成所有的搜尋請求。

hoelzle指出,「這一機制使我們能很快從故障中復原,並不影響我們的服務。」

Google黑客搜尋技術

使用google搜尋引擎可以讓普通人做一次黑客 google hacking 其原理也是很簡單,很多有特定漏洞的 都有類似的標誌頁面,而這些頁面如果被google索引到,我們就可以通過搜尋指定的單詞來找到某些有指定漏洞的 舉個例子來講,frontpage extensions是微軟iis上的乙個產品...

google 黑客搜尋

使用google搜尋引擎可以讓普通人做一次黑客 google hacking 其原理也是很簡單,很多有特定漏洞的 都有類似的標誌頁面,而這些頁面如果被google索引到,我們就可以通過搜尋指定的單詞來找到某些有指定漏洞的 舉個例子來講,frontpage extensions是微軟iis上的乙個產品...

Google搜尋總結

1,basic operators 使用詳解 http www.googletutor.com google manual web search adding basic operators 2,advanced operators 使用詳解 http www.googletutor.com goo...