將無處不在的網路爬蟲引向合法的軌道已迫在眉睫!

2021-09-26 09:17:02 字數 3300 閱讀 9958

馬蜂窩陷抄襲點評醜聞

2023年10月20日,一篇《獨家|估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》的文章一出世便走紅網路。文中稱百億體量的馬蜂窩,其中2100萬條「真實點評」中有1800萬條是通過機械人從大眾點評和攜程等競爭對手抄襲而來。通過語義分析、資料探勘,發現了7454個抄襲賬號,平均每個賬號抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評和1221萬條酒店點評,佔官網聲稱點評數85%。

馬蜂窩回應稱,點評內容在馬蜂窩整體資料量中僅佔比2.91%,涉嫌虛假點評的賬號數量更是微乎其微,並已經進行清理。但恐怕已無法洗脫自己存在爬蟲行為的嫌疑。

我國逐漸重視對網路爬蟲的法律規制

在2023年5月28日國家網際網路資訊辦公室發布的《資料安全管理辦法(徵求意見稿)》第十六條中首次出現了對網路爬蟲規制的法律條文。

在回答這個問題之前,首先應當明確網路爬蟲是什麼?

網路爬蟲就如同乙隻小螞蟻,它的作用是蒐集網頁上的資訊或資料,然後把蒐集到的資訊或資料搬運到小窩(資料庫)裡。所以爬蟲不生產資料,它只是搬運資料。

與之相對的是惡意爬蟲,它無視robots協議,對**中某些深層次的、不願意公開的資料肆意爬取,其中不乏個人隱私或者商業秘密等重要資訊。並且惡意爬蟲的使用方希望從**多次、大量的獲取資訊,所以其通常會向目標**投放大量的爬蟲。如果大量的爬蟲在同一時間對**進行訪問,很容易導致**伺服器過載或崩潰,造成**經營者的損失。

注:robots協議屬於典型的「君子協議」,它的目的是告知網路爬蟲的編寫者,哪些資料是可以被收集的,哪些資料是不能被收集的,但是如果網路爬蟲程式的編寫者不遵守robots協議,想要強行爬去**的資料時,robots協議從技術上是無法阻止程式對越過協定爬取協議中不允許爬取的資料的。

據統計,我國2023年網際網路流量有42.2%是由網路機械人創造的,其中惡意機器(主要為惡意爬蟲)流量佔到了21.80%。

在出行領域,惡意爬蟲的主要目標是12306**。我們日常使用的很多搶票軟體上的票務資訊就是由惡意爬蟲不斷的爬取12306**的資訊而來的。它們對12306**的票務資訊進行暴力爬取,不斷的對**提出重新整理請求,於是12306**時常因負載過大而崩潰,對我們的網路購票造成了嚴重的影響。

而在電商領域,我們熟知的**比對平台就是通過爬蟲爬取諸如**、京東等大型電商的商品**資料,之後將資料整合,放在比對**上供使用者對比。

1.侵犯著作權

惡意爬蟲會爬取某些**(尤其是****)上的文章、等資訊,並將爬取到的文章或發布在自己的**上以此獲利,此種方式可能侵犯著作權中的資訊網路傳播權。例如我們在各類盜版**中搜尋到的**或文章,就是盜版**的運營方通過惡意爬蟲從版權方**所爬取的內容。

除開公司使用的爬蟲之外,還有很多個人使用的爬蟲,例如畢業年級的大學生為了蒐集**所需的各類資料,但是依靠人工蒐集的方法費時費力,此時他們可能會使用爬蟲幫助他們進行蒐集。相對於公司的爬蟲來說,個人對於爬蟲的使用更為隨意,他們中的大多數都不會遵守**的robots協議,而是根據自己的需求進行暴力爬取,這同樣會引起著作權侵權問題。

2.侵犯商業秘密

如果惡意爬蟲在爬取資訊的過程中,無視**經營者設定的robots協議及各類保護措施,接觸、儲存甚至披露了一般使用者無法訪問的資訊,而該資訊又構成商業秘密,則惡意爬蟲的行為存在侵犯他人商業秘密的可能。

3.侵犯個人隱私或個人資訊

同樣如果網路爬蟲突破了**經營者設定的保護措施,不僅可能接觸到商業秘密,還可能接觸到儲存於後台伺服器中的使用者個人隱私或個人資訊。

例如2023年3月24日,58同城簡歷資料洩露事件。某些**電商在**按照0.2到0.3元一條的**售賣「58同城簡歷資料」,並且700元可以購買一套採集58資料的軟體。而這些被洩露資料的求職者均在58同城上投遞了簡歷。多家安全機構表示,該採集軟體是乙個惡意爬蟲工具,爬蟲軟體可利用漏洞爬取個人資訊。

如果**或軟體對我們的個人資訊沒有採取專門的安全保護措施或者採取的安全保護措施不夠,那麼我們的個人資訊將容易被惡意爬蟲所爬取並利用。

4.構成不正當競爭

5.侵入計算機系統,構成刑事犯罪

如果惡意爬蟲強行突破某些特定被爬方的技術措施,則可能構成刑事犯罪行為。

《刑法》第二百八十五條規定,違反規定侵入國家事務、國防建設、尖端科學技術領域的計算機資訊系統的,不論情節嚴重與否,構成非法侵入計算機資訊系統罪。違反國家規定,侵入前款規定以外的計算機資訊系統或者採用其他技術手段,獲取該計算機資訊系統中儲存、處理或者傳輸的資料,或者對該計算機資訊系統實施非法控制,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。提供專門用於侵入、非法控制計算機資訊系統的程式、工具,或者明知他人實施侵入、非法控制計算機資訊系統的違法犯罪行為而為其提供程式、工具,情節嚴重的,依照前款的規定處罰。

《刑法》第二百八十六條還規定,違反國家規定,對計算機資訊系統功能進行刪除、修改、增加、干擾,造成計算機資訊系統不能正常執行,後果嚴重的,構成犯罪,處五年以下有期徒刑或者拘役;後果特別嚴重的,處五年以上有期徒刑。而違反國家規定,對計算機資訊系統中儲存、處理或者傳輸的資料和應用程式進行刪除、修改、增加的操作,後果嚴重的,也構成犯罪,依照前款的規定處罰。

《刑法》第二百五十三條之一規定,違反國家有關規定,向他人**或者提供公民個人資訊,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。違反國家有關規定,將在履行職責或者提供服務過程中獲得的公民個人資訊,**或者提供給他人的,依照前款的規定從重處罰。竊取或者以其他方法非法獲取公民個人資訊的,依照第一款的規定處罰。單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照各該款的規定處罰,即構成「侵犯公民個人資訊罪」。

我國目前對於網路爬蟲的規制集中在《刑法》有關計算機資訊系統犯罪的法律條文之中,對於《刑法》之外的網路爬蟲行政規制或民事侵權救濟,我國並未作出針對性的規定。大部分時候對於惡意爬蟲侵權問題,法院適用的是《反不正當競爭法》來對被侵權人進行救濟。但是正如筆者在《體育賽事直播的著作權問題》一文中所說的,《反不正當競爭法》屬於事後追責的法律,對於網路爬蟲問題更應該在事前予以規制。而我國目前對於網路爬蟲規制的現狀是等到網路爬蟲造成了損失,再想辦法去彌補。但是很多損害是沒有辦法彌補的,比如個人隱私或商業秘密的洩露,所以總是寄希望於《反不正當競爭法》能夠幫助我們挽回損失是不現實的。

所以,筆者認為我國應當制定針對網路爬蟲的相關標準,將robots協議中的要求吸納進標準之中,完善相關的資料安全法律法規,將網路爬蟲引向合法軌道。明確網路爬蟲應當按照何種規則行動,何種行為可為,何種行為不可為,從而抑制目前我國網路爬蟲野蠻生長的態勢。

無處不在的NFC

長期以來,nfc技術處於左右為難或先有雞還是先有蛋的窘境之中。在無產品支援的情況下,製造商為什麼要在手機中採用nfc,反之,當製造商在手機中採用nfc時,為什麼無產品支援?值得慶幸的是,這樣的日子已經一去不復返了,如今已有5億多部支援nfc的高階智慧型手機投入使用,此問題已得到妥善解決。nfc手機正...

無處不在的分析能力

好長時間沒寫部落格了,不是沒有時間,而是堅持的還不夠。今天遇到乙個問題,想寫出來和大家分享。昨天晚上寫到category這個頁面。主要是把類別新增到資料庫中,和從資料庫中拿出後樹狀展示。涉及的知識倒是不多,也就是判斷 迭代等。但是我從昨晚寫,知道今天中午5點才搞定。中間花費了差不多4個小時左右時間來...

無處不在的日期類

所有的類,我們已經寫到目前為止已經足夠簡單,我們已經能夠實現的功能,直接在類本身的定義。例如,我們無處不在的 日期類 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 classdate private defa...