爬蟲究竟是合法還是違法的?

2021-10-23 02:20:28 字數 2433 閱讀 4937

據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門資料都是爬蟲所創造的,所以可以說無爬蟲就無網際網路的繁榮。

這個話題涉及到我們很多程式設計師的日常工作,所以有必要和大家細聊一下。

在今年國家頒布《中華人民共和國網路安全法》之後,很多以前處於灰色地帶的業務都不能做了。

2023年12月20日,人人影視字幕站發布微博稱,人人影視正式關閉,並表示或將繼續為正版商提供翻譯服務,也可能轉變為討論社群的形式。

2023年6月,吾愛破解因版權問題關站整改...

.....

隨著中國經濟的不斷往前走,智財權問題會越來越重視,非法爬蟲是現在乙個重要的打擊部分,

如果有程式設計師走在灰色的邊緣盡早收手,不要因為一點小的收益導致觸犯法律,從而得不償失。

技術是無罪的,但是用到了錯的地方代價也是非常巨大的。

簡單回答一下這些問題:

還有朋友認為這事責任在企業不在程式設計師,日常工作中專案初期設計和最後上線需要通過公司的法務批准,所有**必須有其他程式設計師同事評審通過才能提交。

這位朋友說的挺對的,按道理每個公司都應該有法務和風控在前面,後面才是產品設計和程式設計師開發的事情,但如果一家公司為了利益,老闆可以直接讓這兩個部門閉嘴,後面程式設計師可以不幹嗎?

更甚至很多公司其實就沒有這兩個部門或者說形同虛設。那麼做為程式設計師自己也需要操乙份心,凡是涉及到入侵類的程式都不能幹,因為有乙個東西叫做:單位犯罪。

單位犯罪,是指公司、企業、事業單位、機關、團體為單位謀取利益,經單位決策機構或者負責人決定實施的,法律規定應當負刑事責任的危害社會的行為。

我國刑法對單位犯罪原則上採取雙罰制度,即單位犯罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員判處刑罰。

爬蟲不能涉及個人隱私!

如果爬蟲程式採集到公民的姓名、身份證件號碼、通訊通訊****、住址、賬號密碼、財產狀況、行蹤軌跡等個人資訊,並將之用於非法途徑的,則肯定構成非法獲取公民個人資訊的違法行為。

也就是說你爬蟲爬取資訊沒有問題,但不能涉及到個人的隱私問題,如果涉及了並且通過非法途徑收益了,那肯定是違法行為。

另外,還有下列三種情況,爬蟲有可能違法,嚴重的甚至構成犯罪:

2.爬蟲程式干擾被訪問的**或系統正常運營,後果嚴重的,觸犯刑法,構成「破壞計算機資訊系統罪」

3.爬蟲採集的資訊屬於公民個人資訊的,有可能構成非法獲取公民個人資訊的違法行為,情節嚴重的,有可能構成「侵犯公民個人資訊罪」。

現在網上有很多付費的課程,比如極客時間、gitchat、慕課網、知識星球等等,這些付費內部資訊如果被非法爬取手法**獲利,一種違法行為。

之前我就遇到乙個網友,把各個知識星球的內容都抓下來,合到一起自己去賣,自作聰明覺得發現了乙個大的商機,其實自己不知道這個行為其實很危險,風險和收益明顯不對等。

1、 遵守 robots 協議

robots 協議也叫 robots.txt(統一小寫)是一種存放於**根目錄下的 ascii 編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此**中的哪些內容是不應被搜尋引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。

robots 協議就是告訴爬蟲,哪些資訊是可以爬取,哪些資訊不能被爬取,嚴格按照 robots 協議 爬取**相關資訊一般不會出現太大問題。

2、不能造成對方伺服器癱瘓

但不是說只要遵守 robots 協議的爬蟲就沒有問題,還涉及到兩個因素,第一不能大規模爬蟲導致對方伺服器癱瘓,這等於網路攻擊。

2023年05月28日國家網信辦發布的《資料安全管理辦法(徵求意見稿)》中,擬通過行政法規的形式,對爬蟲的使用進行限制:

網路運營者採取自動化手段訪問收集**資料,不得妨礙**正常執行;此類行為嚴重影響**執行,如自動化訪問收集流量超過**日均流量三分之一,**要求停止自動化訪問收集時,應當停止。

3、不能非法獲利

惡意利用爬蟲技術抓取資料,攫取不正當競爭的優勢,甚至是牟取不法利益的,則可能觸犯法律。實踐中,非法使用爬蟲技術抓取資料而產生的糾紛其實數量並不少,大多是以不正當競爭為由提請訴訟。

舉個例子,如果你把大眾點評上的所有公開資訊都抓取了下來,自己複製了乙個一模一樣的**,並且還通過這個**獲取了大量的利潤,這樣也是有問題的。

一般情況下,爬蟲都是為了企業獲利的,因此需要爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。

有風險的行業謹慎進入,比如現金貸、不合規的p2p、賭博類遊戲、黑五類產品的行業。如果公司安排入侵某個**資料,或者有同事/朋友邀請洩露公司資訊的都需要保持警惕,有時候乙個很小的動作都有可能導致出問題。

我們絕大多數公司和個人使用的爬蟲都是沒有問題的,不必人人自危,只要把握住不要爬取個人資訊,不要利用爬蟲非法獲利,不要爬取**的付費內容,基本上不會有問題。

程式設計師是世界上最單純的一批人,也是一批高智商低情商的人,工作是工作但也需要適當保持謹慎,對於一些遊走在法律邊緣的事情請保持距離。

敬畏法律,遵紀守法,從我做起。

究竟是內省還是內省

下面我們就對內省做一下簡單介紹 通過propertydescriptor類操作bean的屬性 通過introspector類獲得bean物件的 beaninfo,然後通過 beaninfo 來獲取屬性的描述器 propertydescriptor 通過這個屬性描述器就可以獲取某個屬性對應的 gett...

CMS究竟是CMS還是WCMS

最近因為公司的專案關係在研究cms,但是翻遍所有網上的資料都是 內容管理系統 這裡我稱之為wcms 不知道確切的cms定義是什麼,但是確實這點讓我很迷惑,難道cms就是乙個portal系統 比如manbo 在我的看法裡,cms就是乙個純粹的後台系統,它關心有哪些內容,內容的屬性,歸類,頻道繫結,歸屬...

狀態同步,究竟是推還是拉?

好友狀態的同步 有群友狀態的同步 有的需要實時同步,有的能夠容忍延時。結合具體場景來看下,狀態同步,究竟是推還是拉。不同的狀態,對於不同的業務處理流程可能不同 例如對於訊息的處理 服務端狀態離線,直接儲存離線訊息,等使用者下一次登入拉取 登入時,會修改使用者的服務端狀態為。登出 時,會修改使用者的服...