python查詢各搜尋引擎收錄情況

2021-10-02 01:10:28 字數 4575 閱讀 1581

# -*- coding: utf-8 -*-

import requests_html

import json

import time

# 格式化數值函式

defnum

(num)

: nums =

0 num = num.replace(

'找到相關結果約',''

).replace(

'個','')

num = num.replace(

'找到約',''

).replace(

'條結果',''

) num = num.replace(

',','')

.replace(

' ','')

if'億'

in num:

numr = num.split(

'億')

nums +=

int(numr[0]

)*10000

*10000

num = numr[1]

if'萬'

in num:

numr = num.split(

'萬')

nums +=

int(numr[0]

)*10000

num = numr[1]

ifnot num:num=

0 nums +=

int(num)

return nums

# 請求介面

''# 建立請求

s = requests_html.htmlsession(

)s.headers.update(

)# 抽取收錄數函式,考慮量比較小,此函式不考慮效率問題

defgetnum

(url,sname='')

:ifnot url:

print

('[warnning]'

,'請設定url'

,'沒有匹配到結果'

,url)

return

0if text :

return num(text.text)

else

:print

('[warnning]'

,'沒有匹配到結果,通常為反爬限制'

,url)

return

0except baseexception as e:

# print(r.text)

print

('[error]'

,'抽取失敗'

,url)

print

('[error]'

,'抽取失敗詳情'

,e)return

0# 主體函式

defchecksite

(domainarr=

,sleep=

0,filename='')

:# 判斷是否有引數

ifnot domainarr:

print

('[warnning]'

,'請設定domain'

)return

print

('[running]'

,'共獲取網域名稱數:'

,len

(domainarr)

)# 構建請求連線

)# 搜狗

num = getnum(queryurlsogou%query,

'sogou'

)print

('[running]'

,domain,

'sogou'

,num)

)# 神馬

num = getnum(queryurlshenma%query,

'shenma'

)print

('[running]'

,domain,

'shenma'

,num)

)# 好搜,雙端介面引數不一樣

if domain.split(

'.')[0

]=='m':

num = getnum(queryurlhaosoum%query,

'haosoum'

)else

: num = getnum(queryurlhaosou%query,

'haosou'

)print

('[running]'

,domain,

'haosou'

,num)

)# 休眠間隔

if sleep:

print

('[running]'

,'休眠:'

,sleep)

time.sleep(sleep)

# print(json.dumps(data,indent=4))

print

('[running]'

,json.dumps(data)

)if filename:

print

('[running]'

,'執行儲存檔案'

,filename)

# 儲存新資料

with

open

(filename,

'w', encoding=

'utf-8'

)as filejson:

filejson.write(json.dumps(data)

)if __name__ ==

'__main__'

: domainr =

['www.seowhy.com'

,# 'www.aizhan.com',

# 'm.seowhy.com',

# 'm.aizhan.com',

] sleep =

0 date = time.strftime(

"%y%m%d"

,time.localtime(

int(time.time())

))filename =

'site.%s.json'

%date

checksite(domainr,sleep,filename)

# 指令碼說明:

# python3.6版本

# 需要安裝requests-html模組 pip install requests_html

# 搜狗經常反爬,不宜大批量網域名稱查詢

# 搜狗雙端結果相同 sogou

# 好搜雙端不同 haosou

# 神馬只有m端 shenma

# parama domainarr array 查詢網域名稱陣列

# parama sleep intval 查詢迴圈休眠時間

# parama filename string 儲存檔名稱

# by 薛一

# 2018-07-08

如何禁止搜尋引擎收錄?

很多站長都認為有搜尋引擎收錄是一件好事,首先是自己的 得到了承認,通過搜尋引擎也能帶來一定的流量。其實並不完全準確,某些比較不知 名的搜尋引擎,即便收錄了許多網頁,並且天天更新,卻不能帶來實在的利益,反而浪費了伺服器頻寬 國內的主機一般宣稱不限流量,但國外的 dreamhost這樣的主機都是限制流量...

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法 什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄...

禁止搜尋引擎收錄的方法

1.什麼是robots.txt檔案?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做 robots.txt的純文字檔案,這個檔案用於指定spider在您 上的抓取範圍。您可以在您的 中建立乙個robots.txt,...