csdn站內搜尋結果爬蟲

2021-06-27 15:52:45 字數 1325 閱讀 7236

# -*- coding: utf-8 -*-  

import urllib2   

import re  

import chardet  

class blog_spider:  

def __init__(self):  

#定義乙個常數,讀入結果當前頁和後面的兩頁

self.pages = 2

#接受關鍵字,進行url編碼構成完整**

print  u"輸入檢索詞:"

s = raw_input()

s1 ="?q="+urllib2.quote(s)

self.myurl = ""+s1+"&t=blog&o=&s="

# 抓取乙個章節  

def getpage(self):  

myurl=self.myurl

user_agent = ' mozilla/5.0 (windows; u; windows nt 5.1) gecko/20070803 firefox/1.5.0.12'   

headers =  

request = urllib2.request(myurl, headers = headers)  

myresponse = urllib2.urlopen(request)  

mypage = myresponse.read()  

#先檢測網頁的字元編碼,最後統一轉為 utf-8  

charset = chardet.detect(mypage)  

charset = charset['encoding']  

if charset == 'utf-8' or charset == 'utf-8':  

mypage = mypage  

else:  

mypage = mypage.decode('gb2312','ignore').encode('utf-8')  

unicodepage = mypage.decode("utf-8")  

item = re.findall('(.*?)',unicodepage,re.s)

for eachitem in item:

#抓取標題

my_title = re.search('(.*?)

',eachitem,re.s)  

my_title = my_title.group(1)  

my_title = my_title.replace("","")

my_title = my_title.replace("","")  

my_url = re.search('(.*?)

mysql站內搜尋 Sphinx站內搜尋

一 sphinx流程 mysql資料 sphinx 索引資料 二 sphinx概述 三 sphinx使用地方 1 中的搜尋 站內搜尋 2 系統後台中的搜尋 四 為什麼要使用sphinx 當資料超過100w時,我們需要使用第三方工具,sphinx。1 做搜尋時當資料量大單純的mysql搜尋比較慢 如果...

ASP站內搜尋

處理程式 case 品牌 str select from car where car pinpai like ss order by car id desc set rs db.execute str 編號汽車名稱 型號樣式 廠家汽車品牌 提交日期 do while not rs.eof rs ca...

Hexo 新增站內搜尋

針對無資料庫的靜態部落格搜尋方案一般有兩種 第三方搜尋服務 序列化站點內容作為資料來源,然後自己寫查詢方法。另外,hexo 中有使用者基礎的 swiftype 和 algolia使用也比較多。網上關於algolia 在next主題使用教程較多,這裡不多說。本文只介紹swiftype.swiftype...