python3爬取百度百科

2021-08-15 02:28:20 字數 2207 閱讀 2592

在每個頁面裡只爬 h1 標題和下面的一段簡介

準備工作:

資料庫需要三個字段,id,標題,內容

資料庫一定要在建立的時候加入 character set utf8 ,不然會引發好多錯誤

開始爬!!

先找到當前頁面的所有內鏈(找規律),是\item\開頭的,所以利用正規表示式刷刷刷,之後利用beatuiful很容易分析到頁面的簡介部分,存入庫就好啦。但是沒有加入多執行緒,速度不是很快。

link = quote(link, safe= string.printable) ##讀取中英混編的url

return bsobj.findall("a", href=re.compile("^(/item/)((?!:).)*$")) ##內層巢狀找不到???????

java爬取百度百科詞條

一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...

python3糗事百科爬取

import urllib.request import re 糗事百科爬蟲類 class sqbk def init self self.pageindex 1 self.user agent mozilla 4.0 compatible msie 5.5 windows nt initial h...

Python入門級爬取百度百科詞條

爬取 angelababy詞條歷史版本 中的value值。coding utf 8 import urllib import urllib2 import re page 1 url str page try request urllib2.request url response urllib2....