百度百科爬蟲爬人物資訊

部分**適應性不高，需進一步修改。

並未設定自動化爬蟲，只是對欄位進行分類處理。

from bs4 import beautifulsoup
import pandas as pd
import requests
import json
import time
import urllib
import re
from urllib.parse import quote
name_lt=pd.read_excel('名單.xlsx')
name_lt=list(name_lt['名單'])
final_result=
url=''+name_lt[204]
url=quote(url, safe='/:?=')
data = urllib.request.urlopen(url).read()
data = data.decode('utf-8')
soup=beautifulsoup(data,"lxml")
soup_pr=soup.prettify()
fig_cv=soup.find_all("div",class_="lemma-summary")
fig_summary=fig_cv[0].text.strip('\n')
fig_info={}
fig_info['姓名']=fig_summary.split('，')[0].replace('[1]','')
fig_info['性別']=fig_summary.split('，')[1]
fig_info['民族']=fig_summary.split('，')[2]
fig_info['出生年份']=fig_summary.split('，')[3][0:4]
fig_info['出生月份']=fig_summary.split('，')[3].split('年')[1].strip('月生')
fig_info['出生省份']=fig_summary.split('，')[4][0:2]
fig_info['出生城市']=fig_summary.split('，')[4].rstrip('人')[-2:]
fig_info['其他']=fig_summary.split('，',5)[5]
for fig_exp in soup.find_all("div",class_="para-title level-2"):
result=
tmp=fig_exp
#tmp=tmp.span.clear()
key=tmp.text.replace(fig_info['姓名'],'')
fig_start=fig_exp.next_sibling
result=
for sibling in fig_start.next_siblings:
if sibling!='\n':
if sibling.has_attr('class'):
if sibling['class'][0]!='para':
break
else:
fig_info[key]=result

百度百科爬蟲PHP

header content type text html charset utf 8 接受前台資料 data id post data id url data id var dump url ch curl init curl setopt ch,curlopt url,url curl seto...

java爬取百度百科詞條

一 parsehtml部分此部分用於對html中的標籤進行分析，提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二用於解析url所獲取的html...

AnimateWindow 百度百科

animatewindow 開放分類程式設計計算機 api 函式功能該函式能在顯示與隱藏視窗時能產生特殊的效果。有兩種型別的動畫效果滾動動畫和滑動動畫。函式原型 bool animatewindow hwnd hwnd，dword dwtime，dword dwflags 引數 hwnd 指...

百度百科爬蟲爬人物資訊

百度百科爬蟲PHP

java爬取百度百科詞條

AnimateWindow 百度百科

相關推薦