百度百科爬蟲爬人物資訊

2021-08-10 02:03:14 字數 1603 閱讀 6066

部分**適應性不高,需進一步修改。

並未設定自動化爬蟲,只是對欄位進行分類處理。

from bs4 import beautifulsoup

import pandas as pd

import requests

import json

import time

import urllib

import re

from urllib.parse import quote

name_lt=pd.read_excel('名單.xlsx')

name_lt=list(name_lt['名單'])

final_result=

url=''+name_lt[204]

url=quote(url, safe='/:?=')

data = urllib.request.urlopen(url).read()

data = data.decode('utf-8')

soup=beautifulsoup(data,"lxml")

soup_pr=soup.prettify()

fig_cv=soup.find_all("div",class_="lemma-summary")

fig_summary=fig_cv[0].text.strip('\n')

fig_info={}

fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')

fig_info['性別']=fig_summary.split(',')[1]

fig_info['民族']=fig_summary.split(',')[2]

fig_info['出生年份']=fig_summary.split(',')[3][0:4]

fig_info['出生月份']=fig_summary.split(',')[3].split('年')[1].strip('月生')

fig_info['出生省份']=fig_summary.split(',')[4][0:2]

fig_info['出生城市']=fig_summary.split(',')[4].rstrip('人')[-2:]

fig_info['其他']=fig_summary.split(',',5)[5]

for fig_exp in soup.find_all("div",class_="para-title level-2"):

result=

tmp=fig_exp

#tmp=tmp.span.clear()

key=tmp.text.replace(fig_info['姓名'],'')

fig_start=fig_exp.next_sibling

result=

for sibling in fig_start.next_siblings:

if sibling!='\n':

if sibling.has_attr('class'):

if sibling['class'][0]!='para':

break

else:

fig_info[key]=result

百度百科爬蟲PHP

header content type text html charset utf 8 接受前台資料 data id post data id url data id var dump url ch curl init curl setopt ch,curlopt url,url curl seto...

java爬取百度百科詞條

一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...

AnimateWindow 百度百科

animatewindow 開放分類 程式設計 計算機 api 函式功能 該函式能在顯示與隱藏視窗時能產生特殊的效果。有兩種型別的動畫效果 滾動動畫和滑動動畫。函式原型 bool animatewindow hwnd hwnd,dword dwtime,dword dwflags 引數 hwnd 指...