python 爬取優酷動漫

2021-07-24 11:35:29 字數 2693 閱讀 6364

#-*- coding:utf-8 -*-

#!/usr/bin/env python

import re

import requests

import mysqldb

type = ['熱血','格鬥','戀愛','美少女','校園','搞笑','loli','神魔','機戰','真人','青春','魔法','神話','冒險','運動','競技','童話','親子','教育','勵志','劇情','社會','歷史','戰爭']

url1 = '熱血_s_1_d_2_p_1.html'

header =

html = requests.get(url1,headers=header).content

reg = re.compile(r'(\d*?)

loop=int(pages)

# 型別

for l in type:

#urls = ''+str(l)+'_s_1_d_2_p_1.html'

#頁數for y in range(loop):

urls = ''+str(l)+'_s_1_d_2_p_'+str(y+1)+'.html'

htmls=requests.get(urls,headers=header).content

regs=re.compile(r'節目簡介',html).group(1)\

if re.search(r'節目簡介',html) else "404 error"

#print href

try:

text = requests.get(href,headers=header).content

except:

print "404 error"

name1 = re.search(r'(.*?)',text).group(1)\

if re.search(r'(.*?)',text) else ""

name2 = re.search(r'(.*?)',text).group(1)\

if re.search(r'(.*?)',text) else ""

scores = re.search(r'評分:[\s\s]*?

(.*?)',text).group(1)\

if re.search(r'評分:[\s\s]*?

(.*?)',text) else ""

otname = re.search(r'別名:[\s\s]*?(.*?)',text).group(1).strip().replace("/","")\

if re.search(r'別名:[\s\s]*?(.*?)',text) else ""

shangying = re.search(r'上映:(.*?)',text).group(1)\

if re.search(r'上映:(.*?)',text) else ""

ctype = re.search(r'',text).group(1)\

if re.search(r'',text) else ""

diqu = re.search(r'>地區:[\s\s]*?(.*?)',text).group(1)\

if re.search(r'>地區:[\s\s]*?(.*?)',text) else ""

syage = re.search(r'適用年齡:[\s\s]*?(.*?)[\s\s]*?","").replace("","").replace('if re.search(r'適用年齡:[\s\s]*?(.*?)[\s\s]*?daoyan = re.search(r'span class="director" title="(.*?)"',text).group(1)\

if re.search(r'span class="director" title="(.*?)"',text) else ""

# print name1

# #print name2

# print otname

# print scores

# print shangying

# print syage

# print ctype

# print daoyan

db = mysqldb.connect('localhost','root','ldd1125','youku')

db.set_character_set('utf8')

cursor = db.cursor()

cursor.execute('set names utf8;')

cursor.execute('set character set utf8;')

cursor.execute('set character_set_connection=utf8;')

sql = "insert into caton(ykname,othname,score,age,types,area,director,times) values (%s,%s,%s,%s,%s,%s,%s,%s)"

try:

cursor.execute(sql,(name1,otname,scores,syage,ctype,diqu,daoyan,shangying))

db.commit()

except:

db.rollback()

db.close()

print "*/*******/*"

Python爬蟲之爬取動漫之家

python爬蟲之爬取動漫之家 小白上手爬蟲第一天,簡單爬取 動漫之家。小小目標 1.爬取5頁的動漫 2.以list返回其動漫位址和動漫名字 簡單粗暴,直接附上原始碼 import requests import re 獲取頁面 defgethtmltext url try kv r request...

php 爬取騰訊動漫

先貼醜圖 獲取分類 return array function type 獲取分類列表 param integer id 分類id param integer page 頁碼 return array function typelist id 1,page 1 page resp json deco...

3 爬蟲框架Clawler 爬取優酷電影名

之前我們都是使用htmlagilitypack類庫來進行頁面的爬取,今天我們使用乙個爬蟲框架。框架名稱 clawler 參考位址 設計圖我們通過htmlagilitypack 爬取優酷電影名的例子進行說明。當前例子是很簡單的單頁面的爬取,只爬取頁面上的幾個固定位置的引數內容。我們首先來說明一下,爬蟲...