PHP電影小爬蟲 2

2021-08-10 12:53:38 字數 1421 閱讀 2978

學習了別人的爬蟲後自己改的乙個,算是又回顧了一下php的使用

我們來利用******_html_dom的採集資料例項,這是乙個php的庫,上手很容易。

******_html_dom 可以很好的幫助我們利用php解析html文件。通過這個php封裝類可以很方便的解析html文件,對其中的html元素進行操作 (php5+以上版本)

還是 這個字母版面1

<?php

2 set_time_limit(0

);3 header("

content-type:text/html;charset=utf-8");

4 require('

../../web crawler/******_html_dom-master/******_html_dom.php');

5 require '

./config.php';

6 $dbna="

crawler";

7mysql_select_db($dbna,$link);8//

獲取html資料轉化物件

9 $html = file_get_html('

');1011

//a-z的字母列表每條資料是在id=letter-focus的div內class=letter-focus=item的

12//

dl標籤內,用find方法查詢即為

13 $listdata = $html->find("

#letter-focus .letter-focus-item");

14//

$listdata為陣列物件

15 $count=0;16

foreach($listdata as $key=>$eachletterdata)36}

37 $sql = "

insert into movie2(name,url,actor,status,form,location,label,director,time,year) values('','',38'

','','

','','

','','

','')"

;39 echo "";

40 echo $sql."";

41mysql_query($sql);

42 $row=null;43

//if($count==3)

44 echo "";

45}46//

echo "

";47

}48 a:

關於自己遇到的問題:

字元編碼的問題,uft-8又一次坑了我,之後在config.php中加了set names uft8才解決,問題是有時候加就靈,有時候就沒有。。。菜鳥語錄

今天來做乙個PHP電影小爬蟲。

今天來做乙個php 電影小爬蟲。我們來利用 html dom的採集資料例項,這是乙個php的庫,上手很容易。html dom 可以很好的幫助我們利用php解析html文件。通過這個php封裝類可以很方便的解析html文件,對其中的html元素進行操作 php5 以上版本 下面我們以 上的列表頁 字母...

電影天堂爬蟲

from lxml import etree import requests base domin url html gndy dyzz list 23 1.html headers def get detail urls url response requests.get url,headers ...

電影天堂爬蟲

import requests from lxml import etree imgs zoom.xpath img src 標籤分開時,注意勿忘 獲取封面圖和縮圖 cover img imgs 0 screenshot imgs 1 movie cover cover img movie scre...