網頁採集 PDO入庫

2021-07-23 17:41:53 字數 1085 閱讀 1547

<?php

/*** 採集soho網頁新聞

*/// header頭

header("content-type:text/html;charset=utf8");

// **位址

$url="";

// 獲取**內容

$str=file_get_contents($url);

// 轉碼

$str=iconv('gbk','utf-8',$str);

// pdo連線資料庫

$pdo=new pdo("mysql:host=localhost;dbname=caiji" ,"root","root");

$pdo->exec("set names utf8");

// 獲取網頁內容`

$reg='#.*

#isu';

preg_match($reg, $str,$arr);

// 分步正則獲取、標題、詳情

$reg2='#

#isu';

$reg3='#(.*)

#isu';

$reg4='#(.*).*

#isu';

// var_dump($arr);

preg_match_all($reg2,$arr[0],$image);

preg_match_all($reg3,$arr[0],$title);

preg_match_all($reg4,$arr[0],$content);

// 新增到同乙個陣列

$data=array();

// 將儲存到本地

foreach ($image[1] as $key => $value)

// foreach ($image[1] as $key => $value)

foreach ($title[1] as $key => $value)

foreach ($content[1] as $key => $value)

// 迴圈入庫

foreach ($data as $key => $value)

var_dump($data);

?>

網頁資訊採集實現

最近公司需要開發乙個簡歷匯入功能,類似部落格搬家或者郵箱搬家,之前抓取資訊是利用火車採集器,但是簡歷匯入功能需要使用者登陸以後才能獲取簡歷資料,無奈只好自己開發了。首先是遇到的問題是 如何實現模擬登陸?我們知道一般的 都是通過cookies來維護狀態的,我抓的 也是支援利用cookies來驗證使用者...

網頁標題資訊採集

之前做了乙個通過ip來掃瞄 的,以為能掃到所有的 因為ip是能全部遍歷的,但是忘記了很多 是禁止反向解析的。所以更改了寫法,仿照類似爬蟲的方法,抓取乙個網頁的內容,然後遍歷其中的 然後根據其中的 再去遍歷內容,如此做了個簡單的網頁標題資訊採集工具.更新,1.使用多執行緒處理 2.使用快取技術減少db...

基於PHP採集資料入庫程式(一)

前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。說到採集,無非就是遠端獲取資訊 提取所需內容 分類儲存 讀取 展示 也算是簡單 小偷程式 的加強版吧 下面是對應核心 別拿去做壞事哦 可先利用file get contents和簡單正則獲取基本頁面資訊 echo...