基於PHP採集資料入庫程式(二)

2021-09-06 17:13:36 字數 1366 閱讀 1108

在上篇基於php採集資料入庫程式(一)

中提到採集新聞資訊頁的列表資料,接下來講講關於採集新聞具體內容

這是上篇部落格的最終資料表截圖:

接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行

新建乙個content表

不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id=9,id=11,當採集到id=10的時候,url是空白的,這樣可能會導致採集到了空欄位。

這裡用到的乙個技巧是資料庫的查詢語句,在我們採集完第一條資料的時候,判斷資料庫裡是否還有大於此id的id編號,若有,讀取一條,查詢資訊重複上面的工作。

具體**如下:

<?php 

include_once("conn.php");

$id=(int)$_get['id'];

$sql="select * from list where id=$id";

$result=mysql_query($sql

);

$row=mysql_fetch_array($result);//

取得對應的url位址

$content=file_get_contents($row['url']);

$pattern="/(.*)/ius";

preg_match($pattern, $content,$info);//

獲取內容存放info

echo

$title=$row[1]."

";

echo

$content=$info[0]."";

//插入資料庫

$add="insert into content(title,content) value('$title','$content')";

mysql_query($add

);

$sql2="select * from list where id>$id order by id asc limit 1";

$result2=mysql_query($sql2

);

$row2=mysql_fetch_array($result2);//

取得對應的url位址

這樣子我們所要的新聞內容就採集入庫了,接下來只需要對資料的一些樣式進行整理就行了。

基於PHP採集資料入庫程式(一)

前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。說到採集,無非就是遠端獲取資訊 提取所需內容 分類儲存 讀取 展示 也算是簡單 小偷程式 的加強版吧 下面是對應核心 別拿去做壞事哦 可先利用file get contents和簡單正則獲取基本頁面資訊 echo...

基於PHP的簡單採集資料入庫程式 續篇

在上篇文章中,我們已經採集新聞資訊頁的列表資料,接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id 9,id 11,當採集到id 10的時候,ur...

採集資料專案後端總結(二) 字典管理

1.功能描述 字典管理包括字典分類管理和字典項管理,顧名思義,字典的主要功能就是對資料的型別進行管理和節約記憶體 作用 減少冗餘應該用節約記憶體更合適,就是說如果存型別可能就是一串中文,但是用了字典表之後 可以用幾個數字代替 節約資料記憶體 主要的意義還是對資料的型別,資料狀態的管理 我們有時候為了...