基於PHP採集資料入庫程式(一)

2021-09-06 17:12:30 字數 823 閱讀 2154

前幾天有一朋友要我幫做乙個採集新聞資訊的程式,抽了點時間寫了個php版本的,隨筆記錄下。

說到採集,無非就是遠端獲取資訊->提取所需內容->分類儲存->讀取->展示

也算是簡單"小偷程式"的加強版吧

下面是對應核心**(別拿去做壞事哦^_^)

可先利用file_get_contents和簡單正則獲取基本頁面資訊

echo "正在採集url資料列表$id...請稍後...";

echo "";

}else

?>

conn.php是資料庫連線檔案

list.php是本頁面

由於要採集的資料是分頁顯示的,且頁面位址是規律遞增,所以我用了js跳轉**,利用id傳值控制採集的頁數,也避免了for迴圈數目過大。

輕輕鬆鬆資料入庫,下篇部落格寫關於具體url採集資訊的過程。

基於PHP採集資料入庫程式(二)

在上篇基於php採集資料入庫程式 一 中提到採集新聞資訊頁的列表資料,接下來講講關於採集新聞具體內容 這是上篇部落格的最終資料表截圖 接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,...

基於PHP的簡單採集資料入庫程式 續篇

在上篇文章中,我們已經採集新聞資訊頁的列表資料,接下來要做的操作就是從資料庫中讀取所需要採集的url,進行頁面抓取就行 新建乙個content表 不過需要注意的一點是,不能再採用採集url這種id遞增的方法去採集,因為資料表中可能出現id斷續,比如id 9,id 11,當採集到id 10的時候,ur...

Flume的使用一 從指定埠採集資料傳送到工作台

1.寫配置檔案 1 配置source 2 配置channel 3 配置sink 4 串聯三個元件 a1 agent的名稱 r1 source的名稱 k1 sink的名稱 c1 channel的名稱 agent的定義 a1.sources r1 a1.sinks k1 a1.channels c1 描...