在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行
新建一个content表
不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。
这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。
具体代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
|
<?php include_once ( "conn.php" ); $id =(int) $_GET [ 'id' ]; $sql = "select * from list where id=$id" ; $result =mysql_query( $sql ); $row =mysql_fetch_array( $result ); //取得对应的url地址 $content = file_get_contents ( $row [ 'url' ]); $pattern = "/<dd class=\"dataWrap\">(.*)<\/dd>/iUs" ; preg_match( $pattern , $content , $info ); //获取内容存放info echo $title = $row [1]. "<br/>" ; echo $content = $info [0]. "<hr/>" ; //插入数据库 $add = "insert into content(title,content) value('$title','$content')" ; mysql_query( $add ); $sql2 = "select * from list where id>$id order by id asc limit 1" ; $result2 =mysql_query( $sql2 ); $row2 =mysql_fetch_array( $result2 ); //取得对应的url地址 if ( $row2 [ 'id' ]){ echo "<script>window.location='content.php?id=$row2[0]'</script>" ; } ?> |
这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。