本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考,具体如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
#-*-coding:utf-8-*- import re from urllib import urlretrieve from urllib import urlopen #获取网页信息 doc = urlopen( "http://www.itongji.cn/news/" ).read() #自己找的一个大数据的新闻网站 #抓取新闻标题和链接 def extract_title(info): pat = '<h3><a target=\"_blank\"(.*?)</a></h3>' title = re.findall(pat, info) titles = '\n' .join(title) #print titles #修改指定字符串 titles1 = titles.replace( 'class="title"' , 'title' ) titles2 = titles1.replace( '>' , ':' ) titles3 = titles2.replace( 'href' , 'url:' ) titles4 = titles3.replace( '="/' , '"http://www.itongji.cn/' ) #写入文件 save = open ( 'xinwen.txt' , 'w' ) save.write(titles4) save.close() titles = extract_title(doc) |
希望本文所述对大家Python程序设计有所帮助。