python爬虫实现爬取同一个网站的多页数据的实例讲解_Python

对于一个网站的图片、文字音视频等，如果我们一个个的下载，不仅浪费时间，而且很容易出错。Python爬虫帮助我们获取需要的数据，这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法，实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url（网址）。

2、发出请求，获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据，不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

				?

									def get_page_size(soup):

									  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')

									  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')

									  for i in pcxt1[:-1]:

									    link=i.get('href')

									    s=str(i)

									  page=re.sub('<a href="','',s)

									  page1=re.sub(link,'',page)

									  page2=re.sub('">','',page1)

									  page3=re.sub('</a>','',page2)

									  pagesize=int(page3)

									  print(pagesize)

									  return pagesize

									Pass

2、更改url来访问网址，也就是进行主函数的编写

				?

									if __name__ == '__main__':

									    url="http://www.sheknows.com/baby-names/browse/a/"

									    soup=get_requests(url)

									    page=get_page_size(soup)

									    for i in range(1,page+1):

									      url1=url+"page/"+str(i)+"/"

									      soup1=get_requests(url1)

									      draw_base_list(soup1)

实例扩展：

				?

									import requests

									from lxml import etree

									import re

									url="https://movie.douban.com/top250"

									header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

									allMovieList=[]

									flag = True

									while flag:

									  html = requests.get(url, headers=header).text

									  list = etree.HTML(html)

									  lis = list.xpath('//ol[@class="grid_view"]/li')

									  for oneSelector in lis:

									    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]

									    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]

									    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]

									    people = re.findall("(.*?)人评价",people)[0]

									    oneMovieList = [name,score,people]

									    allMovieList.append(oneMovieList)

									  #获取下一页地址

									  try:

									    next_url = list.xpath('//span[@class="next"]/a/@href')[0]

									    if next_url:

									      url = "https://movie.douban.com/top250"+ next_url

									  except:

									    flag = False

									print(allMovieList)