Python爬虫文件下载图文教程_Python

而今天我们要说的内容是：如果在网页中存在文件资源，如：图片，电影，文档等。怎样通过python爬虫把这些资源下载下来。

1、怎样在网上找资源：

就是百度图片为例，当你如下图在百度图片里搜索一个主题时，会为你跳出一大堆相关的图片。

还有如果你想学英语，找到一个网站有很多mp3的听力资源，这些可能都是你想获取的内容。

现在是一个互联网的时代，只要你去找，基本上能找到你想要的任何资源。

Python爬虫文件下载图文教程

2、怎样识别网页中的资源：

以上面搜索到的百度图片为例。找到了这么多的内容，当然你可以通过手动一张张的去保存，但这样做既费力又费事。你当然更希望通过程序自动去下载所找到的资源。要想代码识别这些资源，就要告诉代码这些资源有哪些特征，怎样在网页中找到它们。

打开浏览器的调试功能（不同浏览器可能有差别，不知道的百度一下吧）。找出网页中你想要下载资源的路径，如下图所示。如果有许多类似资源需要下载，则要找到识别这些资源地址的规律，然后告诉代码。

Python爬虫文件下载图文教程

3、资源下载方法一：

代码很简单，直接上代码：

									from urllib.request import urlretrieve

									urlretrieve("图片url", "./image.jpg")

直接通过urlretrieve函数就把url对应的图片给下载到当前文件夹（./）中了，并把图片命名为image.jpg。

4、资源下载方法二：

还是直接看代码：

									import requests

									resource = requests.get("图片url")

									with open("./image.jpg", mode="wb") as fh:

									  fh.write(resource.content)

此下载方法要安装python的requests库。从功能上来说与下载方法一是一样的。python库的安装方法用pip就好。很简单，这里都不啰嗦了。

5、资源下载方法三：

看代码：

									import requests

									resource = requests.get("图片url", stream=true)

									with open("./image.jpg", mode="wb") as fh:

									  for chunk in resource.iter_content(chunk_size=100):

									    fh.write(chunk)