服务器之家 > 正文

python爬虫之scrapy框架详解

时间：2022-03-07 00:11 来源/作者：可小v.

1.在pycharm下安装scrapy函数库
2.将安装好scrapy函数库下的路径配置到系统path的环境变量中
3.打开cmd终端输入：scrapy.exe检查是否安装成功
4.创建一个项目：scrapy startproject 项目名字
5.cd进入该目录下，创建一个spider：scrapy genspider 项目名字 网址
6.编辑settings.py文件中的USER_AGENT选项为正常的浏览器头部
7.执行这个spider：scrapy crawl 项目名字
8.如果遇到因pip版本太低导致安装不了scarpy函数库，可以先在cmd窗口输入py -m pip install --upgrade pip升级命令（前提是你的python环境下得有pip，可通过输入pip命令查看是否已安装，如未安装得去官网下载并解压至相应路径）

代码示例命令截图:

python爬虫之scrapy框架详解

项目文件截图：

python爬虫之scrapy框架详解

settings.py文件截图：（需要修改爬取网站的USER_AGENT）

python爬虫之scrapy框架详解

scrapy运行工作流程图:

Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)

Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理

ItemPipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间

通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）
python爬虫之scrapy框架详解

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注服务器之家的更多内容!

原文链接：https://blog.csdn.net/qq_62037643/article/details/121502999

标签：

框架 Scrapy Python爬虫

相关文章

用数据说话，序列化框架测评报告2022-03-02
Java Apache Shiro安全框架快速开发详解流程2022-03-02
如何手撸一个较为完整的RPC框架？2022-03-01
C++轻量级界面开发框架ImGUI介绍小结2022-03-01
python爬虫框架scrapy代理中间件掌握学习教程2022-03-01
python爬虫框架Scrapy基本应用学习教程2022-03-01

热门资讯

: 2022年最旺的微信头像大全微信头像2022年最新版图片 2022-01-10

: 蜘蛛侠3英雄无归3正片免费播放蜘蛛侠3在线观看免费高清完整 2021-08-24

: 背刺什么意思网络词语背刺是什么梗 2020-05-22

: yue是什么意思网络流行语yue了是什么梗 2020-10-11

: 2020微信伤感网名听哭了让对方看到心疼的伤感网名大全 2019-12-26