【Scrapy】深入了解 Scrapy 下载中间件中的 from

2024-07-09 1173阅读

准我快乐地重饰演某段美丽故事主人

（图片来源网络，侵删）

饰演你旧年共寻梦的恋人

再去做没流着情泪的伊人

假装再有从前演过的戏份

重饰演某段美丽故事主人

饰演你旧年共寻梦的恋人

你纵是未明白仍夜深一人

穿起你那无言毛衣当跟你接近

🎵 陈慧娴《傻女》

Scrapy 是一个强大且灵活的爬虫框架，允许用户通过中间件（middlewares）来扩展和定制爬虫的行为。下载中间件（Downloader Middleware）是 Scrapy 中的重要组件之一，用于在请求和响应阶段进行处理。在编写自定义中间件时，from_crawler 方法是一个非常重要的工具，它允许中间件访问 Scrapy 的核心组件和设置。本文将详细介绍 Scrapy 下载中间件中的 from_crawler 方法。

什么是 from_crawler 方法？

from_crawler 是一个类方法，用于初始化中间件实例，并将 Scrapy 的 Crawler 对象传递给它。Crawler 对象包含了整个 Scrapy 运行时环境，包括配置、信号和扩展等。通过 from_crawler 方法，中间件可以轻松访问这些资源，从而实现更复杂的功能。

为什么使用 from_crawler 方法？

在编写自定义中间件时，有时需要访问 Scrapy 的配置信息、信号或其他核心组件。from_crawler 方法使这一过程变得简单和直观。它的主要优势包括：

访问配置：可以轻松获取 Scrapy 的设置（settings）。
连接信号：能够注册和处理 Scrapy 的信号（signals）。
统一初始化：提供一种统一的方式来初始化中间件实例。
如何实现 from_crawler 方法？

下面是一个具体示例，展示如何在自定义下载中间件中实现 from_crawler 方法。

示例：自定义代理中间件

假设我们要编写一个自定义的下载中间件，用于随机更换代理。我们希望代理列表可以从 Scrapy 的设置中获取，并且在每次请求时随机选择一个代理。

首先，我们在 Scrapy 项目的 middlewares.py 文件中定义中间件：
```
import random
import logging
class RandomProxyMiddleware:
    def __init__(self, proxy_list):
        self.proxy_list = proxy_list
        self.logger = logging.getLogger(__name__)
    @classmethod
    def from_crawler(cls, crawler):
        # 获取 Scrapy 配置中的代理列表
        proxy_list = crawler.settings.get('PROXY_LIST')
        return cls(proxy_list)
    def process_request(self, request, spider):
        proxy = random.choice(self.proxy_list)
        request.meta['proxy'] = proxy
        self.logger.info(f'Using proxy: {proxy}')
```
配置中间件

在 Scrapy 的 settings.py 文件中，添加代理列表并启用自定义中间件：
```
# settings.py
# 代理列表
PROXY_LIST = [
    'http://123.456.789.1:8080',
    'http://987.654.321.0:8080',
    'http://192.168.1.1:8080',
    # 添加更多代理
]
# 启用自定义中间件
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomProxyMiddleware': 543,
}
```
中间件的工作流程
- 初始化：当 Scrapy 启动时，from_crawler 方法被调用，并传入 crawler 对象。中间件从 crawler.settings 中获取代理列表，并实例化 RandomProxyMiddleware。
- 处理请求：每次 Scrapy 发出请求时，process_request 方法被调用。中间件从代理列表中随机选择一个代理，并将其添加到请求的 meta 属性中。
- 记录日志：中间件会记录使用的代理信息，方便调试和监控。
  结论
  
  from_crawler 方法是 Scrapy 中间件中一个非常重要的工具，允许开发者在初始化中间件时访问 Scrapy 的核心组件和配置信息。通过使用 from_crawler 方法，可以轻松地从设置中获取所需的信息，并在中间件中实现复杂的逻辑。在实际项目中，充分利用 from_crawler 方法可以使中间件更加灵活和强大。

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

【Scrapy】深入了解 Scrapy 下载中间件中的 from

什么是 from_crawler 方法？

为什么使用 from_crawler 方法？

如何实现 from_crawler 方法？

示例：自定义代理中间件

配置中间件

中间件的工作流程

结论

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]