Python使用scrapy采集数据过程中放回下载过大页面的方法

时间：2021-01-26 15:24:00|栏目：Python代码|点击：次

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下：

添加以下代码到settings.py，myproject为你的项目名称

 DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

复制代码代码如下:

 MAX_RESPONSE_SIZE = 1048576 # 1Mb
 
 from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
 
 class LimitSizePageGetter(ScrapyHTTPPageGetter):
 
     def handleHeader(self, key, value):
 
         ScrapyHTTPPageGetter.handleHeader(self, key, value)
 
         if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:
 
             self.connectionLost('oversized')
 
 class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):
 
      protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

上一篇：django-csrf使用和禁用方式

栏目：Python代码

下一篇：详解Django配置优化方法

本文标题：Python使用scrapy采集数据过程中放回下载过大页面的方法

本文地址：http://www.codeinn.net/misctech/51533.html

更多Python代码

Python代码

Python使用scrapy采集数据过程中放回下载过大页面的方法

阅读排行

推荐教程