博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫之scrapy框架(对比之下,一切通俗易懂)
阅读量:2339 次
发布时间:2019-05-10

本文共 1436 字,大约阅读时间需要 4 分钟。

python爬虫之scrapy框架(对比之下,一切通俗易懂)

首先回顾一下常见的爬虫的路线方法
  • 首先,调用requests库,根据url网址,获取对应的网页的html信息
  • 然后,对爬取回来的html信息进行信息的搜索和采集
  • 最后,将获取的信息进行相关的操作,输出或者保存

如下图

# 获取html的方法def getHTMLtext(url):    return ""# 将获取的html信息提取,并将之填写到对应的表格中def fillUnivList(text):    univList = list()    return univList# 将已经填写好的数据进行输出,num确定你要输出的列表的项数def printUnivList(alist,num):    print(alist)# main方法,将所有方法进行统揽,进而形成一个完整的程序def main():    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html"    text = getHTMLtext(url)    uniList = fillUnivList(text)    printUnivList(uniList,40)# 总的调用main()
  • 概括一下,无非就散步
    • 从url中下载html页面
    • 对html页面进行分析和爬取
    • 将爬取的结果进行相关操作
对应的scrapy框架
  • 基本结构:5+2框架,5个模块,2个中间件

在这里插入图片描述在这里插入图片描述

  • Downloader:根据请求的url,下载对应的html网页,相应的输出的是response对象
  • Spider:爬取获得到html页面,进行信息筛选,将输入到的信息以item的形式输出。但是,一个scrapy是网站级的爬取软件,很多的网址都在对应的html页面中,所以还有可能返回对应的url爬取请求requests
  • Item pipelines:对爬取的信息进行相关的操作,保存还是输出。获取Sipder的item对象,并对其进行相关的操作
  • Engine:相当于一个中转站,用于协调各个部件发送信息的中专。把requests请求,发送给Spiders,让其爬取。将response对象,发送给item pipeline进行加工。等等
  • Scheduler:主要负责对所有的爬取请求进行调度管理,不要要用户进行修改
数据流的三个路径
  • 路径一:
    • Engine从Spider出获得爬取请求Requests
    • Engine将爬取请求转发给Scheduler,用于调度

在这里插入图片描述

  • 路径二:
    • Engine从Scheduler处获得下一个要爬取的请求
    • Engine将爬取请求Requests发送给Downloader
    • 爬取网页之后,Downloader进行下载,形成相应的Response对象,通过中间件发给Engine
    • Engine将收到的响应通过中间件发送给Spider处理

在这里插入图片描述

  • 路径三:
    • Spider处理响应后产生爬取项Item和新的爬取请求Requests给Engine
    • Engine将爬取项发送给Item Pipeline进行整理
    • Engine将爬取请求发送给Scheduler进行下一次调度

在这里插入图片描述

  • 综上
    • 用户只需要将自己的爬取请求输入到对应的Spider中,同时将自己对文件的加工请求写入到对应的Item Pipeline中,所以一般使用scrapy框架都只修改Spider和Item Pipeline

转载地址:http://zggpb.baihongyu.com/

你可能感兴趣的文章
5G 发展报告:以四项技术为基础,广泛应用还需十年
查看>>
边缘计算芯片格局分析
查看>>
怎样理解阻塞非阻塞与同步异步的区别?
查看>>
TCP协议中的三次握手和四次挥手(图解) .
查看>>
串行通信里的异步通信与同步通信的区别
查看>>
编程箴言
查看>>
线性表之链队列(C语言实现)
查看>>
线性表之顺序队列(循环队列)(C语言实现)
查看>>
机器学习之神经网络
查看>>
早期深度神经网络的问题
查看>>
神经网络之代价函数的选择
查看>>
神经网络之softmax神经元
查看>>
Intellij IDEA使用入门
查看>>
MySQL下载安装、配置与使用(win7x64)
查看>>
单点登录系统记录
查看>>
activiti工作流引擎记录
查看>>
disconf配置中心的使用记录
查看>>
mysql索引与全表扫描
查看>>
java虚拟机内存管理
查看>>
破解visio2013记录
查看>>