python爬虫调度器用法及实例代码

脚本专栏 2025/4/5 佚名

3 2 1

我们一般使用爬虫看到的都是最后的数据结果，对于整个的获取过程没有过多了解过。对于初学python的小伙伴们来说，不光是代码的练习，还是原理的分析都是必不可少的。

小编把整个爬取的过程分为了几个部分，从一开始的下载，到数据的去重解析，再到整个爬虫循环的结束，以图片和代码的双重形式展现给大家，希望能够对爬虫调度器有一个深刻的理解。

我们可以编写几个元件，每个元件完成一项功能，下图中的蓝底白字就是对这一流程的抽象：

UrlManager：将存储和获取url以及url去重的几个步骤在url管理器中完成（当然也可以针对每一步分别编写相应的函数，但是这样更直观）。url管理器要有两个url仓库，一个存储未爬取的url，一个存储已爬取的url，除了仓库之外，还应该具有一些完成特定功能的函数，如存储url、url去重、从仓库中挑选并返回一个url等
HtmlDownloader：将下载网页内容的功能在HTML下载器中完成，下载器的功能较为单一，不多解释。但从整个爬虫的角度上来说，下载器是爬虫的核心，在实际操作的过程中，下载器要和目标网站的各种反爬虫手段斗智斗勇（各种表单、隐藏字段和假链接、验证码、IP限制等等），这也是最耗费大脑的步骤
HtmlParser：解析提取数据的功能在HTML解析器中完成，解析器内的函数应该分别具有返回数据和新url的功能
DAtaOutput：存储数据的功能由数据存储器完成
SpiderMan：主循环由爬虫调度器来完成，调度器为整个程序的入口，将其余四个元件有序执行

爬虫调度器将要完成整个循环，下面写出python下爬虫调度器的程序：

# coding: utf-8
new_urls = set()
data = {}
class SpiderMan(object):
 def __init__(self):
  #调度器内包含其它四个元件，在初始化调度器的时候也要建立四个元件对象的实例
  self.manager = UrlManager()
  self.downloader = HtmlDownloader()
  self.parser = HtmlParser()
  self.output = DataOutput()
 def spider(self, origin_url):
  #添加初始url
  self.manager.add_new_url(origin_url)
  #下面进入主循环，暂定爬取页面总数小于100
  num = 0
  while(self.manager.has_new_url() and self.manager.old_url_size()<100):
   try:
    num = num + 1
    print "正在处理第{}个链接".format(num)
    #从新url仓库中获取url
    new_url = self.manager.get_new_url()
    #调用html下载器下载页面
    html = self.downloader.download(new_url)
    #调用解析器解析页面，返回新的url和data
    try:
     new_urls, data = self.parser.parser(new_url, html)
    except Exception, e:
     print e
    for url in new_urls:
     self.manager.add_new_url(url)
    #将已经爬取过的这个url添加至老url仓库中
    self.manager.add_old_url(new_url)
    #将返回的数据存储至文件
     self.output.store_data(data)
     print "store data succefully"
    print "第{}个链接已经抓取完成".format(self.manager.old_url_size())
   except Exception, e:
    print e
  #爬取循环结束的时候将存储的数据输出至文件
  self.output.output_html()

从整个循环的流程我们可以看出，由爬虫调度器指挥四个元件完成数据的抓取、筛选、保存流程，并以此为基础还可以进行新的循环。看懂原理之后，我们就可以使用以上的代码进行实战啦。

python,爬虫,调度器

标签：

python,爬虫,调度器

免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

内蒙古资源网 Copyright www.nmgbbs.com

评论“python爬虫调度器用法及实例代码”

python爬虫调度器用法及实例代码

暂无“python爬虫调度器用法及实例代码”评论...

www.nmgbbs.com 内蒙古资源网

129,905影音资源

244,626技术资源

111,817软件资源

578,645站长资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2025/4/5

可与Spreadsheets媲美的在线表格系统:EditG

2025/4/5

cygwin使用心得

2025/4/5

脚本的DVD开发

2025/4/5

局域网设置自动配置脚本文件的写法与用途

2025/4/5

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2025/4/5

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

python爬虫调度器用法及实例代码

python,爬虫,调度器

Python读取图像并显示灰度图的实现

Python性能测试工具Locust安装及使用

评论“python爬虫调度器用法及实例代码”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

python爬虫调度器用法及实例代码

python,爬虫,调度器

Python读取图像并显示灰度图的实现

Python性能测试工具Locust安装及使用

评论“python爬虫调度器用法及实例代码”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存