使用Scrapyd远程控制Scrapy抓取任务

前两天使用Apscheduler和Scrapy做的定时抓取遇到了一个问题,蜘蛛抓取第一次之后就不再抓取了,但是Apscheduler是没有问题的,一直无法解决,后来经过一个人的指点,有Scrapyd这东西,服务端的Scrapy,提供http接口,可以实现项目以及蜘蛛的管理,在这简单记录一下Scrapyd的使用过程。 首先安装Scrapy,然后是安装Scrapyd,可以通过pip或者源码安装,安装之后还需要安装一个东西,就是scrapyd-client,github地址是:https://github.com/scrapy/scrapyd-client,README中有详细的使用方法 部署完成之后使用scrapyd命令启动服务,然后就可以使用http接口执行各种任务,包括:查看当前爬虫状态、添加新版本项目、执行爬虫任务、取消任务等等,详细的可以查看文档:http://scrapyd.readthedocs.org/en/latest/api.html scrapy的定时任务功能很少,不能满足项目需求,然后还是要使用Apscheduler进行控制,定时执行http请求,然后scrapy完成爬虫任务。