使用Scrapyd远程控制Scrapy抓取任务

前两天使用Apscheduler和Scrapy做的定时抓取遇到了一个问题，蜘蛛抓取第一次之后就不再抓取了，但是Apscheduler是没有问题的，一直无法解决，后来经过一个人的指点，有Scrapyd这东西，服务端的Scrapy，提供http接口，可以实现项目以及蜘蛛的管理，在这简单记录一下Scrapyd的使用过程。首先安装Scrapy，然后是安装Scrapyd，可以通过pip或者源码安装，安装之后还需要安装一个东西，就是scrapyd-client，github地址是：https://github.com/scrapy/scrapyd-client，README中有详细的使用方法部署完成之后使用scrapyd命令启动服务，然后就可以使用http接口执行各种任务，包括：查看当前爬虫状态、添加新版本项目、执行爬虫任务、取消任务等等，详细的可以查看文档：http://scrapyd.readthedocs.org/en/latest/api.html scrapy的定时任务功能很少，不能满足项目需求，然后还是要使用Apscheduler进行控制，定时执行http请求，然后scrapy完成爬虫任务。