python爬虫中celery如何进行定时操作

790次阅读

使用定时功能对于我们想要快速获取某个数据来说，是一个非常好的方法。这样我们就不用苦苦守在电脑屏幕前，只为蹲到某个想要的东西。在之前我们已经讲过time函数进行定时操作，这算是time函数的比较基础的一个用法了。其实定时功能同样可以用celery实现，具体的方法我们往下看：

爬虫由于其特殊性，可能需要定时做增量抓取，也可能需要定时做模拟登陆，以防止cookie过期，而celery恰恰就实现了定时任务的功能。在上述基础上，我们将`tasks.py`文件改成如下内容

from celery import Celery
app = Celery('add_tasks', broker='redis:''//223.129.0.190:6379/2', backend='redis:''//223.129.0.190:6379/3')
app.conf.update(
   #  配置所在时区
    CELERY_TIMEZONE='Asia/Shanghai',
    CELERY_ENABLE_UTC=True,
    #  官网推荐消息序列化方式为json
    CELERY_ACCEPT_CONTENT=['json'],
    CELERY_TASK_SERIALIZER='json',
    CELERY_RESULT_SERIALIZER='json',
   # 配置定时任务
    CELERYBEAT_SCHEDULE={
        'my_task': {
            'task': 'tasks.add',  # tasks.py模块下的add方法
            'schedule': 60,      # 每隔60运行一次
            'args': (23, 12),
        }
    }
)
@app.task
def add(x, y):
return x + y

然后先通过`ctrl+c`停掉前一个worker，因为我们代码改了，需要重启worker才会生效。我们再次以`celery -A tasks worker -l info`这个命令开启worker。

这个时候我们只是开启了worker，如果要让worker执行任务，那么还需要通过beat给它定时发送，我们再开一个命令行，切换到项目根目录，通过

celery beat -A tasks -l info

celery beat v3.1.25 (Cipater) is starting.
 
__ - ... __ - _
 
Configuration ->
 
. broker -> redis://223.129.0.190:6379/2
 
. loader -> celery.loaders.app.AppLoader
 
. scheduler -> celery.beat.PersistentScheduler
 
. db -> celerybeat-schedule
 
. logfile -> [stderr]@%INFO
 
. maxinterval -> now (0s)
 
[2017-05-19 15:56:57,125: INFO/MainProcess] beat: Starting...

这样就表示定时任务已经开始运行了。python实现定时器的实现方式

今天的celery在python爬虫中进行定时操作的讲解到这里就结束了，当然在python中除了我们之前和今天讲过的，还有很多其他定时的方法，小伙伴们可以自行挖掘一下。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-21

# 定时器

复制链接

赏

python爬虫中celery如何进行定时操作

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置