如何使用 Boto3 更新 AWS Glue 数据目录中爬网程序的调度程序
在本文中,我们将了解如何更新AWS账户中存在的爬网程序的调度程序。
示例
问题陈述:使用Python中的boto3库更新爬虫的调度器。
解决这个问题的方法/算法
第一步:导入boto3和botocore异常处理异常。
第二步:crawler_name和scheduler是这个函数中需要的参数。
调度程序的格式应为cron(cron_expression).Cron_Expression可以写成(1512**?*),即爬虫会在每天12:15UTC运行。
步骤3:使用boto3lib创建AWS会话。确保在默认配置文件中提到region_name。如果未提及,则在创建会话时显式传递region_name。
第4步:为glue创建一个AWS客户端。
第5步:现在使用update_crawler_schedule函数并将参数crawler_name作为CrawlerName和scheduler作为Schedule传递。
第六步:返回响应元数据,更新爬虫的调度状态。
第7步:如果在更新爬虫的调度程序时出现问题,则处理通用异常。
示例代码
以下代码更新爬虫的调度程序-
import boto3 frombotocore.exceptionsimport ClientError def update_scheduler_of_a_crawler(crawler_name, scheduler) session = boto3.session.Session() glue_client = session.client('glue') try: response = glue_client.update_crawler_schedule(CrawlerName=crawler_name, Schedule=scheduler) return response except ClientError as e: raise Exception("boto3 client error in update_scheduler_of_a_crawler: " + e.__str__()) except Exception as e: raise Exception("Unexpected error in update_scheduler_of_a_crawler: " + e.__str__()) print(update_scheduler_of_a_crawler("Data Dimension","cron(15 12 * * ? *)"))输出结果
{'ResponseMetadata': {'RequestId': '73e50130-*****************8e', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Sun, 28 Mar 2021 07:26:55 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '2', 'connection': 'keep-alive', 'x-amzn-requestid': '73e50130-***************8e'}, 'RetryAttempts': 0}}