亚马逊云科技推出Amazon DevOps Guru自动化运营服务

(全球TMT2021年5月21日讯)近日,亚马逊云科技宣布Amazon DevOps Guru正式可用。这是一项完全托管的运营服务,使用机器学习技术自动检测运营问题,并对具体的修复措施给出建议,让开发者更轻松地提高应用的可用性。凭借亚马逊电商Amazon.com和亚马逊云科技多年来卓越的运营经验,Amazon DevOps Guru采用机器学习技术自动分析数据,如应用程序指标、日志、事件,并跟踪偏离正常运营模式的行为。当Amazon DevOps Guru发现可能导致停机或服务中断的异常应用程序行为时,它会向开发人员发出告警通知并提供问题详细信息,帮助他们快速了解问题的潜在影响和可能的原因,并提供修复的具体建议。开发人员可以使用Amazon DevOps Guru提供的补救建议,减少解决问题的时间,并提高应用程序的可用性 -- 所有这些都不需要手动设置或机器学习专业知识。

Amazon DevOps Guru的机器学习模型借鉴Amazon.com 20多年来在构建、扩展和维护高可用的应用程序方面的运营经验。该服务能够自动检测运营问题(例如,缺少或配置错误的警报、资源耗尽的早期预警、可能导致宕机的配置更改等),提供涉及资源和相关事件的情境,建议采取补救措施。用户只需在Amazon DevOps Guru控制台点击几下,就会自动从其亚马逊云科技应用程序中获取历史应用程序和基础设施指标(如延迟、错误率和资源请求率),并进行分析,建立正常的运营边界。Amazon DevOps Guru使用一个预先训练的机器学习模型来识别与正常操作模式偏离的行为(例如,不足的计算能力、数据库I/O利用率、内存泄漏等)。当Amazon DevOps Guru分析系统和应用数据自动检测异常时,它还将这些数据分组到运营洞察中,包括异常指标、应用程序随时间变化的行为可视化,以及补救措施建议 -- 所有这些都可以在Amazon DevOps Guru控制台轻松查看。Amazon DevOps Guru还将相关的应用程序和基础设施指标(例如web应用程序延迟峰值、磁盘空间耗尽、糟糕的代码部署等)关联和分组,以减少冗余警报,帮助用户关注严重的问题。客户可以通过Amazon DevOps Guru控制台的仪表板查看配置更改历史和部署事件,以及系统和用户活动,从而生成一个可能导致运营问题的优先级列表。为了帮助客户快速解决问题,Amazon DevOps Guru提供含有补救步骤的智能建议,并与Amazon Systems Manager集成,用于运行手册和协作工具,使客户能够更有效地维护应用程序和管理其部署的基础设施。例如,当使用Amazon Relational Database Service (RDS)的分析应用程序开始显示出延迟性能退化时,Amazon DevOps Guru将通过自动分析跨应用程序堆栈的相关指标来检测变化,确定潜在的根本原因(例如并发计算实例写入RDS的数量增加),并提供解决问题的建议(例如增加RDS的容量和IOPS存储以处理更高的负载)。

与Amazon CodeGuru服务一起,Amazon DevOps Guru为客户带来了面向其运营数据的机器学习自动化优势,让开发人员可以更轻松地提高应用可用性和可靠性。Amazon CodeGuru是一个由机器学习驱动的开发工具,为提高代码质量和识别应用程序最昂贵的代码行提供智能建议。