亚马逊云服务(AWS)发布完全托管的运营服务Amazon DevOps Guru

(全球TMT2020年12月8日讯)在亚马逊云服务(AWS)举办的年度盛会 -- AWS re:Invent上,AWS宣布了完全托管的运营服务Amazon DevOps Guru。利用机器学习技术,这一服务可以帮助开发人员通过自动检测操作问题和建议补救措施来提高应用程序可用性。Amazon DevOps Guru应用了支持Amazon.com和AWS卓越运营多年的机器学习技术,通过自动收集和分析应用程序指标、日志、事件和痕迹等数据,识别偏离正常操作模式的行为(例如,计算能力配置不足、数据库 I/O过度使用、内存泄漏等)。当Amazon DevOps Guru识别出可能导致服务中断的异常应用程序行为(例如,延迟、错误率和资源限制等增加)时,它将向开发人员发出问题详细信息(例如,涉及的资源、问题时间表和相关事件等),并通过Amazon Simple Notification Service(SNS)以及Atlassian Opsgenie和PagerDuty等合作伙伴集成服务来帮助开发人员快速了解问题的潜在影响和可能原因,并提出具体的修复建议。开发人员可以使用Amazon DevOps Guru的修复建议来减少问题修复时间,无需手动设置或机器学习专业知识即可提高应用程序的可用性和可靠性。

Amazon DevOps Guru的机器学习模型采用了亚马逊过去20多年为Amazon.com构建、扩展和维护高可用应用程序的运营专业知识。这使Amazon DevOps Guru能够自动检测运营故障(例如,警报遗漏或配置错误,资源耗尽的早期警告,可能导致停机的配置更改等),提供有关资源和相关事件的背景,并建议补救措施,而无需开发人员具备任何机器学习经验。开发人员只需在Amazon DevOps Guru控制台中单击几下,即可自动提取和分析所有资源的历史应用程序和延迟、错误率、请求率等基础架构指标,以建立操作基线,然后Amazon DevOps Guru就可以开始通过预先训练的机器学习模型识别与既定基线的偏差。当Amazon DevOps Guru分析系统和应用程序数据以自动检测异常时,它还将这些数据分组为运营洞察,包括异常指标、随着时间的推移对应用程序行为可视化、以及有关补救措施的建议。Amazon DevOps Guru还将相关的应用程序和基础架构指标(例如Web应用程序延迟峰值、磁盘空间用尽、错误的代码部署、内存泄漏等)相关联并进行分组,以减少冗余警报并帮助用户关注高严重性问题。客户可以通过查看配置更改历史记录、部署事件以及系统和用户活动,以在Amazon DevOps Guru控制台中生成需要优先关注的潜在操作问题事件列表。为了帮助客户快速解决问题,Amazon DevOps Guru提供了具有补救步骤的智能建议,并与AWS Systems Manager集成运行手册和协作工具,使客户能够更有效地维护应用程序并管理其部署的基础架构。Amazon DevOps Guru与Amazon CodeGuru(机器学习支持的开发人员工具,可提供智能建议以提高代码质量并识别应用程序中最昂贵的代码行)一起,使客户可以针对其操作数据使用自动化机器学习技术,帮助开发人员轻松提高应用程序的可用性和可靠性。

只需在AWS管理控制台中单击几下,客户就可以在数分钟内开始使用Amazon DevOps Guru分析账户和应用程序活动,提供运营见解。Amazon DevOps Guru通过汇总AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Ray等多个来源中的相关数据,让客户可以通过一个控制台可视化其运营数据,减少了在多种工具之间切换的需要。客户还可以在Amazon DevOps Guru控制台中查看 相关的运营事件和数据以获得运营见解,并通过Amazon SNS接收警报。此外,Amazon DevOps Guru通过AWS软件开发工具包(AWS SDK)支持API终端节点,使合作伙伴和客户可以轻松地将Amazon DevOps Guru集成到其现有解决方案中,以针对高严重性问题提交故障单、分级并自动通知工程师。 PagerDuty和Atlassian已将Amazon DevOps Guru集成到其运营监控和事件管理平台中,使用其解决方案的客户现在可以从Amazon DevOps Guru提供的运营见解中受益。 Amazon DevOps Guru现已在美国东部(北弗吉尼亚)区域、美国东部(俄亥俄)区域、美国西部(俄勒冈)区域、亚太(新加坡)区域和欧洲(爱尔兰)区域进行预览,并将在未来几个月中在其它地区推出。