监控系统在异构人工智能算力平台的实践探索

作者

  • Jinhua Wang 广州掌动智能科技有限公司 作者
  • Ruiyi Liao 作者
  • Jianfang Luo 作者

DOI:

https://doi.org/10.70695/shuysw13

关键词:

监控系统、数据采集、资源利用率

摘要

随着AI在垂直领域的业务规模的增长,对应的服务器及相关的服务日益增多,监控对象越来越多,监控数据的量级也成倍的上涨。鉴于监控数据量级非常庞大,数据的消费方各不相同,监控系统对于数据的处理也不尽相同,需要监控服务模块化架构设计;通过收集和展示数据,监控系统能够及时发现系统或应用程序的健康状态、性能系统或应用程序的健康状态、性能指标、错误情况,以确保应用程序和系统的稳定性和可靠性。基于模块化设计理念,支持用户自定义规则进行监控告警、实时查看监控指标趋势变化。从而能观察各个系统、应用程序的总体情况和所有时刻的状态。当系统或应用程序出现或者即将出现故障时,监控系统需要迅速反应并告警,才能够对问题进行快速的处理或者提前预防。通过系统架构设计、系统性能分析,展示了监控系统在异构 AI 算力提高资源利用率、优化任务执行效率和降低运营成本方面的显著效果。

已发布

2024-12-31

如何引用

Wang, J., Liao, R., & Luo, J. (2024). 监控系统在异构人工智能算力平台的实践探索. 人工智能应用创新, 1(4), 47-53. https://doi.org/10.70695/shuysw13