当前位置:首页 > 人工智能
核心业务涵盖:高等级T4标准机房机柜租赁服务,支持6kW至20kW弹性电力配置,配备BGP多线带宽、N+1冗余UPS及柴油发电机保障,确保99.99%电力可用性。服务涵盖安全监控、故障应急响应。提供云主机、云专线、多云管理平台等服务,支持数据备份、跨云容灾及AI模型训练。整合GPU集群与国产算力资源,提供智算一体机、算力租赁及MaaS平台,支持大模型训练、推理任务,资源智能调度。
联系人:
湖北省软件行业协会
联系电话:
027-88710710
E-mail:
内容详情

中金超算自动运维智能体


基于大语言模型的多中心智能运维助手,以全量运维数据为核心驱动,革新传统运维模式。产品深度整合监控探针、日志采集器等工具,全面抓取故障记录、巡检报表、排障方案等多源数据,经标准化处理与结构化沉淀,构建专属运维知识库。依托多 Agent 协同架构与先进 LLM 能力,支持自然语言对话交互,用户可轻松完成资源查询、故障诊断、报表生成等操作,实现 “对话即运维”。针对不同中心特性差异化适配,全程提供精准响应。内置自动迭代机制,通过增量学习持续吸收新案例、优化模型,结合权限分级与二次确认机制保障操作安全。产品大幅缩短故障处理时长,降低人工干预成本,将运维效率提升 30% 以上。

 

核心功能围绕运维全流程闭环展开:数据层作为基础支撑,通过 API 对接、OCR 识别、日志抓取等多模式采集故障记录、巡检报表、排障方案、资源负载数据、运维报告等多源信息,经去重清洗、术语归一化、字段标准化处理后,构建运维知识库;交互层可通过日常表述快速发起资源查询、故障咨询、报表定制、操作问询等轻量化需求,智能体实时解析意图并调取对应数据或知识,反馈结果;完成从故障预警、智能诊断、方案生成到简单故障自动处置、复杂问题精准方案推送;迭代层自动抓取新增运维数据、用户反馈的优化建议及新场景解决方案,通过轻量化微调技术更新模型参数,同步扩充知识库,核心能力自主地持续优化,适配运维场景的动态变化。

 

覆盖 “日常监控 - 故障处置 - 报表生成 - 优化迭代” 核心环节:日常运维中,运维人员可通过对话快速查询多中心资源负载、硬件运行状态、历史故障数据,智能体实时返回可视化结果;故障突发场景下,用户可上传故障日志、截屏或直接描述现象,智能体快速匹配知识库,定位根因并推送排障方案,简单故障自动执行处置指令,复杂故障标记关键节点辅助人工高效排查;周期性运维场景中,自动汇总巡检记录、故障处理情况生成标准化报告;此外智能体可提供历史案例查询、操作流程指引,成为跨场景、全时段的运维支撑伙伴,适配不同规模算力中心的差异化需求。