AI 智能巡检与故障归因 Agent 平台
赛道 A:商业创新线
本项目面向政企网站、业务系统和运行环境保障场景,建设一套集智能巡检、服务监测、日志分析、告警归集与初步故障归因为一体的 Agent 平台。平台围绕“异常发现更早、问题定位更快、结果留痕更完整、后续扩展更容易”的目标,尝试将浏览器自动化巡检、宿主机 Agent 监测、日志摘录分析、告警事件管理与后续 AI 诊断能力整合到统一系统中。
项目当前已经形成可本地部署、可外网代理访问、可真实执行的 MVP。系统已完成登录、工作台、巡检任务、执行记录、巡检报告、环境监测、告警事件、Agent 节点等核心模块,能够真实执行浏览器巡检任务,完成多类服务目标监测,生成运行记录、日志分析结果与告警事件,并支持从告警跳转到对应的目标对象和监测记录。
本项目的核心特点,不是单纯“做一个脚本执行工具”,也不是单纯“做一个服务监控页面”,而是将前台可见现象与后台运行状态尽可能统一到一个平台之内。它既能从用户视角发现页面异常,也能从服务视角采集运行状态,并通过日志摘录、模板归类和问题建议,把原本割裂的巡检、监测、日志、告警和报告链路串联起来,形成可演示、可落地、可继续增强的智能运维雏形。
在政企网站保障、重点专题值守、重保支撑和应用系统运维场景中,人工巡检仍承担大量重复性工作。日常值守往往需要定时访问页面、核查栏目、验证关键功能、截图留痕、登记结果并汇总日报。一旦发现异常,还要切换到服务监测、端口检查、进程确认、日志排查等后端工作,定位链路长,响应效率低。
当前常见模式主要存在以下问题:
因此,本项目聚焦一条务实主线:先把异常发现、证据留存、事件归集和初步归因跑通,再逐步增强智能分析能力,最终形成适合政企环境的智能巡检与故障归因平台。
本项目总体采用“一个平台中枢、两条执行主链、两类沉淀能力”的架构。
平台后端作为统一中枢,负责:
通过 Playwright 执行真实浏览器巡检,完成页面访问、关键交互、断言验证、截图留痕、步骤日志记录和巡检报告生成。
通过平台直接执行或宿主机 Agent 执行方式,对 HTTP、TCP、Redis、RabbitMQ、Elasticsearch、Java 应用等目标进行监测,采集运行结果、日志摘录和监测明细,并生成告警事件。
将页面异常、监测失败、日志异常和状态变化统一沉淀为告警事件。
逐步沉淀日志模板、问题分类、建议动作和归因经验,为后续知识库和真实大模型接入奠定基础。
当前已支持以下目标类型:
系统支持目标配置、执行、运行记录、日志摘录和监测详情查看。
当前已实现:
当前这一能力主要采用本地规则分析与模板归类实现,后续可逐步接入真实日志平台和外部大模型。
截至目前,项目已经形成可运行、可演示、可验证的最小可行产品。
/alerts 页面展示。/monitors 与 /alerts 之间的对象级联动跳转。本项目并不把 AI 等同于“一个聊天框”或“单次模型调用”,而是尝试将巡检、监测、日志、告警和报告整合进一条可执行、可留痕、可回看、可增强的链路中,使系统具备从自动执行向辅助判断逐步升级的能力。
平台采用“平台中枢 + 宿主机 Agent”的执行模式。执行能力尽量靠近现场,分析能力集中沉淀到平台,更适合政企环境下的内外网隔离、分节点部署和后续边缘扩展。
传统巡检只关注页面能否打开,传统监控又只关注服务是否在线。本项目尝试将页面异常、服务状态、日志模式和告警事件统一关联,推动问题发现与问题定位一体化。
项目没有一开始就把全部能力建立在大模型之上,而是先以真实执行链路、规则分析和模板归类跑通 MVP,再逐步接入真实大模型能力。这种路径更稳健,也更适合真实落地和持续迭代。
项目从设计之初就考虑了本地部署、Nginx 代理访问、数据库切换、Agent 执行和后续安全扩展等要求,更贴近政企项目实际实施条件。
本项目可直接服务于以下场景:
项目具备向 2G / 2B 运维保障类场景扩展的潜力,可逐步形成:
随着日志平台、通知通道、知识库和真实大模型能力逐步接入,平台有机会从“可用 MVP”演进为“可落地产品化方案”。
相较于单纯的网站巡检工具,本项目更强调“页面巡检 + 服务监测 + 日志分析 + 告警归因”的一体化。
相较于单纯的监控平台,本项目更强调“前台现象”和“后台成因”的联动,以及真实巡检证据和运行证据的统一留存。
相较于完全概念化的 AI 运维方案,本项目当前已经具备真实执行链路、真实 Agent 监测和真实告警事件能力,更适合参赛展示,也更适合后续继续落地。
AI 智能巡检与故障归因 Agent 平台不是停留在概念层面的题目,而是一项已经形成本地可运行示例、真实执行链路和明确演进路线的项目。项目立足政企网站与应用系统保障场景,围绕“巡检自动化、监测在线化、分析智能化、结果可追溯”构建核心能力,兼具现实应用价值、参赛展示价值和后续深化空间。
从当前阶段看,项目已经完成了简易 MVP 的关键闭环;从后续空间看,项目又具备沿着端云协同、日志智能分析和大模型归因方向继续增强的清晰路径。作为参赛项目,它既有真实落地基础,也有持续升级的技术空间,适合用于当前阶段的报名展示和后续深化推进。