AI 智能巡检与故障归因 Agent 平台
赛道 A:商业创新线
本项目面向政企网站、业务系统和运行环境保障场景,建设一套集“页面巡检、服务监测、日志分析、告警归集、初步故障归因”于一体的 Agent 平台。项目的出发点并不是简单把巡检、监控、日志和报表功能堆在一个后台里,而是尝试用 Agent 协同执行、事件化归集和 AI 增强分析,重构从“发现异常”到“理解异常”的处理逻辑。
在传统保障模式下,值守人员通常需要自己串联多个动作:先访问页面确认现象,再切到服务监控界面看存活状态,再登录机器查端口、进程和日志,最后把判断结果写进值班记录或日报中。整个过程高度依赖个人经验,信息分散且不可沉淀,一旦换人接班,知识链就容易断裂。本项目希望把这条链路尽可能转化为平台内的一条机器可执行、可回放、可增强的事件链:前台巡检负责发现现象,Agent 监测负责补齐状态,日志分析负责归并问题,告警事件负责收敛结果,后续 AI 能力再继续增强解释和建议。
当前项目已经形成可本地部署、可外网代理访问、可真实执行的 MVP。系统已完成登录、后台工作台、巡检任务、执行记录、巡检报告、环境监测、告警事件、Agent 节点等核心模块,能够真实执行 Playwright 浏览器巡检任务,完成 HTTP、TCP、Redis、RabbitMQ、Elasticsearch、Java 应用等目标监测,产生运行记录、日志摘录、分析结果和告警事件,并支持从告警联动回到对应的目标对象和监测记录。
因此,本项目的价值不在于“又做了一个自动化工具”,而在于围绕真实保障场景,提供了一套已经跑通主链路、并且具备继续向智能化演进空间的 Agent 平台原型。它既可以作为当前阶段的实用型保障工具,也适合作为后续智能运维产品化能力的基础底座。
政企网站和业务系统运维场景有一个非常典型的问题:问题从来不是“看不见”,而是“看见了以后要花很长时间才能定位明白”。很多单位已经有页面巡检、接口检测、日志平台、监控告警、值班台账,但这些系统之间通常彼此割裂,真正故障发生时,仍然依赖人员自己在多个系统之间切换与拼接信息。
以一个典型网站保障场景为例,值守人员在早班巡检时,往往要完成以下动作:
这类工作模式存在三个核心问题:
页面巡检看到的是“现象”,服务监测拿到的是“状态”,日志系统记录的是“过程”,但三者往往并不在同一个工作面里。结果就是:
很多单位并不缺功能工具,而是缺少一条完整闭环。传统工具更多解决的是单点问题:
但真正故障处置需要的,是把这些片段串成一条连续的认知链。也就是说,系统不仅要告诉人“哪里坏了”,还要尽可能回答:
很多判断并没有沉淀在系统中,而是沉淀在值守人员的经验中。例如:
这些经验在传统模式下很难结构化复用。人员一换班、问题一换场景,之前积累的判断路径就很难被系统接住。
与互联网公有云产品不同,政企环境通常还有以下落地约束:
这决定了项目不能只停留在“在线 AI 助手”层面,而必须以可本地运行、可逐步增强为原则,走一条更贴近实际的建设路径。
本项目不追求一步做到“全自动智能运维平台”,而是以真实可交付的 MVP 为起点,逐步增强智能能力。整体目标如下:
为避免项目走向“功能堆叠”或“概念包装”,本项目坚持以下原则:
本项目总体采用“一个中枢、两条执行链、两类沉淀层”的架构。
平台后端承担统一中枢职责,负责:
平台的作用不是单纯承载页面,而是把原本人工拼接的信息链变成一条可编排的处理链。
通过 Playwright 从真实用户视角执行页面访问与交互。平台不仅检查页面是否返回,还可以记录执行步骤、截图证据、异常位置和运行详情。对业务方来说,它看到的不再只是“站点可用/不可用”,而是一条可回看的巡检过程。
通过平台直接执行或宿主机 Agent 执行方式,对目标服务进行监测,采集结果、日志和细节信息。对于 Java、Redis、TCP 等组件,平台可以通过不同的执行方式形成更加贴近现场的监测记录。
把执行结果、监测异常和日志命中统一收敛成告警事件。这样问题不再只是散落在不同列表中的一条记录,而会成为一个有状态、有严重级别、有上下文的对象。
逐步沉淀日志模板、异常模式、建议动作和后续诊断经验,为未来引入知识库和真实大模型做铺垫。
系统已实现巡检任务创建、编辑、启停和手动执行,能够通过 Playwright 对真实站点进行浏览器巡检,产出执行步骤、截图留痕和结果记录。与简单接口探活不同,这条链路更接近真实用户视角,更适合政企网站保障和重点页面验证。
当前系统已支持以下目标类型:
对于这些目标,平台可以完成目标配置、执行、结果记录、日志摘录和详情展示,并逐步形成统一的运行画像。
平台已支持宿主机 Agent 回连、领任务、回传执行结果和日志摘录。这个设计非常重要,因为它决定了平台未来不只是一个“集中页面”,而是具备继续向内网探针、分布式采集和端云协同扩展的能力基础。
系统已经完成真实的 monitor_alert 事件生成,不再只是页面提示。平台支持严重级别、状态流转、详情查看、问题摘要和对象联动,能够从 /alerts 直接跳转到 /monitors 的目标和运行记录,实现从“问题发现”到“问题回溯”的闭环。
系统当前已经具备基于日志摘录和运行上下文的初步分析能力,支持:
目前这一能力主要基于本地规则和模板归类实现,但它已经在逻辑上重构了值守流程:原本需要人自己去判断“这些日志是不是一类问题、该先查哪里”,现在平台已经可以先完成第一轮收敛与解释。
系统支持执行记录、截图证据、巡检报告、监测详情和告警联动回溯。它的价值不仅在于“生成文档”,更在于把一次次执行、一次次异常和一次次处置过程沉淀为可回看的过程资产。
项目当前已经完成一个可运行、可演示、可验证的 MVP,而不是纯概念方案。
/monitors 与 /alerts 之间的联动跳转。以当前已经跑通的 Java 服务监测场景为例,系统可以完成以下闭环:
这说明平台当前已经具备一个简易但真实的“监测 -> 分析 -> 告警 -> 回溯”闭环。
参赛要求强调“作品应基于 AI 重构交互或逻辑,而非简单功能叠加或套壳”。本项目对此的回应是:AI 的角色不是给传统后台加一段文字解释,而是参与重构异常处理逻辑本身。
传统模式下,工作逻辑是:
本项目希望将这条逻辑重构为:
因此,AI 在本项目中的价值体现为“改变问题被组织和被处理的方式”,而不仅仅是输出一段自然语言。
如果没有 Agent,这个平台只能停留在中心侧页面和少量远程调用能力上;而引入 Agent 之后,平台具备了把执行能力放到现场节点、把分析能力收拢到中枢平台的条件。这样一来,AI 能力就不是悬浮在页面上的“解释器”,而是建立在真实执行链和现场数据采集基础上的增强层。
本项目当前一个重要创新点,是把运行结果、异常日志和监测问题从“记录”升级为“事件”。这个变化看似简单,实际上重构了运维交互方式:
这意味着平台正在从“结果展示系统”向“问题处理系统”过渡。
项目没有把全部能力建立在大模型之上,而是先以规则分析、模板归类和真实执行链路把 MVP 跑通,再逐步接入更强的 AI 能力。这种路线更加务实,也更符合真实业务系统从可用到智能的演进规律。
项目从一开始就考虑本地部署、Nginx 代理访问、数据库切换、Agent 回连执行和后续安全扩展等实际要求,这使得它与很多停留在云端体验层的 AI 项目不同,更有可能落入真实场景并继续打磨。
本项目可直接服务于以下场景:
它的直接价值主要体现在三点:
项目具备向 2G / 2B 运维保障类场景扩展的潜力,可逐步形成:
随着通知通道、日志平台、知识库和真实大模型能力逐步接入,平台有机会从“可用 MVP”演进为“可落地产品化方案”。
相较于单纯的网站巡检工具,本项目更强调“页面巡检 + 服务监测 + 日志分析 + 告警归因”的一体化。
相较于单纯的监控平台,本项目更强调“前台现象”和“后台成因”的联动,以及真实巡检证据和运行证据的统一留存。
相较于完全概念化的 AI 运维方案,本项目已经具备真实执行链路、真实 Agent 监测和真实告警事件能力,更适合参赛展示,也更适合后续继续落地。
相较于“功能拼盘式”的系统建设方式,本项目更强调逻辑重构:不是把巡检、监测、日志、告警摆在同一个后台里,而是让这些信息在系统内部自动形成问题对象、事件链路和分析上下文。
AI 智能巡检与故障归因 Agent 平台不是停留在概念层面的题目,而是一项已经形成本地可运行示例、真实执行链路和明确演进路线的项目。项目立足政企网站与应用系统保障场景,围绕“巡检自动化、监测在线化、分析智能化、结果可追溯”构建核心能力,兼具现实应用价值、参赛展示价值和后续深化空间。
从当前阶段看,项目已经完成了简易 MVP 的关键闭环;从后续空间看,项目又具备沿着端云协同、日志智能分析和大模型归因方向继续增强的清晰路径。更重要的是,它不是对传统运维工具的简单叠加,而是在尝试用 Agent 协同执行、事件化归集和 AI 分析增强,重构从异常发现到初步定位的工作逻辑。作为参赛项目,它既有真实落地基础,也符合“基于 AI 重构交互或逻辑”的方向要求,适合用于当前阶段的报名展示和后续深化推进。