contest-proposal-agent-platform.md 18 KB

第二届 AI 大赛参赛项目建议书

项目名称

AI 智能巡检与故障归因 Agent 平台

赛道建议

赛道 A:商业创新线

一、项目执行摘要

本项目面向政企网站、业务系统和运行环境保障场景,建设一套集“页面巡检、服务监测、日志分析、告警归集、初步故障归因”于一体的 Agent 平台。项目的出发点并不是简单把巡检、监控、日志和报表功能堆在一个后台里,而是尝试用 Agent 协同执行、事件化归集和 AI 增强分析,重构从“发现异常”到“理解异常”的处理逻辑。

在传统保障模式下,值守人员通常需要自己串联多个动作:先访问页面确认现象,再切到服务监控界面看存活状态,再登录机器查端口、进程和日志,最后把判断结果写进值班记录或日报中。整个过程高度依赖个人经验,信息分散且不可沉淀,一旦换人接班,知识链就容易断裂。本项目希望把这条链路尽可能转化为平台内的一条机器可执行、可回放、可增强的事件链:前台巡检负责发现现象,Agent 监测负责补齐状态,日志分析负责归并问题,告警事件负责收敛结果,后续 AI 能力再继续增强解释和建议。

当前项目已经形成可本地部署、可外网代理访问、可真实执行的 MVP。系统已完成登录、后台工作台、巡检任务、执行记录、巡检报告、环境监测、告警事件、Agent 节点等核心模块,能够真实执行 Playwright 浏览器巡检任务,完成 HTTP、TCP、Redis、RabbitMQ、Elasticsearch、Java 应用等目标监测,产生运行记录、日志摘录、分析结果和告警事件,并支持从告警联动回到对应的目标对象和监测记录。

因此,本项目的价值不在于“又做了一个自动化工具”,而在于围绕真实保障场景,提供了一套已经跑通主链路、并且具备继续向智能化演进空间的 Agent 平台原型。它既可以作为当前阶段的实用型保障工具,也适合作为后续智能运维产品化能力的基础底座。

二、项目背景与业务痛点

政企网站和业务系统运维场景有一个非常典型的问题:问题从来不是“看不见”,而是“看见了以后要花很长时间才能定位明白”。很多单位已经有页面巡检、接口检测、日志平台、监控告警、值班台账,但这些系统之间通常彼此割裂,真正故障发生时,仍然依赖人员自己在多个系统之间切换与拼接信息。

2.1 当前常见工作方式

以一个典型网站保障场景为例,值守人员在早班巡检时,往往要完成以下动作:

  1. 打开门户首页、栏目页、专题页,检查页面是否可访问、是否白屏、关键内容是否缺失。
  2. 对重点功能做简单交互验证,例如搜索、跳转、登录入口、详情页打开等。
  3. 出现异常后,先截图留证,再到监控平台查看服务是否在线。
  4. 如果页面正常但业务异常,还要继续到服务器或日志系统里排查。
  5. 最终将异常现象、初步判断和处理意见再手工记录到日报或值班台账中。

这类工作模式存在三个核心问题:

2.2 现象和原因分离

页面巡检看到的是“现象”,服务监测拿到的是“状态”,日志系统记录的是“过程”,但三者往往并不在同一个工作面里。结果就是:

  • 页面异常发现得快,但定位慢。
  • 服务告警很多,但不容易判断是否已经影响业务页面。
  • 日志很多,但缺乏和具体问题对象的关联关系。

2.3 工具很多,但闭环很弱

很多单位并不缺功能工具,而是缺少一条完整闭环。传统工具更多解决的是单点问题:

  • 巡检工具负责定时访问。
  • 监控工具负责采集指标。
  • 日志工具负责存储检索。
  • 告警工具负责发送通知。

但真正故障处置需要的,是把这些片段串成一条连续的认知链。也就是说,系统不仅要告诉人“哪里坏了”,还要尽可能回答:

  • 这个问题影响了哪个页面或哪个目标?
  • 它属于临时波动还是稳定复现?
  • 日志里是否已经出现明确模式?
  • 该优先查哪一层?

2.4 经验依赖强,知识沉淀弱

很多判断并没有沉淀在系统中,而是沉淀在值守人员的经验中。例如:

  • 看到“连接重置”大概率先查数据库或网络。
  • 某个专题页打不开往往是上游发布失败。
  • 某类 Java 异常其实是配置或连接问题,而不是页面本身故障。

这些经验在传统模式下很难结构化复用。人员一换班、问题一换场景,之前积累的判断路径就很难被系统接住。

2.5 政企环境对落地方式有实际约束

与互联网公有云产品不同,政企环境通常还有以下落地约束:

  • 本地部署需求较强。
  • 存在内外网隔离或多级网络结构。
  • 需要通过反向代理统一访问。
  • 不能完全依赖外部 SaaS 服务。
  • 对数据库、部署方式和安全边界有更高要求。

这决定了项目不能只停留在“在线 AI 助手”层面,而必须以可本地运行、可逐步增强为原则,走一条更贴近实际的建设路径。

三、项目目标与设计原则

本项目不追求一步做到“全自动智能运维平台”,而是以真实可交付的 MVP 为起点,逐步增强智能能力。整体目标如下:

3.1 建设目标

  1. 建设统一的巡检与服务监测平台,减少多系统切换和重复劳动。
  2. 打通前台页面现象与后台运行状态,形成联合分析基础。
  3. 建立告警事件中心,把离散结果升级为可跟踪的问题对象。
  4. 让规则分析、日志模板归类和后续大模型能力成为同一演进链上的不同阶段,而不是割裂能力。
  5. 满足本地部署、代理访问、Agent 回连执行和后续安全扩展要求。

3.2 设计原则

为避免项目走向“功能堆叠”或“概念包装”,本项目坚持以下原则:

  1. 先跑通主链路,再逐步增强智能能力。
  2. 先保证真实执行、真实留痕,再谈智能解释。
  3. 先把问题对象化、事件化,再引入更强归因能力。
  4. AI 能力优先重构流程和交互逻辑,而不是仅增加一个摘要输出。
  5. 所有智能能力都必须能落回具体执行记录、监测目标和日志证据。

四、总体方案与全局架构

本项目总体采用“一个中枢、两条执行链、两类沉淀层”的架构。

4.1 平台中枢

平台后端承担统一中枢职责,负责:

  • 巡检任务与监测目标管理
  • 调度执行与运行记录管理
  • Agent 节点注册、控制和任务分发
  • 日志接入、分析编排和告警生成
  • 页面展示、详情联动和报告留痕

平台的作用不是单纯承载页面,而是把原本人工拼接的信息链变成一条可编排的处理链。

4.2 两条执行主链

主链一:外网智能巡检链

通过 Playwright 从真实用户视角执行页面访问与交互。平台不仅检查页面是否返回,还可以记录执行步骤、截图证据、异常位置和运行详情。对业务方来说,它看到的不再只是“站点可用/不可用”,而是一条可回看的巡检过程。

主链二:环境监测与 Agent 执行链

通过平台直接执行或宿主机 Agent 执行方式,对目标服务进行监测,采集结果、日志和细节信息。对于 Java、Redis、TCP 等组件,平台可以通过不同的执行方式形成更加贴近现场的监测记录。

4.3 两类沉淀层

事件沉淀层

把执行结果、监测异常和日志命中统一收敛成告警事件。这样问题不再只是散落在不同列表中的一条记录,而会成为一个有状态、有严重级别、有上下文的对象。

知识沉淀层

逐步沉淀日志模板、异常模式、建议动作和后续诊断经验,为未来引入知识库和真实大模型做铺垫。

五、核心模块与当前实现路径

5.1 智能巡检模块

系统已实现巡检任务创建、编辑、启停和手动执行,能够通过 Playwright 对真实站点进行浏览器巡检,产出执行步骤、截图留痕和结果记录。与简单接口探活不同,这条链路更接近真实用户视角,更适合政企网站保障和重点页面验证。

5.2 服务监测模块

当前系统已支持以下目标类型:

  • HTTP / HTTPS
  • TCP
  • Redis
  • RabbitMQ
  • Elasticsearch
  • Java 应用

对于这些目标,平台可以完成目标配置、执行、结果记录、日志摘录和详情展示,并逐步形成统一的运行画像。

5.3 Agent 节点模块

平台已支持宿主机 Agent 回连、领任务、回传执行结果和日志摘录。这个设计非常重要,因为它决定了平台未来不只是一个“集中页面”,而是具备继续向内网探针、分布式采集和端云协同扩展的能力基础。

5.4 告警事件模块

系统已经完成真实的 monitor_alert 事件生成,不再只是页面提示。平台支持严重级别、状态流转、详情查看、问题摘要和对象联动,能够从 /alerts 直接跳转到 /monitors 的目标和运行记录,实现从“问题发现”到“问题回溯”的闭环。

5.5 日志分析与初步归因模块

系统当前已经具备基于日志摘录和运行上下文的初步分析能力,支持:

  • 最近日志归并
  • 模板提取
  • 问题分类
  • 严重级别判定
  • 可能原因与建议动作输出

目前这一能力主要基于本地规则和模板归类实现,但它已经在逻辑上重构了值守流程:原本需要人自己去判断“这些日志是不是一类问题、该先查哪里”,现在平台已经可以先完成第一轮收敛与解释。

5.6 报告与留痕模块

系统支持执行记录、截图证据、巡检报告、监测详情和告警联动回溯。它的价值不仅在于“生成文档”,更在于把一次次执行、一次次异常和一次次处置过程沉淀为可回看的过程资产。

六、当前 MVP 已完成成果

项目当前已经完成一个可运行、可演示、可验证的 MVP,而不是纯概念方案。

6.1 已经真实跑通的能力

  1. 登录与后台工作台。
  2. 巡检任务、执行记录和巡检报告主链路。
  3. Playwright 真实浏览器巡检。
  4. 服务监测目标配置与执行。
  5. 宿主机 Agent 回连、领任务和回传结果。
  6. 日志摘录、异常分类和建议动作生成。
  7. 真实告警事件生成与告警详情查看。
  8. /monitors/alerts 之间的联动跳转。
  9. 本地部署、Nginx 代理访问与自检脚本校验。

6.2 当前仍属于 MVP 阶段的部分

  1. 外部通知通道尚未正式接入。
  2. OpenObserve 与 Drain3 当前是适配边界,尚未接成真实外部服务。
  3. AI 诊断当前以规则和模板归类为主,尚未接真实 LLM API。
  4. 服务守护和生产级部署能力仍需增强。

6.3 典型闭环示例

以当前已经跑通的 Java 服务监测场景为例,系统可以完成以下闭环:

  1. Agent 在目标机侧完成 Java 进程识别和日志摘录。
  2. 平台将运行结果与日志片段关联到具体监测记录。
  3. 分析层从日志中识别数据库通信异常等问题模式。
  4. 系统将结果升级为告警事件,而不是停留在一条普通运行记录。
  5. 运维人员可以从告警事件直接回到对应目标、监测记录和证据详情。

这说明平台当前已经具备一个简易但真实的“监测 -> 分析 -> 告警 -> 回溯”闭环。

七、项目 AI 属性与创新点

7.1 AI 不只是输出摘要,而是重构处理逻辑

参赛要求强调“作品应基于 AI 重构交互或逻辑,而非简单功能叠加或套壳”。本项目对此的回应是:AI 的角色不是给传统后台加一段文字解释,而是参与重构异常处理逻辑本身。

传统模式下,工作逻辑是:

  1. 人去访问页面。
  2. 人看到异常。
  3. 人去查服务状态。
  4. 人去看日志。
  5. 人自己判断是否同类问题。
  6. 人再写出结论和建议。

本项目希望将这条逻辑重构为:

  1. 系统自动执行页面巡检或服务监测。
  2. 系统自动沉淀运行记录与证据。
  3. 系统自动归并日志模式与问题类型。
  4. 系统自动升级为告警事件对象。
  5. 系统给出第一轮问题摘要、可能原因和建议动作。

因此,AI 在本项目中的价值体现为“改变问题被组织和被处理的方式”,而不仅仅是输出一段自然语言。

7.2 Agent 协同执行让智能能力真正落地

如果没有 Agent,这个平台只能停留在中心侧页面和少量远程调用能力上;而引入 Agent 之后,平台具备了把执行能力放到现场节点、把分析能力收拢到中枢平台的条件。这样一来,AI 能力就不是悬浮在页面上的“解释器”,而是建立在真实执行链和现场数据采集基础上的增强层。

7.3 事件化设计是逻辑重构的关键

本项目当前一个重要创新点,是把运行结果、异常日志和监测问题从“记录”升级为“事件”。这个变化看似简单,实际上重构了运维交互方式:

  • 记录只适合被查看。
  • 事件适合被跟踪、被联动、被沉淀、被再次分析。

这意味着平台正在从“结果展示系统”向“问题处理系统”过渡。

7.4 渐进式 AI 路线而非概念先行

项目没有把全部能力建立在大模型之上,而是先以规则分析、模板归类和真实执行链路把 MVP 跑通,再逐步接入更强的 AI 能力。这种路线更加务实,也更符合真实业务系统从可用到智能的演进规律。

7.5 面向政企场景的可落地设计

项目从一开始就考虑本地部署、Nginx 代理访问、数据库切换、Agent 回连执行和后续安全扩展等实际要求,这使得它与很多停留在云端体验层的 AI 项目不同,更有可能落入真实场景并继续打磨。

八、技术实现说明

8.1 前端

  • Next.js 16
  • React 19
  • TypeScript

8.2 后端

  • NestJS
  • Node.js
  • TypeORM

8.3 自动化与执行

  • Playwright:执行外网真实浏览器巡检
  • 宿主机 Agent:执行环境监测、日志摘录与结果回传

8.4 数据库与存储

  • MariaDB / MySQL 已跑通
  • Kingbase 已有兼容接入方案

8.5 部署方式

  • 支持本地部署
  • 支持 Nginx 代理访问
  • 当前适合演示、试运行和小范围验证

九、应用价值与推广前景

9.1 对现有保障工作的直接价值

本项目可直接服务于以下场景:

  • 政务门户和集团网站日常巡检
  • 专题页面和重点栏目保障
  • 运维值守和重保支撑
  • 服务运行状态检查与日志排查辅助
  • 异常说明、汇报留痕和复盘分析

它的直接价值主要体现在三点:

  1. 减少高频重复劳动。
  2. 缩短异常从发现到初步定位的时间。
  3. 提升异常证据和处理过程的可追溯性。

9.2 产品化扩展前景

项目具备向 2G / 2B 运维保障类场景扩展的潜力,可逐步形成:

  • 网站与站群巡检产品
  • 服务监测与告警平台
  • Agent 节点执行平台
  • 面向内外网协同的智能运维底座

随着通知通道、日志平台、知识库和真实大模型能力逐步接入,平台有机会从“可用 MVP”演进为“可落地产品化方案”。

十、后续演进路线

10.1 短期目标

  • 巩固当前 MVP 的稳定性
  • 完善服务进程守护和部署方式
  • 优化巡检、监测、告警和联动体验

10.2 中期目标

  • 接入真实通知通道
  • 接入真实日志平台与模板引擎
  • 完善规则中心、去重、静默和升级机制
  • 增强内外网协同和 Agent 执行能力

10.3 长期目标

  • 引入真实大模型 API
  • 建立运维知识库与问题画像
  • 实现更强的根因分析、报告生成和对话式诊断
  • 支撑多项目、多租户和更多行业场景扩展

十一、与同类方案相比的项目特色

相较于单纯的网站巡检工具,本项目更强调“页面巡检 + 服务监测 + 日志分析 + 告警归因”的一体化。

相较于单纯的监控平台,本项目更强调“前台现象”和“后台成因”的联动,以及真实巡检证据和运行证据的统一留存。

相较于完全概念化的 AI 运维方案,本项目已经具备真实执行链路、真实 Agent 监测和真实告警事件能力,更适合参赛展示,也更适合后续继续落地。

相较于“功能拼盘式”的系统建设方式,本项目更强调逻辑重构:不是把巡检、监测、日志、告警摆在同一个后台里,而是让这些信息在系统内部自动形成问题对象、事件链路和分析上下文。

十二、结语

AI 智能巡检与故障归因 Agent 平台不是停留在概念层面的题目,而是一项已经形成本地可运行示例、真实执行链路和明确演进路线的项目。项目立足政企网站与应用系统保障场景,围绕“巡检自动化、监测在线化、分析智能化、结果可追溯”构建核心能力,兼具现实应用价值、参赛展示价值和后续深化空间。

从当前阶段看,项目已经完成了简易 MVP 的关键闭环;从后续空间看,项目又具备沿着端云协同、日志智能分析和大模型归因方向继续增强的清晰路径。更重要的是,它不是对传统运维工具的简单叠加,而是在尝试用 Agent 协同执行、事件化归集和 AI 分析增强,重构从异常发现到初步定位的工作逻辑。作为参赛项目,它既有真实落地基础,也符合“基于 AI 重构交互或逻辑”的方向要求,适合用于当前阶段的报名展示和后续深化推进。