contest-proposal-agent-platform - 副本.md 11 KB

第二届 AI 大赛参赛项目建议书

项目名称

AI 智能巡检与故障归因 Agent 平台

赛道建议

赛道 A:商业创新线

一、项目执行摘要

本项目面向政企网站、业务系统和运行环境保障场景,建设一套集智能巡检、服务监测、日志分析、告警归集与初步故障归因为一体的 Agent 平台。平台围绕“异常发现更早、问题定位更快、结果留痕更完整、后续扩展更容易”的目标,尝试将浏览器自动化巡检、宿主机 Agent 监测、日志摘录分析、告警事件管理与后续 AI 诊断能力整合到统一系统中。

项目当前已经形成可本地部署、可外网代理访问、可真实执行的 MVP。系统已完成登录、工作台、巡检任务、执行记录、巡检报告、环境监测、告警事件、Agent 节点等核心模块,能够真实执行浏览器巡检任务,完成多类服务目标监测,生成运行记录、日志分析结果与告警事件,并支持从告警跳转到对应的目标对象和监测记录。

本项目的核心特点,不是单纯“做一个脚本执行工具”,也不是单纯“做一个服务监控页面”,而是将前台可见现象与后台运行状态尽可能统一到一个平台之内。它既能从用户视角发现页面异常,也能从服务视角采集运行状态,并通过日志摘录、模板归类和问题建议,把原本割裂的巡检、监测、日志、告警和报告链路串联起来,形成可演示、可落地、可继续增强的智能运维雏形。

二、项目背景与现实痛点

在政企网站保障、重点专题值守、重保支撑和应用系统运维场景中,人工巡检仍承担大量重复性工作。日常值守往往需要定时访问页面、核查栏目、验证关键功能、截图留痕、登记结果并汇总日报。一旦发现异常,还要切换到服务监测、端口检查、进程确认、日志排查等后端工作,定位链路长,响应效率低。

当前常见模式主要存在以下问题:

  1. 巡检流程重复度高,人工成本和注意力消耗长期居高不下。
  2. 页面异常与后台服务状态割裂,前台能看到问题,但难以快速判断问题源头。
  3. 巡检、监测、日志、告警、报告分散在不同工具和流程中,缺乏统一工作台。
  4. 政企场景普遍存在本地部署、内外网隔离、代理访问和安全合规要求,通用 SaaS 工具难以直接落地。
  5. 传统监控更偏“发现是否异常”,缺乏“辅助理解异常、给出处置方向”的能力。

因此,本项目聚焦一条务实主线:先把异常发现、证据留存、事件归集和初步归因跑通,再逐步增强智能分析能力,最终形成适合政企环境的智能巡检与故障归因平台。

三、建设目标

  1. 建设统一的巡检与服务监测平台,减少多系统切换和重复操作。
  2. 打通前台页面巡检与后台服务监测,形成“现象 + 状态 + 日志”的联合判断能力。
  3. 建立告警事件中心,实现从运行结果到问题事件的自动归集与联动查看。
  4. 以规则分析和日志模板归类为起点,逐步演进到真实大模型辅助归因和建议生成。
  5. 兼顾本地部署、Nginx 代理访问、Agent 回连执行和后续安全增强等落地要求。

四、总体方案与架构设计

本项目总体采用“一个平台中枢、两条执行主链、两类沉淀能力”的架构。

4.1 平台中枢

平台后端作为统一中枢,负责:

  • 巡检任务与监测目标配置
  • 调度执行与运行记录管理
  • Agent 节点注册、控制与任务分发
  • 日志接入、分析编排和告警事件生成
  • 报告、详情和联动视图输出

4.2 两条执行主链

主链一:外网智能巡检链

通过 Playwright 执行真实浏览器巡检,完成页面访问、关键交互、断言验证、截图留痕、步骤日志记录和巡检报告生成。

主链二:环境监测与 Agent 执行链

通过平台直接执行或宿主机 Agent 执行方式,对 HTTP、TCP、Redis、RabbitMQ、Elasticsearch、Java 应用等目标进行监测,采集运行结果、日志摘录和监测明细,并生成告警事件。

4.3 两类沉淀能力

事件沉淀

将页面异常、监测失败、日志异常和状态变化统一沉淀为告警事件。

知识沉淀

逐步沉淀日志模板、问题分类、建议动作和归因经验,为后续知识库和真实大模型接入奠定基础。

五、核心功能模块

5.1 智能巡检模块

  • 巡检任务创建、编辑、启停
  • 按周期执行和手动执行
  • Playwright 真实浏览器巡检
  • 页面截图、步骤日志、执行记录
  • 巡检报告查看与结果留痕

5.2 服务监测模块

当前已支持以下目标类型:

  • HTTP / HTTPS
  • TCP
  • Redis
  • RabbitMQ
  • Elasticsearch
  • Java 应用

系统支持目标配置、执行、运行记录、日志摘录和监测详情查看。

5.3 告警事件模块

  • 真实生成监测与日志分析告警事件
  • 支持严重级别、状态流转和问题摘要
  • 支持从告警跳转至目标对象和监测记录
  • 支持原始结构化详情、可能原因和建议动作展示

5.4 Agent 节点模块

  • Agent 节点注册与管理
  • 节点在线状态与能力开关
  • 宿主机 Agent 回连、领任务、执行反馈和日志摘录回传
  • 为后续内网探针、边缘执行和端云协同扩展预留基础

5.5 日志分析与初步归因模块

当前已实现:

  • 日志摘录和最近日志分析
  • 异常模板归类
  • 问题分类与严重级别判定
  • 可能原因与建议动作生成

当前这一能力主要采用本地规则分析与模板归类实现,后续可逐步接入真实日志平台和外部大模型。

5.6 报告与留痕模块

  • 巡检报告
  • 执行记录详情
  • 页面截图与异常证据
  • 监测结果与告警联动回溯

六、当前 MVP 完成情况

截至目前,项目已经形成可运行、可演示、可验证的最小可行产品。

6.1 已跑通的真实能力

  1. 登录与后台工作台。
  2. 巡检任务管理、执行记录和巡检报告主链路。
  3. Playwright 真实浏览器巡检。
  4. 服务监测目标配置与执行。
  5. 宿主机 Agent 回连、领任务、回传结果。
  6. 日志摘录、异常分类和建议动作生成。
  7. 真实告警事件生成与 /alerts 页面展示。
  8. /monitors/alerts 之间的对象级联动跳转。
  9. 本地部署、Nginx 代理访问和自检脚本校验。

6.2 当前仍处于 MVP 阶段的部分

  1. 外部通知通道尚未正式接入。
  2. OpenObserve 与 Drain3 当前为适配边界,尚未接成真实外部服务。
  3. AI 诊断目前以本地规则和模板归类为主,尚未接真实 LLM API。
  4. 服务进程守护与稳定生产部署仍需增强。

七、项目 AI 属性与创新点

7.1 从单点自动化走向统一闭环

本项目并不把 AI 等同于“一个聊天框”或“单次模型调用”,而是尝试将巡检、监测、日志、告警和报告整合进一条可执行、可留痕、可回看、可增强的链路中,使系统具备从自动执行向辅助判断逐步升级的能力。

7.2 端云协同的执行模式

平台采用“平台中枢 + 宿主机 Agent”的执行模式。执行能力尽量靠近现场,分析能力集中沉淀到平台,更适合政企环境下的内外网隔离、分节点部署和后续边缘扩展。

7.3 页面现象与服务成因的联合分析

传统巡检只关注页面能否打开,传统监控又只关注服务是否在线。本项目尝试将页面异常、服务状态、日志模式和告警事件统一关联,推动问题发现与问题定位一体化。

7.4 渐进式 AI 路线

项目没有一开始就把全部能力建立在大模型之上,而是先以真实执行链路、规则分析和模板归类跑通 MVP,再逐步接入真实大模型能力。这种路径更稳健,也更适合真实落地和持续迭代。

7.5 面向政企环境的落地设计

项目从设计之初就考虑了本地部署、Nginx 代理访问、数据库切换、Agent 执行和后续安全扩展等要求,更贴近政企项目实际实施条件。

八、技术实现说明

8.1 前端

  • Next.js 16
  • React 19
  • TypeScript

8.2 后端

  • NestJS
  • Node.js
  • TypeORM

8.3 自动化与执行

  • Playwright:执行外网真实浏览器巡检
  • 宿主机 Agent:执行服务监测、日志摘录和结果回传

8.4 数据库与存储

  • MariaDB / MySQL 已跑通
  • Kingbase 已做兼容接入方案

8.5 部署方式

  • 支持本地部署
  • 支持 Nginx 代理访问
  • 当前适合演示、试运行和小范围验证

九、应用价值与推广前景

9.1 直接应用价值

本项目可直接服务于以下场景:

  • 政务门户与集团网站日常巡检
  • 专题页面和重点栏目保障
  • 运维值守和重保场景
  • 服务运行状态检查与日志排查辅助
  • 异常说明、汇报留痕和复盘分析

9.2 推广前景

项目具备向 2G / 2B 运维保障类场景扩展的潜力,可逐步形成:

  • 网站与站群巡检产品
  • 服务监测与告警平台
  • Agent 节点执行平台
  • 面向内外网协同的智能运维底座

随着日志平台、通知通道、知识库和真实大模型能力逐步接入,平台有机会从“可用 MVP”演进为“可落地产品化方案”。

十、后续演进路线

10.1 短期目标

  • 巩固当前 MVP 的稳定性
  • 完善服务进程守护和部署方式
  • 优化巡检、告警、监测和联动体验

10.2 中期目标

  • 接入真实通知通道
  • 接入真实日志平台与模板引擎
  • 完善规则中心、去重、静默和升级机制
  • 增强内外网协同和 Agent 执行能力

10.3 长期目标

  • 引入真实大模型 API
  • 建立运维知识库与问题画像
  • 实现更强的根因分析、报告生成和对话式诊断
  • 支撑多项目、多租户和更多行业场景扩展

十一、与同类方案相比的项目特色

相较于单纯的网站巡检工具,本项目更强调“页面巡检 + 服务监测 + 日志分析 + 告警归因”的一体化。

相较于单纯的监控平台,本项目更强调“前台现象”和“后台成因”的联动,以及真实巡检证据和运行证据的统一留存。

相较于完全概念化的 AI 运维方案,本项目当前已经具备真实执行链路、真实 Agent 监测和真实告警事件能力,更适合参赛展示,也更适合后续继续落地。

十二、结语

AI 智能巡检与故障归因 Agent 平台不是停留在概念层面的题目,而是一项已经形成本地可运行示例、真实执行链路和明确演进路线的项目。项目立足政企网站与应用系统保障场景,围绕“巡检自动化、监测在线化、分析智能化、结果可追溯”构建核心能力,兼具现实应用价值、参赛展示价值和后续深化空间。

从当前阶段看,项目已经完成了简易 MVP 的关键闭环;从后续空间看,项目又具备沿着端云协同、日志智能分析和大模型归因方向继续增强的清晰路径。作为参赛项目,它既有真实落地基础,也有持续升级的技术空间,适合用于当前阶段的报名展示和后续深化推进。