第二届 AI 大赛参赛项目建议书

项目名称

AI 智能巡检与故障归因 Agent 平台

赛道建议

赛道 A：商业创新线

一、项目执行摘要

本项目面向政企网站、业务系统和运行环境保障场景，建设一套集智能巡检、服务监测、日志分析、告警归集与初步故障归因为一体的 Agent 平台。平台围绕“异常发现更早、问题定位更快、结果留痕更完整、后续扩展更容易”的目标，尝试将浏览器自动化巡检、宿主机 Agent 监测、日志摘录分析、告警事件管理与后续 AI 诊断能力整合到统一系统中。

项目当前已经形成可本地部署、可外网代理访问、可真实执行的 MVP。系统已完成登录、工作台、巡检任务、执行记录、巡检报告、环境监测、告警事件、Agent 节点等核心模块，能够真实执行浏览器巡检任务，完成多类服务目标监测，生成运行记录、日志分析结果与告警事件，并支持从告警跳转到对应的目标对象和监测记录。

本项目的核心特点，不是单纯“做一个脚本执行工具”，也不是单纯“做一个服务监控页面”，而是将前台可见现象与后台运行状态尽可能统一到一个平台之内。它既能从用户视角发现页面异常，也能从服务视角采集运行状态，并通过日志摘录、模板归类和问题建议，把原本割裂的巡检、监测、日志、告警和报告链路串联起来，形成可演示、可落地、可继续增强的智能运维雏形。

二、项目背景与现实痛点

在政企网站保障、重点专题值守、重保支撑和应用系统运维场景中，人工巡检仍承担大量重复性工作。日常值守往往需要定时访问页面、核查栏目、验证关键功能、截图留痕、登记结果并汇总日报。一旦发现异常，还要切换到服务监测、端口检查、进程确认、日志排查等后端工作，定位链路长，响应效率低。

当前常见模式主要存在以下问题：

巡检流程重复度高，人工成本和注意力消耗长期居高不下。
页面异常与后台服务状态割裂，前台能看到问题，但难以快速判断问题源头。
巡检、监测、日志、告警、报告分散在不同工具和流程中，缺乏统一工作台。
政企场景普遍存在本地部署、内外网隔离、代理访问和安全合规要求，通用 SaaS 工具难以直接落地。
传统监控更偏“发现是否异常”，缺乏“辅助理解异常、给出处置方向”的能力。

因此，本项目聚焦一条务实主线：先把异常发现、证据留存、事件归集和初步归因跑通，再逐步增强智能分析能力，最终形成适合政企环境的智能巡检与故障归因平台。

三、建设目标

建设统一的巡检与服务监测平台，减少多系统切换和重复操作。
打通前台页面巡检与后台服务监测，形成“现象 + 状态 + 日志”的联合判断能力。
建立告警事件中心，实现从运行结果到问题事件的自动归集与联动查看。
以规则分析和日志模板归类为起点，逐步演进到真实大模型辅助归因和建议生成。
兼顾本地部署、Nginx 代理访问、Agent 回连执行和后续安全增强等落地要求。

四、总体方案与架构设计

本项目总体采用“一个平台中枢、两条执行主链、两类沉淀能力”的架构。

4.1 平台中枢

平台后端作为统一中枢，负责：

巡检任务与监测目标配置
调度执行与运行记录管理
Agent 节点注册、控制与任务分发
日志接入、分析编排和告警事件生成
报告、详情和联动视图输出

4.2 两条执行主链

主链一：外网智能巡检链

通过 Playwright 执行真实浏览器巡检，完成页面访问、关键交互、断言验证、截图留痕、步骤日志记录和巡检报告生成。

主链二：环境监测与 Agent 执行链

通过平台直接执行或宿主机 Agent 执行方式，对 HTTP、TCP、Redis、RabbitMQ、Elasticsearch、Java 应用等目标进行监测，采集运行结果、日志摘录和监测明细，并生成告警事件。

4.3 两类沉淀能力

事件沉淀

将页面异常、监测失败、日志异常和状态变化统一沉淀为告警事件。

知识沉淀

逐步沉淀日志模板、问题分类、建议动作和归因经验，为后续知识库和真实大模型接入奠定基础。

五、核心功能模块

5.1 智能巡检模块

巡检任务创建、编辑、启停
按周期执行和手动执行
Playwright 真实浏览器巡检
页面截图、步骤日志、执行记录
巡检报告查看与结果留痕

5.2 服务监测模块

当前已支持以下目标类型：

HTTP / HTTPS
TCP
Redis
RabbitMQ
Elasticsearch
Java 应用

系统支持目标配置、执行、运行记录、日志摘录和监测详情查看。

5.3 告警事件模块

真实生成监测与日志分析告警事件
支持严重级别、状态流转和问题摘要
支持从告警跳转至目标对象和监测记录
支持原始结构化详情、可能原因和建议动作展示

5.4 Agent 节点模块

Agent 节点注册与管理
节点在线状态与能力开关
宿主机 Agent 回连、领任务、执行反馈和日志摘录回传
为后续内网探针、边缘执行和端云协同扩展预留基础

5.5 日志分析与初步归因模块

当前已实现：

日志摘录和最近日志分析
异常模板归类
问题分类与严重级别判定
可能原因与建议动作生成

当前这一能力主要采用本地规则分析与模板归类实现，后续可逐步接入真实日志平台和外部大模型。

5.6 报告与留痕模块

巡检报告
执行记录详情
页面截图与异常证据
监测结果与告警联动回溯

六、当前 MVP 完成情况

截至目前，项目已经形成可运行、可演示、可验证的最小可行产品。

6.1 已跑通的真实能力

登录与后台工作台。
巡检任务管理、执行记录和巡检报告主链路。
Playwright 真实浏览器巡检。
服务监测目标配置与执行。
宿主机 Agent 回连、领任务、回传结果。
日志摘录、异常分类和建议动作生成。
真实告警事件生成与 /alerts 页面展示。
/monitors 与 /alerts 之间的对象级联动跳转。
本地部署、Nginx 代理访问和自检脚本校验。

6.2 当前仍处于 MVP 阶段的部分

外部通知通道尚未正式接入。
OpenObserve 与 Drain3 当前为适配边界，尚未接成真实外部服务。
AI 诊断目前以本地规则和模板归类为主，尚未接真实 LLM API。
服务进程守护与稳定生产部署仍需增强。

七、项目 AI 属性与创新点

7.1 从单点自动化走向统一闭环

本项目并不把 AI 等同于“一个聊天框”或“单次模型调用”，而是尝试将巡检、监测、日志、告警和报告整合进一条可执行、可留痕、可回看、可增强的链路中，使系统具备从自动执行向辅助判断逐步升级的能力。

7.2 端云协同的执行模式

平台采用“平台中枢 + 宿主机 Agent”的执行模式。执行能力尽量靠近现场，分析能力集中沉淀到平台，更适合政企环境下的内外网隔离、分节点部署和后续边缘扩展。

7.3 页面现象与服务成因的联合分析

传统巡检只关注页面能否打开，传统监控又只关注服务是否在线。本项目尝试将页面异常、服务状态、日志模式和告警事件统一关联，推动问题发现与问题定位一体化。

7.4 渐进式 AI 路线

项目没有一开始就把全部能力建立在大模型之上，而是先以真实执行链路、规则分析和模板归类跑通 MVP，再逐步接入真实大模型能力。这种路径更稳健，也更适合真实落地和持续迭代。

7.5 面向政企环境的落地设计

项目从设计之初就考虑了本地部署、Nginx 代理访问、数据库切换、Agent 执行和后续安全扩展等要求，更贴近政企项目实际实施条件。

八、技术实现说明

8.1 前端

Next.js 16
React 19
TypeScript

8.2 后端

NestJS
Node.js
TypeORM

8.3 自动化与执行

Playwright：执行外网真实浏览器巡检
宿主机 Agent：执行服务监测、日志摘录和结果回传

8.4 数据库与存储

MariaDB / MySQL 已跑通
Kingbase 已做兼容接入方案

8.5 部署方式

支持本地部署
支持 Nginx 代理访问
当前适合演示、试运行和小范围验证

九、应用价值与推广前景

9.1 直接应用价值

本项目可直接服务于以下场景：

政务门户与集团网站日常巡检
专题页面和重点栏目保障
运维值守和重保场景
服务运行状态检查与日志排查辅助
异常说明、汇报留痕和复盘分析

9.2 推广前景

项目具备向 2G / 2B 运维保障类场景扩展的潜力，可逐步形成：

网站与站群巡检产品
服务监测与告警平台
Agent 节点执行平台
面向内外网协同的智能运维底座

随着日志平台、通知通道、知识库和真实大模型能力逐步接入，平台有机会从“可用 MVP”演进为“可落地产品化方案”。

十、后续演进路线

10.1 短期目标

巩固当前 MVP 的稳定性
完善服务进程守护和部署方式
优化巡检、告警、监测和联动体验

10.2 中期目标

接入真实通知通道
接入真实日志平台与模板引擎
完善规则中心、去重、静默和升级机制
增强内外网协同和 Agent 执行能力

10.3 长期目标

引入真实大模型 API
建立运维知识库与问题画像
实现更强的根因分析、报告生成和对话式诊断
支撑多项目、多租户和更多行业场景扩展

十一、与同类方案相比的项目特色

相较于单纯的网站巡检工具，本项目更强调“页面巡检 + 服务监测 + 日志分析 + 告警归因”的一体化。

相较于单纯的监控平台，本项目更强调“前台现象”和“后台成因”的联动，以及真实巡检证据和运行证据的统一留存。

相较于完全概念化的 AI 运维方案，本项目当前已经具备真实执行链路、真实 Agent 监测和真实告警事件能力，更适合参赛展示，也更适合后续继续落地。

十二、结语

AI 智能巡检与故障归因 Agent 平台不是停留在概念层面的题目，而是一项已经形成本地可运行示例、真实执行链路和明确演进路线的项目。项目立足政企网站与应用系统保障场景，围绕“巡检自动化、监测在线化、分析智能化、结果可追溯”构建核心能力，兼具现实应用价值、参赛展示价值和后续深化空间。

从当前阶段看，项目已经完成了简易 MVP 的关键闭环；从后续空间看，项目又具备沿着端云协同、日志智能分析和大模型归因方向继续增强的清晰路径。作为参赛项目，它既有真实落地基础，也有持续升级的技术空间，适合用于当前阶段的报名展示和后续深化推进。

contest-proposal-agent-platform - 副本.md 11 KB Permalink Cronologia Originale