codex/熊浩 by xh202221314217-blip · Pull Request #40 · lights-think/Agent-test

xh202221314217-blip · 2026-06-06T04:25:56Z

完成能力点

[√] 后端工程能力
[√] Agent 项目经验
[√] RAG / 知识库能力
[√] 业务系统集成
[√] 安全与权限意识
[√] 管理后台 / 产品意识

设计说明

本 PR 补齐了企业 Agent 后端测评的主要执行闭环，核心链路为：

Task -> Run -> Planner -> Executor -> ToolRegistry -> Run Result / Run Events / Audit Logs

后端 API 保持 README 中的公开契约，覆盖任务创建、运行触发、运行详情查询、运行事件查询、知识库检索、管理后台指标和审计日志。运行状态从 created/queued/running 推进到 completed 或 failed，成功路径持久化业务汇总结果、标准工具事件和成本估算；失败路径写入脱敏错误信息，并保留可审计证据。

Agent 侧采用确定性 Planner，而不是只返回占位 LLM 步骤。Planner 从 prompt 中通用提取 SKU，并根据任务意图生成工具计划。标准补货审批链路为：

erp.get_inventory -> bi.get_sales -> knowledge.search -> supplier.get_risk -> oa.create_approval_draft

对于“只分析”“不创建”“建议文本”等只读表达，计划不会包含 OA 写操作；对于明确创建审批草稿或补货审批建议的写入意图，会在权限满足时创建 OA 草稿。

工具调用边界集中在 ToolRegistry 和 Executor。ERP、BI、供应商风险、OA 和知识库检索都通过结构化参数调用；供应商风险工具支持瞬时失败重试。Executor 只向运行事件暴露标准 tool.call 事件，并对工具入参、输出摘要、错误摘要和审计 payload 做统一脱敏，避免把内部调试字段、原始异常或敏感业务字段泄露到 API 响应中。

RAG 使用本地 SQLite 中的知识库 chunk 做轻量检索。检索时按用户权限过滤不可见文档，返回 answer、citations 和 filtered_doc_ids。知识库正文被视为不可信输入：正文只参与相关性评分和规则摘要生成，不会让“忽略之前指令”等文本影响系统策略、权限策略或工具计划。

权限设计分为 API 边界和工具边界两层。API 层通过 X-User-Id 加载用户，并在任务创建、运行触发、知识库检索、管理后台读取等入口检查权限；运行详情和事件查询还会校验 run 可见性。OA 草稿创建作为受保护写操作，在 run 创建入口先做预检，Executor 中也保留防线。缺权限时不会执行 OA 写入，并写入 approval.draft.create 的 deny 审计记录。

管理后台接口聚合了任务量、运行量、完成/失败数、失败率、token 成本、平均运行耗时、工具调用次数、最近失败、队列健康度和权限拒绝数量，用于观察运行质量和失败线索。

协作记录已更新到 COLLABORATION_LOG.md，记录了需求歧义、历史备注取舍、根因判断、兼容影响、验证命令和剩余风险。PR 主要完成者披露为 Codex / GPT-5。

本地验证

请贴出执行过的命令和结果：
shell 中未直接暴露 pytest 命令，因此改用虚拟环境解释器执行等价命令

.venv/bin/python -m pytest
结果：
20 passed, 1 warning in 4.57s

.venv/bin/python scripts/self_check.py
结果：
6 passed, 1 warning in 1.14s
运行公开自检测试...
公开自检通过。正式评分会使用私有隐藏测试。

已知风险或未完成项

当前 Planner 是确定性规则实现，覆盖了公开测试和新增验收测试中的主要表达，但生产环境仍需要更完整的自然语言意图识别能力。
RAG 是轻量本地检索和规则摘要生成，适合本测评闭环；生产环境需要更强的召回、排序、引用校验和离线评测。
异步执行使用 FastAPI background task 与 SQLite，满足测评范围；生产环境建议替换为可靠任务队列、幂等控制和更完整的可观测性。
token 成本是本地估算值，不代表真实模型计费。
权限矩阵目前基于 fixture 用户权限，适合测评场景；生产环境需要接入真实身份系统和组织级授权策略。

Complete assessment

ed0ba3c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

codex/熊浩#40

codex/熊浩#40
xh202221314217-blip wants to merge 1 commit into
lights-think:masterfrom
xh202221314217-blip:codex/xionghao

xh202221314217-blip commented Jun 6, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

xh202221314217-blip commented Jun 6, 2026

完成能力点

设计说明

本地验证

已知风险或未完成项

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant