Skip to content

codex/熊浩#40

Open
xh202221314217-blip wants to merge 1 commit into
lights-think:masterfrom
xh202221314217-blip:codex/xionghao
Open

codex/熊浩#40
xh202221314217-blip wants to merge 1 commit into
lights-think:masterfrom
xh202221314217-blip:codex/xionghao

Conversation

@xh202221314217-blip
Copy link
Copy Markdown

完成能力点

  • [√] 后端工程能力
  • [√] Agent 项目经验
  • [√] RAG / 知识库能力
  • [√] 业务系统集成
  • [√] 安全与权限意识
  • [√] 管理后台 / 产品意识

设计说明

本 PR 补齐了企业 Agent 后端测评的主要执行闭环,核心链路为:

Task -> Run -> Planner -> Executor -> ToolRegistry -> Run Result / Run Events / Audit Logs

后端 API 保持 README 中的公开契约,覆盖任务创建、运行触发、运行详情查询、运行事件查询、知识库检索、管理后台指标和审计日志。运行状态从 created/queued/running 推进到 completedfailed,成功路径持久化业务汇总结果、标准工具事件和成本估算;失败路径写入脱敏错误信息,并保留可审计证据。

Agent 侧采用确定性 Planner,而不是只返回占位 LLM 步骤。Planner 从 prompt 中通用提取 SKU,并根据任务意图生成工具计划。标准补货审批链路为:

erp.get_inventory -> bi.get_sales -> knowledge.search -> supplier.get_risk -> oa.create_approval_draft

对于“只分析”“不创建”“建议文本”等只读表达,计划不会包含 OA 写操作;对于明确创建审批草稿或补货审批建议的写入意图,会在权限满足时创建 OA 草稿。

工具调用边界集中在 ToolRegistryExecutor。ERP、BI、供应商风险、OA 和知识库检索都通过结构化参数调用;供应商风险工具支持瞬时失败重试。Executor 只向运行事件暴露标准 tool.call 事件,并对工具入参、输出摘要、错误摘要和审计 payload 做统一脱敏,避免把内部调试字段、原始异常或敏感业务字段泄露到 API 响应中。

RAG 使用本地 SQLite 中的知识库 chunk 做轻量检索。检索时按用户权限过滤不可见文档,返回 answercitationsfiltered_doc_ids。知识库正文被视为不可信输入:正文只参与相关性评分和规则摘要生成,不会让“忽略之前指令”等文本影响系统策略、权限策略或工具计划。

权限设计分为 API 边界和工具边界两层。API 层通过 X-User-Id 加载用户,并在任务创建、运行触发、知识库检索、管理后台读取等入口检查权限;运行详情和事件查询还会校验 run 可见性。OA 草稿创建作为受保护写操作,在 run 创建入口先做预检,Executor 中也保留防线。缺权限时不会执行 OA 写入,并写入 approval.draft.create 的 deny 审计记录。

管理后台接口聚合了任务量、运行量、完成/失败数、失败率、token 成本、平均运行耗时、工具调用次数、最近失败、队列健康度和权限拒绝数量,用于观察运行质量和失败线索。

协作记录已更新到 COLLABORATION_LOG.md,记录了需求歧义、历史备注取舍、根因判断、兼容影响、验证命令和剩余风险。PR 主要完成者披露为 Codex / GPT-5。

本地验证

请贴出执行过的命令和结果:
shell 中未直接暴露 pytest 命令,因此改用虚拟环境解释器执行等价命令

.venv/bin/python -m pytest
结果:
20 passed, 1 warning in 4.57s

.venv/bin/python scripts/self_check.py
结果:
6 passed, 1 warning in 1.14s
运行公开自检测试...
公开自检通过。正式评分会使用私有隐藏测试。

已知风险或未完成项

当前 Planner 是确定性规则实现,覆盖了公开测试和新增验收测试中的主要表达,但生产环境仍需要更完整的自然语言意图识别能力。
RAG 是轻量本地检索和规则摘要生成,适合本测评闭环;生产环境需要更强的召回、排序、引用校验和离线评测。
异步执行使用 FastAPI background task 与 SQLite,满足测评范围;生产环境建议替换为可靠任务队列、幂等控制和更完整的可观测性。
token 成本是本地估算值,不代表真实模型计费。
权限矩阵目前基于 fixture 用户权限,适合测评场景;生产环境需要接入真实身份系统和组织级授权策略。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant