# 性能基线指标 > 西安云美电子科技有限公司 - 企业知识库 > 版本:v1.0 | 创建时间:2026-06-06 --- ## 1. 测试环境 | 项目 | 规格 | |------|------| | 服务器 | 8 核 CPU / 16 GB RAM / 100 GB SSD | | 部署方式 | Docker Compose | | Dify 版本 | 最新社区版(v1.x) | | 模型 | DeepSeek-Chat | | 知识库文档数 | 100-500 篇(初期) | | 知识库分段方式 | 自动分段,500 tokens/段 | --- ## 2. 响应时间基线 | 场景 | 指标 | 目标值 | 可接受值 | |------|------|:------:|:--------:| | 首次响应(首 token) | TTFB | ≤ 3s | ≤ 5s | | 简单问题完整回答 | 总耗时 | ≤ 8s | ≤ 15s | | 复杂问题(跨分类检索) | 总耗时 | ≤ 12s | ≤ 20s | | 多轮对话第 N 轮(N≤10) | 总耗时 | ≤ 10s | ≤ 15s | | 流式输出首字延迟 | TTFB | ≤ 2s | ≤ 4s | | 知识库索引构建(单文档) | 索引耗时 | ≤ 10s | ≤ 30s | | 知识库索引构建(批量100篇) | 索引耗时 | ≤ 5min | ≤ 10min | --- ## 3. 准确率基线 | 场景 | 指标 | 目标值 | 可接受值 | |------|------|:------:|:--------:| | P0 核心问题回答准确率 | Top-1 准确率 | ≥ 95% | ≥ 85% | | 制度流程类问题 | 回答准确率 | ≥ 98% | ≥ 90% | | 产品技术类问题 | 回答准确率 | ≥ 95% | ≥ 85% | | FAQ 类问题 | 回答准确率 | ≥ 98% | ≥ 90% | | 不相关问题拒绝率 | 拒绝准确率 | ≥ 95% | ≥ 85% | | 来源标注准确率 | 标注准确率 | ≥ 90% | ≥ 80% | | 多轮对话上下文保持率 | 一致性 | ≥ 90% | ≥ 80% | --- ## 4. 并发与容量基线 | 场景 | 指标 | 目标值 | 可接受值 | |------|------|:------:|:--------:| | 并发用户数 | 最大并发 | ≥ 20 | ≥ 10 | | 并发响应时间(10用户) | P95 延迟 | ≤ 10s | ≤ 20s | | 并发响应时间(20用户) | P95 延迟 | ≤ 15s | ≤ 30s | | 单知识库文档上限 | 最大文档数 | 1000 篇 | 500 篇 | | 单知识库分段上限 | 最大分段数 | 50000 段 | 20000 段 | | 单次检索返回 | Top-K 相关文档 | 3-5 段 | 3-10 段 | --- ## 5. 可用性基线 | 场景 | 指标 | 目标值 | |------|------|:------:| | 服务可用性 | Uptime | ≥ 99% | | 计划外停机 | 月均 | ≤ 1 次 | | 故障恢复时间 | MTTR | ≤ 30 min | | 数据库备份频率 | RPO | 每日 | | 数据恢复测试 | 频率 | 季度 | --- ## 6. 模型资源消耗基线 | 场景 | 指标 | 估算值 | |------|------|--------| | 单次问答(简单) | DeepSeek Token 消耗 | ~500-1000 tokens | | 单次问答(复杂) | DeepSeek Token 消耗 | ~1500-3000 tokens | | 每日 50 次问答 | 日 Token 消耗 | ~50K-100K tokens | | 每月预估 | 月 Token 消耗 | ~1.5M-3M tokens | --- ## 7. 基线测量方法 ### 7.1 响应时间测量 ```bash # 使用 curl 测量 TTFB curl -o /dev/null -s -w "TTFB: %{time_starttransfer}s\nTotal: %{time_total}s\n" \ -X POST http:///v1/chat-messages \ -H "Authorization: Bearer " \ -H "Content-Type: application/json" \ -d '{"query":"差旅报销标准是什么?","inputs":{},"response_mode":"blocking","user":"test-user"}' ``` ### 7.2 准确率测量 使用 `tests/test-cases.md` 中的 37 个测试用例,逐条执行并记录结果。 计算公式: - Top-1 准确率 = 正确回答数 / 总测试问题数 × 100% - 拒绝准确率 = 正确拒绝无关问题数 / 总无关问题数 × 100% ### 7.3 并发测量 ```bash # 使用 ab(Apache Benchmark)模拟并发 ab -n 20 -c 10 -p request.json -T application/json \ -H "Authorization: Bearer " \ http:///v1/chat-messages ``` --- ## 8. 性能调优建议 | 问题方向 | 调优手段 | |----------|---------| | 响应慢 | 优化知识库分段大小、调整 Top-K 参数、升级服务器 | | 准确率低 | 优化分段策略、增加元数据标签、调整检索权重 | | 并发不足 | 扩展 Worker 实例数、增加 Redis 内存、升级 CPU | | Token 消耗高 | 优化 System Prompt 长度、调整上下文窗口、启用缓存 | --- _最后更新: 2026-06-06_