部署架构

环境划分

开发 Dev

开发

最小规格
模拟数据
功能验证

测试 Test

测试

中等规格
脱敏生产数据
集成测试

预发 Staging

预发

生产同等规格
生产镜像
上线前验证

生产 Prod

生产

完整规格
生产数据
正式服务

灾备 DR

灾备

生产 50% 规格
异步复制
灾难恢复

CI/CD 流水线

代码提交
代码审查
自动化测试
安全扫描
构建镜像
推送 Harbor
ArgoCD 部署
健康检查

生产环境资源规划

组件 规格 数量 说明
API Gateway (Kong)4C8G3负载均衡入口
业务服务 (通用)2C4G30+各业务服务副本
Agent 编排服务4C8G5LLM 编排、任务调度
AI 推理 (GPU)A100 40G4自研模型、Embedding
图像生成 (GPU)A100 40G2SD/FLUX 模型
PostgreSQL8C32G3 (1主2从)主数据库
ClickHouse8C32G3实时分析
Redis4C16G6 (Cluster)缓存
Kafka4C8G5消息队列
Elasticsearch4C16G3搜索
Milvus4C16G3向量库
MinIO4C16G4对象存储
Flink4C8G4流计算
监控 (Prometheus)4C8G2监控告警
日志 (ELK)4C8G3日志收集

成本优化策略

LLM 路由

  • 简单任务用低价模型 (Qwen/DeepSeek)
  • 复杂任务用高价模型 (GPT-4o)
  • 动态成本预估

缓存复用

  • 相同/相似 Prompt 结果复用
  • 减少 LLM 调用次数
  • Embedding 向量缓存

按需扩缩

  • AI 服务按负载自动扩缩
  • 闲时缩容 GPU 节点
  • HPA 自动伸缩

混合云

  • 敏感数据服务私有化
  • 通用服务用公有云
  • Spot 实例降本