智能成本优化
EDDI的模型级联系统实现成本感知的多模型路由。从快速且低廉的模型开始,仅在置信度低时自动升级到更强大(更昂贵)的模型 — 在不牺牲质量的情况下降低AI成本。
级联功能
- 成本优化 — 先尝试廉价/快速模型,仅在置信度低时升级到强大模型
- 4种置信度策略 — 结构化输出、启发式、判官模型或无 — 选择适合您用例的评估方法
- 每对话预算 — 带预算上限和超出时对话驱逐的自动成本跟踪
- 租户成本上限 — 多租户部署中每个租户的月度成本预算,自动执行
- 12个LLM提供商 — OpenAI、Anthropic、Google Gemini、Mistral、Azure OpenAI、Amazon Bedrock、Oracle GenAI、Vertex AI、Ollama、Jlama、Hugging Face及任何OpenAI兼容端点
工作原理
按成本顺序配置模型的级联链。对于每条用户消息,EDDI先尝试最低廉的模型并评估置信度。如果置信度低于阈值,它会自动升级到链中的下一个模型。这种方法可以在典型工作负载中将LLM成本降低60-80%。