Wafer

企业平台，通过无服务器和专用推理提供最快的开源大语言模型，采用按量付费定价。

社区:

大语言模型 (LLMs)AI 代码助手 AI 智能体开发 AI 开发者工具

访问官网

Atoms - 用 AI 构建网站与应用，无需编码

InsForge

Sponsor

智能体原生的AWS替代。免配置，支持AI通过 CLI/Skills 端到端运行全栈。

概览
替代方案
数据分析

Atoms - 用 AI 构建网站与应用，无需编码

产品概览

什么是Wafer？

Wafer是一个企业推理平台，通过无服务器和专用端点提供对世界上最快的开源大语言模型的访问。与传统的按令牌定价模式不同，Wafer使用自主性能工程师优化GPU内核以进行AI推理，速度比竞争提供商快1.5-3倍。该平台提供三个核心模型：用于编码和推理的GLM-5.1、具有262K上下文窗口的Kimi-K2.6，以及作为旗舰混合专家模型的Qwen 3.5 397B-A17B。Wafer Pass提供从每周10美元起的固定费率API订阅访问，与Claude Code、Cline、Kilo Code和其他Agent框架无缝集成。

主要功能

最快的开源大语言模型
通过自主性能工程师优化的无服务器推理，为Qwen 3.5 397B-A17B等顶级开源模型提供支持，在基准测试中速度比竞争对手快25%。
按量付费定价
透明的按令牌定价，包括输入、输出和缓存费率（缓存通常便宜10倍），对重复的提示前缀自动命中缓存，无需任何配置。
专用端点
关键任务AI工作负载从共享推理池中获得隔离流量，零数据保留，SLA支持的正常运行时间，以及24小时内的自定义调优部署。
OpenAI兼容API
无服务器端点遵循OpenAI Chat Completions架构，因此OpenAI SDK、LangChain、LiteLLM、Claude Code和Cline等现有客户端只需交换基础URL和API密钥即可工作。
三个核心模型
GLM-5.1（强大的编码/推理）、Kimi-K2.6（稀疏MoE，262K上下文）和Qwen 3.5 397B-A17B（397B总计/17B活跃MoE），更多模型即将推出。

使用场景

Agent编程 : 开发者使用Wafer Pass与Claude Code、OpenClaw、Cline、Kilo Code、Roo Code、OpenHands或Conductor配合，以固定费率定价实现快速开发。
语音Agent和副驾驶 : 低延迟响应，专为语音Agent、智能副驾驶和需要实时性能的交互式AI产品量身定制。
企业生产工作负载 : 专用端点为生产系统提供可预测的正常运行时间和稳定的性能，满足合规性要求的工作负载需要零数据保留。
批量编码Agent : 为编码Agent、批量工作负载和并行生成提供高吞吐量扩展，无瓶颈。
文档密集型RAG : 缓存节省在长系统提示、多轮对话和文档密集型RAG中最大，其中大部分提示在请求间重复。