Wafer

서버리스 및 전용 추론을 통해 가장 빠른 오픈소스 LLM을 제공하는 엔터프라이즈 플랫폼으로 종량제 가격 책정을 사용합니다.

커뮤니티:

대형 언어 모델 (LLMs)AI 코드 보조 AI 에이전트 개발 AI 개발자 도구

웹사이트 방문

Atoms - AI로 코드 없이 웹사이트·앱 제작

InsForge

Sponsor

AWS의 agent-native 대안. CLI와 skills로 full-stack 앱을 end-to-end로 실행

개요
대안
분석

Atoms - AI로 코드 없이 웹사이트·앱 제작

제품 개요

Wafer이란 무엇인가요?

Wafer는 서버리스 및 전용 엔드포인트를 통해 세계에서 가장 빠른 오픈소스 LLM에 대한 액세스를 제공하는 엔터프라이즈 추론 플랫폼입니다. 기존의 토큰당 가격 책정 모델과 달리 Wafer는 자율 성능 엔지니어를 사용하여 AI 추론을 위한 GPU 커널을 최적화하여 경쟁 제공자보다 1.5-3배 더 빠른 속도를 제공합니다. 플랫폼은 세 가지 핵심 모델을 제공합니다: 코딩 및 추론을 위한 GLM-5.1, 262K 컨텍스트 윈도우가 있는 Kimi-K2.6, 그리고 플래그십 혼합 전문가 모델인 Qwen 3.5 397B-A17B입니다. Wafer Pass는 주당 $10부터 시작하는 정액 API 구독 액세스를 제공하며 Claude Code, Cline, Kilo Code 및 기타 Agent 프레임워크와 원활하게 통합됩니다.

주요 기능

가장 빠른 오픈소스 LLM
자율 성능 엔지니어로 최적화된 서버리스 추론으로 Qwen 3.5 397B-A17B 같은 최고의 오픈소스 모델을 지원하며, 벤치마크에서 경쟁사보다 25% 더 빠른 속도를 제공합니다.
종량제 가격 책정
입력, 출력 및 캐시 요금이 포함된 투명한 토큰당 가격 책정(캐시는 일반적으로 10배 저렴)과 반복되는 프롬프트 접두사에 대한 자동 캐시 히트로 설정이 필요 없습니다.
전용 엔드포인트
미션 크리티컬 AI 워크로드는 공유 추론 풀에서 격리된 트래픽, 제로 데이터 보존, SLA 지원 가동 시간 및 24시간 이내 맞춤형 튜닝 배포를 받습니다.
OpenAI 호환 API
서버리스 엔드포인트는 OpenAI Chat Completions 스키마를 따르므로 OpenAI SDK, LangChain, LiteLLM, Claude Code 및 Cline 같은 기존 클라이언트는 기본 URL과 API 키만 바꾸면 작동합니다.
세 가지 핵심 모델
GLM-5.1(강력한 코딩/추론), Kimi-K2.6(스파스 MoE, 262K 컨텍스트) 및 Qwen 3.5 397B-A17B(397B 총/17B 활성 MoE)이며 더 많은 모델이 출시될 예정입니다.

사용 사례

Agent 코딩 : 개발자는 Wafer Pass를 Claude Code, OpenClaw, Cline, Kilo Code, Roo Code, OpenHands 또는 Conductor와 함께 사용하여 정액 가격으로 빠른 개발을 수행합니다.
음성 Agent 및 코파일럿 : 음성 Agent, 지능형 코파일럿 및 실시간 성능이 필요한 대화형 AI 제품을 위해 맞춤형 저지연 응답입니다.
엔터프라이즈 프로덕션 워크로드 : 전용 엔드포인트는 프로덕션 시스템에 예측 가능한 가동 시간과 안정적인 성능을 제공하며 제로 데이터 보존이 필요한 규정 준수 워크로드를 지원합니다.
배치 코딩 Agent : 코딩 Agent, 배치 워크로드 및 병렬 생성을 위한 높은 처리량 확장으로 병목 현상이 없습니다.
문서 집약적 RAG : 캐시 절감은 긴 시스템 프롬프트, 다중 턴 대화 및 대부분의 프롬프트가 요청 간에 반복되는 문서 집약적 RAG에서 가장 큽니다.