Wafer

サーバーレスおよび専用推論を通じて最速のオープンソースLLMを提供し、従量課金制の価格設定を使用するエンタープライズプラットフォーム。

コミュニティ:

大規模言語モデル (LLMs)AIコードアシスタント AIエージェント開発 AI開発者ツール

ウェブサイトを訪問

Atoms - AIでウェブサイト・アプリをノーコードで構築

InsForge

Sponsor

AWS の agent-native な代替。CLI と skills で full-stack アプリを end-to-end で実行

概要
代替品
分析

Atoms - AIでウェブサイト・アプリをノーコードで構築

製品概要

Waferとは？

Waferは、サーバーレスおよび専用エンドポイントを通じて、世界で最速のオープンソースLLMへのアクセスを提供するエンタープライズ推論プラットフォームです。従来のトークンごとの価格設定モデルとは異なり、Waferは自律的なパフォーマンスエンジニアを使用してAI推論用のGPUカーネルを最適化し、競合他社より1.5～3倍高速です。プラットフォームは3つのコアモデルを提供します：コーディングと推論用のGLM-5.1、262Kコンテキストウィンドウを備えたKimi-K2.6、フラッグシップ混合専門家モデルであるQwen 3.5 397B-A17Bです。Wafer Passは週$10から始まる定額APIサブスクリプションアクセスを提供し、Claude Code、Cline、Kilo Code、および他のAgentフレームワークとシームレスに統合されます。

主な機能

最速のオープンソースLLM
自律的なパフォーマンスエンジニアによって最適化されたサーバーレス推論により、Qwen 3.5 397B-A17Bなどのトップオープンソースモデルをサポートし、ベンチマークで競合他社より25%高速です。
従量課金制の価格設定
入力、出力、キャッシュレート（キャッシュは通常10倍安い）を含む透明なトークンごとの価格設定と、繰り返されるプロンプトプレフィックスに対する自動キャッシュヒット（設定不要）。
専用エンドポイント
ミッションクリティカルなAIワークロードは、共有推論プールから隔離されたトラフィック、ゼロデータ保持、SLA対応のアップタイム、24時間以内のカスタムチューニングデプロイメントを取得します。
OpenAI互換API
サーバーレスエンドポイントはOpenAI Chat Completionsスキーマに従うため、OpenAI SDK、LangChain、LiteLLM、Claude Code、Clineなどの既存クライアントは、ベースURLとAPIキーを交換するだけで動作します。
3つのコアモデル
GLM-5.1（強力なコーディング/推論）、Kimi-K2.6（スパースMoE、262Kコンテキスト）、Qwen 3.5 397B-A17B（397B合計/17Bアクティブ MoE）で、さらに多くのモデルが展開予定です。

ユースケース

Agentコーディング : 開発者はWafer PassをClaude Code、OpenClaw、Cline、Kilo Code、Roo Code、OpenHands、またはConductorと共に使用して、定額料金で迅速な開発を実現します。
音声AgentとCopilot : 音声Agent、インテリジェントCopilot、リアルタイムパフォーマンスが必要なインタラクティブAI製品向けにカスタマイズされた低遅延応答。
エンタープライズ本番ワークロード : 専用エンドポイントは本番システムに予測可能なアップタイムと安定したパフォーマンスを提供し、ゼロデータ保持が必要なコンプライアンスバウンドワークロードをサポートします。
バッチコーディングAgent : コーディングAgent、バッチワークロード、並列生成のための高スループット拡張（ボトルネックなし）。
ドキュメント集約型RAG : キャッシュ節約は、長いシステムプロンプト、マルチターン会話、リクエスト間でプロンプトの大部分が繰り返されるドキュメント集約型RAGで最大です。