Janus Pro

先進開源統一多模態 AI 模型，具備雙向影像理解與生成能力，效能卓越且易於擴展。

社群:

文字轉圖像 AI 照片與圖像生成 AI 藝術生成 AI 圖像識別

造訪網站

Atoms - 以 AI 建立網站與應用程式，無需程式碼

Atoms

Sponsor

無需寫程式，幾分鐘內驗證創意、建立網站與應用，獲得第一批客戶。

概覽
替代方案
分析

Atoms - 以 AI 建立網站與應用程式，無需程式碼

產品概覽

Janus Pro 是什麼？

Janus Pro by DeepSeek 是一款先進的多模態 AI 模型，將影像理解與生成整合於單一統一 Transformer 架構。其創新分離式視覺編碼系統，分別優化影像理解與生成流程，提升彈性與精確度。經大量真實與合成資料訓練，Janus Pro 在文字生成圖片任務上表現超越 DALL-E 3，GenEval 分數 0.80（對比 0.67）。提供 1B 與 7B 參數版本，採 MIT 授權，支援無限制商業應用，並可於 Hugging Face 與 GitHub 取得。其輕量化設計與高性價比擴展性，適合開發者、研究人員與企業用於多模態應用。

主要功能

統一多模態架構
採用統一的 Transformer 框架，並分離視覺編碼路徑，有效處理影像理解與生成任務。
卓越效能
在 GenEval 基準測試中表現優於 DALL-E 3 與 Stable Diffusion 等主要競品，分數達 0.80，特別擅長文字生成圖片的指令跟隨能力。
開源且商業友善
以 MIT 授權釋出，可自由使用、修改與商業部署，完整程式碼與模型可於 Hugging Face 及 GitHub 取得。
優化視覺處理
採用先進的 SigLIP-L 視覺編碼器結合 MLP 適配器，以 384×384 解析度高效處理影像特徵抽取與任務切換。
高性價比擴展性
輕量化 7B 參數模型設計，降低運算需求與成本，促進更廣泛應用。
大量訓練與微調
以大量真實與合成資料集進行多階段訓練，提升穩定性、準確性與多模態整合能力。