Chroma
База данных поиска и извлечения с открытым исходным кодом, созданная для AI-приложений, поддерживающая векторный, полнотекстовый, regex и поиск по метаданным в любом масштабе.
Сообщество:
Обзор продукта
Что такое Chroma?
Chroma — это база данных embedding и векторов с открытым исходным кодом, специально созданная для разработки AI-приложений. Она позволяет разработчикам хранить, управлять и запрашивать высокоразмерные векторные embedding вместе с метаданными, упрощая создание конвейеров генерации с дополненным поиском (RAG), семантических поисковых систем и слоев памяти для приложений на основе LLM. Chroma поддерживает локальную разработку и масштабируется до петабайтов через объектное хранилище в облаке, с полностью управляемым бессерверным облачным предложением, доступным под тем же API. Лицензированная под Apache 2.0 с более чем 21K звездами GitHub и 5M+ ежемесячными загрузками, она стала одной из наиболее широко принятых векторных баз данных в сообществе разработчиков.
Ключевые функции
Мультирежимный поиск
Поддерживает поиск по векторному сходству, полнотекстовый поиск, сопоставление регулярных выражений и фильтрацию метаданных в едином интерфейсе, обеспечивая богатый и точный поиск за пределами простого поиска ближайших соседей.
Бесшовная интеграция Embedding
Встроенная поддержка моделей embedding от OpenAI, HuggingFace, Google Cohere и других — включая модель Sentence Transformers по умолчанию — позволяет разработчикам начать работу без пользовательских конвейеров embedding.
Гибкие варианты развертывания
Работает в памяти для быстрого прототипирования, как постоянный локальный экземпляр или как полностью управляемый бессерверный облачный сервис на Chroma Cloud, все используют один и тот же API разработчика.
Совместимость с фреймворками и языками
Нативные клиенты для Python, JavaScript, Ruby, PHP, Java и других, с глубокой интеграцией в LangChain, LlamaIndex и другие ведущие фреймворки разработки AI.
Облачно-нативная масштабируемость
Распределенная, горизонтально масштабируемая архитектура, построенная на объектном хранилище с автоматическим распределением данных по уровням, мультитенантностью и соответствием SOC 2 Type I для производственных нагрузок.
Варианты использования
- RAG-приложения : Разработчики, создающие системы генерации с дополненным поиском, используют Chroma для хранения embedding документов и извлечения наиболее релевантного контекста для подачи в LLM во время запроса.
- Семантический поиск : Команды встраивают и индексируют большие текстовые корпусы в Chroma для работы семантических поисковых систем, которые возвращают результаты по смыслу, а не по совпадению ключевых слов.
- Память LLM и управление контекстом : Chroma служит постоянным хранилищем памяти для разговорных агентов и чат-ботов, позволяя им вспоминать релевантные прошлые взаимодействия или знания предметной области.
- Рекомендательные системы : Конвейеры рекомендаций продуктов и контента используют Chroma для поиска элементов, наиболее похожих на предпочтения пользователя, основываясь на векторной близости.
- Мультимодальный поиск : Поддерживает изображения и мультимодальные embedding, обеспечивая рабочие процессы поиска, охватывающие текстовые и визуальные данные в одной базе данных.
Часто задаваемые вопросы
Альтернативы Chroma
LanceDB
Открытая, безсерверная векторная база данных, оптимизированная для хранения, поиска и управления мультимодальными AI-данными в петабайтных масштабах.
Milvus
Высокопроизводительная масштабируемая векторная база данных, предназначенная для эффективного AI-поиска по сходству и аналитики по разнородным неструктурированным данным.
Pinecone
Полностью управляемая платформа векторных баз данных для масштабируемого, быстрого поиска по схожести и потоковой индексации многомерных данных в реальном времени.
Lily AI
Платформа для ритейла на базе AI, которая улучшает поиск товаров и вовлечённость клиентов через детализированное обогащение атрибутов и эмоциональный интеллект.
Frame Set
Комплексная платформа визуальных референсов, предлагающая доступ к более чем 350 000 отобранных кадров и движений из рекламных роликов, музыкальных видео и фильмов для кинематографистов и творческих профессионалов.
Jina AI
Открытая нейронная поисковая платформа, обеспечивающая масштабируемые, мультимодальные и интеллектуальные поисковые приложения с использованием современных AI-моделей.
LlamaIndex
Гибкий фреймворк для создания корпоративных ассистентов знаний, соединяющий большие языковые модели с разнообразными источниками данных.
Qdrant
Открытая векторная база данных на Rust для масштабируемого поиска по сходству и хранения векторов.
Аналитика сайта Chroma
🇮🇳 IN: 17.97%
🇺🇸 US: 12.34%
🇨🇳 CN: 10.43%
🇦🇺 AU: 3.74%
🇬🇧 GB: 3.22%
Others: 52.3%
