LM Arena (Chatbot Arena)
Plataforma de código abierto y dirigida por la comunidad para el benchmarking en vivo y la evaluación de modelos de lenguaje grande (LLMs) mediante comparaciones por pares y puntuaciones Elo.
Descripción del Producto
¿Qué es LM Arena (Chatbot Arena)?
LM Arena, también conocido como Chatbot Arena, es una plataforma de código abierto desarrollada por LMSYS y UC Berkeley SkyLab para avanzar en el desarrollo y la comprensión de los modelos de lenguaje grande mediante evaluaciones en vivo, transparentes y dirigidas por la comunidad. Permite a los usuarios interactuar y comparar múltiples LLMs en batallas anónimas, recopilando votos para clasificar los modelos usando el sistema Elo. La plataforma soporta una amplia gama de modelos publicados, tanto open-weight como APIs comerciales, y actualiza continuamente su ranking basado en la retroalimentación real de los usuarios. LM Arena enfatiza la transparencia, la ciencia abierta y la colaboración compartiendo datasets, herramientas de evaluación e infraestructura abiertamente en GitHub.
Características Principales
Comparación por pares de modelos mediante crowdsourcing
Los usuarios participan en batallas anónimas y aleatorias entre dos LLMs, votando por la mejor respuesta para generar datos comparativos fiables.
Sistema de clasificación Elo para ranking de modelos
Adopta el reconocido sistema de puntuación Elo para proporcionar clasificaciones dinámicas y estadísticamente sólidas del rendimiento de los LLM.
Infraestructura de código abierto
Todos los componentes de la plataforma, incluyendo frontend, backend, pipelines de evaluación y algoritmos de ranking, son de código abierto y están disponibles públicamente.
Evaluación continua y en tiempo real
La recopilación en tiempo real de prompts y votos de los usuarios garantiza una evaluación actualizada que refleja las capacidades actuales de los modelos y casos de uso reales.
Soporte para modelos publicados públicamente
Incluye modelos open-weight, accesibles públicamente mediante APIs o disponibles como servicios, asegurando transparencia y reproducibilidad.
Participación comunitaria y transparencia
Fomenta la participación amplia y comparte abiertamente los datos de preferencias y prompts de los usuarios para impulsar la investigación colaborativa en IA.
Casos de Uso
- Benchmarking del rendimiento de LLM : Investigadores y desarrolladores pueden evaluar y comparar la efectividad de varios modelos de lenguaje grande en condiciones reales.
- Selección de modelos para despliegue : Las organizaciones pueden identificar los LLM con mejor rendimiento para sus aplicaciones específicas revisando los rankings impulsados por la comunidad.
- Ciencia abierta e investigación : Académicos y profesionales de IA pueden acceder a conjuntos de datos y herramientas compartidas para realizar investigaciones reproducibles y mejorar el desarrollo de modelos.
- Retroalimentación comunitaria para la mejora de modelos : Los proveedores de modelos pueden recopilar feedback anónimo de los usuarios y datos de votación para perfeccionar y mejorar sus sistemas de IA antes de los lanzamientos oficiales.
Preguntas Frecuentes
Alternativas a LM Arena (Chatbot Arena)

Nous Research
Un colectivo pionero de investigación en IA enfocado en modelos de lenguaje humanos y abiertos, e infraestructura de IA descentralizada.
AnythingLLM
Aplicación de escritorio de IA todo en uno que ofrece uso local y en la nube de LLMs, chat con documentos, agentes de IA y privacidad total sin configuración.

Allen Institute for AI (AI2)
Instituto de investigación sin fines de lucro que impulsa la IA mediante modelos, herramientas y soluciones de búsqueda científica de código abierto.

Pathway
Una plataforma moderna de investigación UX que permite a los equipos de producto validar rápidamente diseños con usuarios reales de todo el mundo mediante pruebas inteligentes no moderadas y análisis impulsados por IA.

Pulse Labs
Plataforma impulsada por AI que proporciona retroalimentación de usuarios de alta calidad, recopilación de datos y pruebas de modelos para optimizar el desarrollo de productos y AI.

Prompt Cowboy
Herramienta de generación de prompts que transforma ideas rudimentarias en prompts estructurados y de alto rendimiento para ChatGPT, Claude y otros modelos de lenguaje.
Analítica del Sitio Web de LM Arena (Chatbot Arena)
🇨🇳 CN: 12.52%
🇰🇷 KR: 11.77%
🇮🇳 IN: 8.41%
🇺🇸 US: 8.25%
🇷🇺 RU: 6.96%
Others: 52.09%