Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

Colapsar
X
 
  • Filtrar
  • Tiempo
  • Mostrar
Limpiar Todo
nuevos mensajes
  • noSign
    Super Moderator
    • Dec
    • 5047

    Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

    Otro modelo IA (es muy parecido a DeepSeek)
    Supera a DeepSeek V3 en la mayoría de tests, Su arquitectura Mixture of Experts (MoE) permite que el modelo no tenga que cargar con un conocimiento monolítico, sino que lo divide en varios "expertos" especializados en diferentes tareas. Y aquí viene la magia: en lugar de procesar todo como un gigante torpe, el sistema elige qué "experto" usar según la tarea en cuestión, logrando mayor precisión y rapidez.

    Si eso no fuera suficiente, Qwen 2.5 Max ha sido entrenado con más de 20.000 millones de tokens, lo que, sumado a técnicas avanzadas de ajuste fino supervisado (SFT) y aprendizaje de refuerzo con retroalimentación humana (RLHF), lo convierten en una auténtica bestia. Los tests lo confirman: supera a DeepSeek V3 en benchmarks como Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond, y mantiene el tipo en pruebas como MMLU-Pro.


    QWEN CHAT API DEMO DISCORD It is widely recognized that continuously scaling both data size and model size can lead to significant improvements in model intelligence. However, the research and industry community has limited experience in effectively scaling extremely large models, whether they are dense or Mixture-of-Expert (MoE) models. Many critical details regarding this scaling process were only disclosed with the recent release of DeepSeek V3. Concurrently, we are developing Qwen2.


    Qwen Studio is an official platform from Qwen that empowers both everyday users and developers with unified access to Qwen’s series of open-source and proprietary models. It offers comprehensive functionality spanning chatbots, image and video understanding, image generation and editing, document processing, tool utilization, voice and video chat, and artifacts.
Trabajando...
X