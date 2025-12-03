Une grande et belle famille sous licence Apache 2.0 !

Ministral

Mistral Large 3

Ministral 3 : l’IA de pointe optimisée pour l’edge (3B, 8B, 14B)

Qu'en penser ?



Au-delà des benchmarks, la stratégie est claire et la réponse ferme face aux modèles US ! Mistral entend réduire les coûts d’inférence, favoriser l’adoption industrielle, proposer des alternatives souveraines aux modèles propriétaires, et démocratiser l’accès aux modèles avancés grâce à l’open-source.



Avec Mistral 3, la startup française montre qu’elle est désormais capable de rivaliser avec les leaders mondiaux, tout en misant sur une vision très européenne : ouvrir les poids, faciliter le déploiement, et laisser les développeurs construire librement.

(3B, 8B et 14B),, un modèle mixture-of-experts (MoE) de nouvelle génération : 41 milliards de paramètres actifs et 675 milliards au total, entraîné sur plus de 3000 GPU NVIDIA H200., ainsi que via : Hugging Face, vLLM, TensorRT-LLM, SGLang et bientôt davantage de plateformes industrielles.: architecture sparse MoE (41B actifs / 675B totaux), entraînement from scratch sur 3000 NVIDIA H200, multimodalité native (texte + image) et performances multilingues.Selon les mesures publiées,, et #6 toutes catégories confondues — un score spectaculaire pour un modèle libre. Mistral publie à la fois le modèle base et le modèle instru, et annonce qu’une version reasoning arrivera prochainement.On apprend quea optimisé Large 3 pour TensorRT-LLM, SGLang, et pour ses nouvelles architectures Blackwell NVL72. vLLM publie une prise en charge complète permettant d’exécuter Large 3 sur un seul nœud 8×A100 ou 8×H100.contribue à l’intégration dans les environnements serveurs et edge. Enfin, le modèle est fourni dans un format NVFP4, compressé via llm-compressor pour réduire les coûts d’inférence. Autrement dit : Large 3 n’est pas seulement open-source,: équipements industriels, PC, robotique, objets connectés, traitement local et même les laptops GPU. Disponible en version base, instruct et reasoning, chacun de ces modèles est multimodal, multilingue, conçu pour consommer moins de tokens à génération équivalente et offert sous licence Apache 2.0.