DeepSeek-R1, le modèle open source chinois venu déstabiliser NVIDIA et le marché de l’IA

Marc Andreessen a qualifié DeepSeek-R1 de “l’une des percées les plus impressionnantes qu’il ait jamais vues et, en tant que source ouverte, un cadeau profond pour le monde”.

Le 28 janvier 2025, par Marie-Claude Benoit

Après avoir suscité l’attention en décembre dernier avec l’annonce de DeepSeek-V3, son modèle open source éponyme, la start-up chinoise DeepSeek est venue perturber le marché de Wall Street avec le lancement le 20 janvier dernier de DeepSeek-R1.  Ce modèle doté de capacités de raisonnement avancées, lui aussi open source et dont le coût d’entraînement a également été drastiquement réduit, alimente désormais son agent conversationnel.

Nvidia a été sans conteste l’entreprise la plus impactée par l’arrivée de DeepSeek-R1. Alors que boostée par une demande accrue pour ses GPUs dédiés aux data centers, elle avait détrôné une nouvelle fois Apple en novembre dernier, redevenant l’entreprise la plus cotée en bourse, son action enregistrait hier soir une chute de 16, 86 %, la plus forte baisse depuis 2020. La société, qui a perdu plus de 580 milliards de capitalisation boursière en une seule journée, se retrouve ainsi rétrogradée à la 3ème place du marché, derrière Apple et Microsoft.

DeepSeek, la start-up chinoise qui défie les géants Américains

Alors que la guerre technologique autour de l’IA entre les Etats-Unis et la Chine continue de s’intensifier et que les acteurs de l’IA américains sont prêts à investir des sommes colossales, DeepSeek démontre une fois de plus qu’il est possible de développer à moindre coût des LLMs capables de rivaliser avec les meilleurs modèles américains aux nombres de paramètres impressionnants.

Créée en mai 2023 à Hangzhou, la start-up, dirigée par Liang Wenfeng, est une filiale du fonds spéculatif High-Flyer. Son ambition est la même que celle affichée par OpenAI : développer une IA au service de l’humanité et atteindre l’IAG, des systèmes d’IA qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines.

Tout juste un an plus tard, l’entreprise lançait DeepSeek-V2, un modèle de langage performant proposé à un coût compétitif, déclenchant une guerre des prix sur le marché chinois de l’IA et amenant ses principaux concurrents notamment Zhipu AI, ByteDance, Alibaba, Baidu, Tencent à revoir leurs prix à la baisse.

DeepSeek, son IA conversationnelle, se présente comme une alternative sérieuse aux chatbots occidentaux, surpassant ChatGPT en nombre de téléchargements tant en Chine qu’aux États-Unis. Le chatbot est également disponible sur le site de la start-up.

DeepSeek-R1

DeepSeek-R1-Zero et DeepSeek-R1 sont deux modèles de raisonnement de première génération. DeepSeek-R1-Zero, entraîné par apprentissage par renforcement (RL) sans réglage fin supervisé (SFT), a montré de solides performances. Cependant, il présente des défis tels que la répétition sans fin et la mauvaise lisibilité. Pour résoudre ces problèmes, DeepSeek-R1 intègre des données de démarrage à froid avant l’application du RL, atteignant des performances comparables à celles d’OpenAI-o1 dans les tâches mathématiques, de code et de raisonnement.

Pour soutenir la communauté des chercheurs, la start-up a mis DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1 basés sur Llama et Qwen en open source. DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-LLama 70B surpassent OpenAI-o1-mini dans divers benchmarks.

Selon la start-up, DeepSeek-R1 aurait été entraîné comme son prédécesseur avec des GPU H 800 que les USA autorisaient NVIDIA à lui vendre jusqu’à l’an passé, une affirmation qui laisse perplexes certains acteurs de l’IA américains qui pensent qu’elle aurait eu accès aux GPU Hopper H100 malgré les restrictions.

Quoiqu’il en soit, ses performances ont surpris les experts. Alexandr Wang, PDG de l’entreprise américaine Scale AI, a déclaré à la CNBC : “Ce que nous avons constaté, c’est que DeepSeek (…) est soit le meilleur, soit au niveau des meilleurs modèles américains”.

Marc Andreessen, qui a investi dans de nombreuses entreprises technologiques à succès, notamment Facebook, Twitter, LinkedIn et GitHub, a, quant à lui, qualifié DeepSeek-R1 de “l’une des percées les plus impressionnantes qu’il ait jamais vues et, en tant que source ouverte, un cadeau profond pour le monde”.

La course à l’IA entre les deux géants que sont les Etats-Unis et la Chine est plus que jamais ouverte…

Soyez le premier à commenter

Poster un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.