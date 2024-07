Apple et d'autres ont entrainé leurs IA sur des données de Youtube

Plus de 170 000 vidéos siphonnées

The Pile

Pour que les algorithmes d'intelligence artificielle soient performants, il faut les entrainer en les nourrissant avec d'énormes bases de données. Selon nos confrères de Proof News et Wired , alors que Google (qui n'est certainement pas la dernière à chercher à nourrir ses IA de données plus ou moins légalement) précise bien qu'elle ne permet pas cet usage.La base de données contient les sous-titres deCette base de données a été collectée, sans en avoir le droit, puis proposée aux différents acteurs du marché de l'intelligence artificielle par la firme à but non lucratif EleutherAI. Ces sous-titres ainsi que d'autres données sont regroupés sous le nomet servent ensuite à entrainer les différentes IA.(pour Open-source Efficient Language Models). Il s'agit d'une série de 4 grands modèles de langages avec respectivement 270 millions, 450 millions, 1 milliard et 3 millards de paramètres. Ces caractéristiques relativement réduites pour des grands modèles de langage ont pour particularité de. Ce sont donc, en partie, sur ces travaux que s'appuiera le futur bouquet d'outils d'Apple Intelligence pour le traitement des requêtes sur les iPhone, iPad et Mac.Même si Apple et les autres grandes sociétés peuvent mettre en avant que les données n'ont pas été récoltées par leur soin, et qu'ils ont donc agi en toute bonne foi (ou tout du moins le prétendre),. Lorsque ces intelligences artificielles sont suffisamment entrainées, elles sont la plupart du temps utilisées pour générer des profits,