Guillaume Lample, l’un des cofondateurs de Mistral AI, est actuellement sous le feu des projecteurs pour des pratiques controversées concernant l’utilisation de bases de données, notamment durant son passage chez Meta. Des révélations récentes soulignent des méthodes qui pourraient avoir enfreint les droits d’auteur, suscitant de nombreuses interrogations sur les pratiques de collecte de données dans le secteur de l’intelligence artificielle.

Les 3 infos à ne pas manquer

  • Guillaume Lample, ancien de Meta, aurait téléchargé 70 To de données protégées par le droit d’auteur.
  • Ces données provenaient de la bibliothèque pirate Library Genesis, bien connue pour héberger des œuvres protégées.
  • La première version de Llama n’aurait finalement pas utilisé ces données, mais des questions persistent concernant leur utilisation dans le modèle Mistral 7B.

Les pratiques controversées de collecte de données

Guillaume Lample, avant de co-fonder Mistral AI, travaillait chez Meta, où il aurait été impliqué dans le téléchargement massif de données depuis Library Genesis. Cette bibliothèque est réputée pour héberger des œuvres littéraires et scientifiques protégées par les droits d’auteur, et ce téléchargement massif de 70 To de données soulève des questions éthiques et légales.

Les discussions internes chez Meta, rendues publiques, révèlent une opposition parmi les chercheurs, certains considérant l’utilisation de ces données comme un franchissement de «ligne rouge». Ces révélations jettent un nouvel éclairage sur les pratiques de collecte de données dans l’industrie de l’intelligence artificielle.

L’impact sur Llama et Mistral AI

Malgré le téléchargement de ces données, elles n’ont pas été utilisées pour le développement de la première version de Llama, lancée en février 2023. Cependant, les suspicions demeurent quant à leur possible utilisation dans le modèle Mistral 7B, lancé en septembre 2023. Les communications internes de Meta laissent entendre que l’utilisation de Library Genesis par Mistral AI pourrait être une pratique courante, bien que non officiellement confirmée.

À lire  Email marketing : 5 conseils pour réussir sa 1ère campagne emailing

À ce jour, ni Guillaume Lample ni Mistral AI n’ont commenté ces allégations, laissant planer le doute sur les méthodes de collecte de données employées par l’entreprise française d’intelligence artificielle.

Répercussions juridiques et éthiques

Les pratiques de collecte de données soulèvent non seulement des questions juridiques mais aussi éthiques. Aux États-Unis, des procès similaires ont déjà été intentés, comme celui du New York Times contre OpenAI, pour des pratiques similaires. La question de la légalité et de l’éthique dans l’utilisation de grandes bases de données est ainsi remise sur le devant de la scène.

Ces affaires pourraient influencer les futures réglementations et pratiques dans le secteur technologique, où les données constituent le cœur du développement des modèles d’intelligence artificielle.

Mistral AI et Guillaume Lample : contexte et enjeux

Fondée en 2023 par Guillaume Lample, Timothée Lacroix et Arthur Mensch, Mistral AI se positionne comme un acteur majeur de l’intelligence artificielle en France. L’entreprise vise à développer des modèles performants et innovants capables de rivaliser avec ceux des géants du secteur. Cependant, ces récentes révélations mettent en lumière les défis éthiques auxquels sont confrontées les entreprises technologiques dans leur quête de données.

Avant de créer Mistral AI, Guillaume Lample a travaillé chez Meta, où son rôle dans le développement de Llama a été significatif. Son expérience au sein de cette grande entreprise technologique lui a permis d’acquérir une expertise précieuse, mais les pratiques controversées de collecte de données soulèvent des questions sur les méthodes employées dans l’industrie pour obtenir le “combustible” nécessaire au fonctionnement des modèles d’intelligence artificielle.

À lire  5 recommandations pour réussir comme freelance Webflow