Retour au blog
Enquête 8 min16 septembre 2025

IA et données personnelles : vos informations nourrissent-elles ChatGPT ?

Les grands modèles de langage sont entraînés sur des milliards de textes. Parmi eux, vos publications, commentaires et profils publics.

D'où viennent les données d'entraînement ?

Pages web publiques

Risque : Élevé

Blogs, forums, profils publics, articles... Le web ouvert est massivement aspiré pour entraîner les modèles.

Réseaux sociaux

Risque : Élevé

Publications publiques sur Twitter/X, Reddit, Facebook. Vos posts deviennent des données d'entraînement.

Livres et articles

Risque : Moyen

Livres numériques, publications scientifiques et articles de presse sont inclus dans les datasets.

Code source

Risque : Moyen

Repositories GitHub publics, Stack Overflow et forums techniques.

Conversations avec les IA

Risque : Variable

Certains services utilisent vos conversations pour améliorer leurs modèles (sauf opt-out).

Comment protéger vos données

Désactivez l'utilisation de vos données pour l'entraînement (ChatGPT : Settings → Data Controls)

Limitez vos publications publiques sur les réseaux sociaux

Ajoutez un fichier robots.txt sur vos sites pour bloquer les crawlers IA

Vérifiez si vos données apparaissent dans les réponses des IA (recherchez votre nom)

Exercez votre droit d'opposition auprès des entreprises d'IA (art. 21 RGPD)

Le savez-vous ? La CNIL italienne a temporairement banni ChatGPT en 2023 pour non-conformité au RGPD. Depuis, OpenAI a ajouté des options d'opt-out, mais vos anciennes données restent dans les modèles.

Quelles données circulent sur vous ?

Notre audit identifie vos données exposées publiquement, y compris celles utilisables par les IA.

Lancer un audit gratuit

Vos données sont-elles exposées ?

Audit gratuit en 30 secondes — 150+ bases analysées

Lancer l'audit
Une question ? Écrivez-nous !