IA et données personnelles : vos informations nourrissent-elles ChatGPT ?
Les grands modèles de langage sont entraînés sur des milliards de textes. Parmi eux, vos publications, commentaires et profils publics.
D'où viennent les données d'entraînement ?
Pages web publiques
Risque : ÉlevéBlogs, forums, profils publics, articles... Le web ouvert est massivement aspiré pour entraîner les modèles.
Réseaux sociaux
Risque : ÉlevéPublications publiques sur Twitter/X, Reddit, Facebook. Vos posts deviennent des données d'entraînement.
Livres et articles
Risque : MoyenLivres numériques, publications scientifiques et articles de presse sont inclus dans les datasets.
Code source
Risque : MoyenRepositories GitHub publics, Stack Overflow et forums techniques.
Conversations avec les IA
Risque : VariableCertains services utilisent vos conversations pour améliorer leurs modèles (sauf opt-out).
Comment protéger vos données
Désactivez l'utilisation de vos données pour l'entraînement (ChatGPT : Settings → Data Controls)
Limitez vos publications publiques sur les réseaux sociaux
Ajoutez un fichier robots.txt sur vos sites pour bloquer les crawlers IA
Vérifiez si vos données apparaissent dans les réponses des IA (recherchez votre nom)
Exercez votre droit d'opposition auprès des entreprises d'IA (art. 21 RGPD)
Le savez-vous ? La CNIL italienne a temporairement banni ChatGPT en 2023 pour non-conformité au RGPD. Depuis, OpenAI a ajouté des options d'opt-out, mais vos anciennes données restent dans les modèles.
Quelles données circulent sur vous ?
Notre audit identifie vos données exposées publiquement, y compris celles utilisables par les IA.
Lancer un audit gratuit