Les données synthétiques - Un remède miracle ou un casse-tête pour la protection des données?

Author info

Les auteurs de cet article participent aux projets suivants financés par l'UE:

Flute - Magdalena Kogut-Czarkowska

AISym4MED - Nayana Murali

1. Que sont les données synthétiques ?

Les données synthétiques, terme qui n'a pas de définition juridique précise, désignent grossièrement des données générées artificiellement pour ressembler aux caractéristiques de données réelles, y compris leur structure et leur distribution statistique [1]. Une définition plus nuancée précise que les données synthétiques sont générées par l'utilisation d'un modèle mathématique ou d'un algorithme, dans le but de générer des données statistiquement réalistes mais intrinsèquement "artificielles" [2].

La génération de données synthétiques peut prendre différentes formes, notamment la production à partir d'ensembles de données réels ainsi que la création "à partir de zéro" en tirant parti des connaissances et de l'expertise rassemblées par les analystes de données sur des dépendances spécifiques. Elle peut également résulter d'une combinaison de ces approches, en incorporant à la fois des données réelles et des connaissances des experts pour créer des ensembles de données synthétiques [3]. 

L'objectif premier des données synthétiques est de préserver les caractéristiques et les propriétés des données réelles adaptées à un cas d'utilisation spécifique [4]. Le choix des propriétés des données réelles à préserver dépend de la finalité de l'utilisation des données. Par exemple, des qualités de données différentes sont nécessaires pour évaluer les capacités de stockage d'un système informatique par rapport à l'utilisation des données pour l'entraînement d'un modèle d'intelligence artificielle (IA) dans la détection du cancer. 

Dans certaines applications, la pertinence de la qualité des données, au sens de la ressemblance étroite entre les données synthétiques et les données réelles, peut ne pas être essentielle. Par exemple, lorsque des données synthétiques sont utilisées pour former des véhicules à la conduite autonome, l'occurrence de situations à risque dans cet ensemble de données peut devoir être plus fréquente que dans des conditions de conduite réelles [5]. Par conséquent, le facteur de dépendance de l’espèce joue un rôle crucial dans l'élaboration de l'approche qui sera utilisée pour la génération des données synthétiques. 

2. Pourquoi les données synthétiques sont-elles utiles ?

Les progrès et l'évolution de la technologie, en particulier dans le domaine de l’IA, dépendent de la disponibilité de vastes ensembles de données [6]. Les données synthétiques apparaissent comme un atout crucial lorsque les données réelles sont inaccessibles ou insuffisantes en raison de leur rareté, de leur manque de variabilité ou de contraintes juridiques telles que le règlement général sur la protection des données (RGPD) [7], les droits de propriété intellectuelle ou la protection des secrets commerciaux. Les données synthétiques jouent également un rôle essentiel en permettant de surmonter la nature coûteuse en main-d'œuvre de l'étiquetage des données réelles [1]. 

En termes pratiques, puisque les données sont générées, elles peuvent réduire les coûts et les ressources nécessaires à la collecte des données requises [5]. L'utilisation de données "factices" pour l'entraînement initial de modèles d'IA offre aux développeurs un avantage stratégique, en leur permettant d'obtenir des résultats plus rapides avant de passer aux données réelles. De nombreux exemples pratiques soulignent l'utilité des données synthétiques, en particulier pour l'entraînement des modèles d'apprentissage automatique et l'analyse des données. L'Alexa d'Amazon, par exemple, serait entrainée sur des données synthétiques[8]. Pour observer de près la génération de données synthétiques, l’on peut explorer le Random Face Generator (générateur de visages aléatoires) sur https://this-person-does-not-exist.com/en [9]. 

Les données synthétiques contribuent à enrichir les expériences de réalité virtuelle (RV) et de réalité augmentée (RA) en créant des environnements virtuels réalistes. Dans le domaine de la cybersécurité, la simulation de diverses cybermenaces à l'aide de données synthétiques est essentielle pour l’entraînement et le test des mécanismes de défense. La météorologie exploite les données synthétiques pour améliorer les modèles de prévision météorologique, en simulant un spectre de conditions atmosphériques pour des prévisions plus précises. Dans le cadre du développement de véhicules autonomes, les données synthétiques sont utilisées pour simuler diverses conditions routières et divers obstacles, ce qui facilite l'apprentissage des algorithmes. 

L'une des applications les plus prometteuses des données synthétiques concerne la recherche et l'innovation dans le domaine de la santé. On cherche à savoir si des patients virtuels, générés par ordinateur, peuvent s'avérer précieux pour le développement de médicaments et de dispositifs médicaux, ce qui pourrait permettre de réduire la nécessité de recourirà des tests humains et de raccourcir les délais d'essai [5].  

Dans un autre cas notable, des données synthétiques ont été utilisées pour remédier à la sous-représentation de divers types de peau dans les ensembles de données existants [10]. Reconnaissant un biais en faveur des exemples de peaux claires prédominantes dans les référentiels de données, un ensemble plus inclusif d'images de peau a été créé à l'aide de données synthétiques. Cette initiative visait à former des modèles de détection capables de reconnaître efficacement les affections cutanées potentiellement malignes, telles que le mélanome, dans toute une gamme de teintes. 

Par essence, les données synthétiques ne constituent pas seulement une solution aux défis posés par les données, mais aussi une force de transformation, qui remodèle la technologie dans diverses applications. Leur intégration transparente dans divers domaines reflète leur rôle central dans l'avancement et la révolution des capacités de l'intelligence artificielle et des technologies basées sur les données.

3. Le RGPD s'applique-t-il aux données synthétiques ?

La relation entre les données synthétiques et le RGPD fait l'objet d'un débat, la plupart des chercheurs s'accordant à dire que les données synthétiques ne sont pas automatiquement "privées" [11] ou placées hors du champ des lois sur la protection des données. Les considérations juridiques se posent principalement lors de la création de données synthétiques à partir d'ensembles de données réelles contenant des données à caractère personnel, comme c'est le cas, par exemple, pour les ensembles de données médicales. Dans ce cas, le processus commence par la collecte et la préparation des données à caractère personnel réelles pour l'entraînement des modèles d'IA qui génèrent des données synthétiques. Du point de vue du RGPD, la création de données synthétiques basées sur des données à caractère personnel nécessite le traitement de ces dernières [12]. 

Cela impose plusieurs exigences aux développeurs. Par exemple, ils doivent mettre en œuvre le principe de minimisation des données du RGPD (article 5.1c), en pseudonymisant les données d'entrée et en supprimant les identifiants directs. Un autre principe essentiel consiste à garantir l'intégrité et la confidentialité des données à caractère personnel saisies (article 5, paragraphe 1, point f)), notamment en intégrant des mesures de sécurité techniques et organisationnelles (article 32) afin de les protéger contre toute divulgation illicite. Comme pour tout traitement de données à caractère personnel, il est nécessaire de disposer d'une base juridique pour utiliser des données à caractère personnel pour la génération de données synthétiques.

L'avis 05/2014 du groupe de travail "Article 29" sur les techniques d'anonymisation [13] indique que l'anonymisation, en tant que traitement ultérieur de données à caractère personnel, peut être compatible avec les finalités initiales du traitement si elle aboutit à des données véritablement anonymes. Selon certains auteurs, un argument similaire peut être avancé pour la génération de données synthétiques "à condition que la synthèse des données soit effectuée de manière adéquate et que les données synthétiques soient produites de manière fiable" (traduction libre) [1], ou, avec un standard plus élevé, que les données synthétiques soient anonymes (non personnelles).

Cela conduit à la pressante question de savoir si les données synthétiques sont des "données à caractère personnel" régies par la législation sur la protection des données. À première vue, on peut affirmer que puisque les données sont volontairement perturbées et modifiées (il n'y a pas de correspondance univoque entre les enregistrements synthétiques et la personne), elles sont automatiquement non personnelles. Toutefois, certaines études [14] indiquent que le niveau d'anonymisation n'est pas toujours suffisant. Même si la génération des données a été effectuée sur des données initialement désidentifiées (où les identifiants directs, tels que les noms, ont été supprimés), il subsiste un risque qu'une personne puisse être indirectement identifiée soit à partir des données synthétiques elles-mêmes, soit à partir d'autres sources disponibles [15].

Le risque devient particulièrement important dans les cas où un modèle est vulnérable au "surajustement" ("overfitting") [15]. Dans ce cas, le modèle se concentre excessivement sur les détails des données d'apprentissage, mémorisant essentiellement des exemples de ces données et les reproduisant dans des données synthétiques [12 et autres sources citées qui y sont citées] [16]. Par conséquent, ce phénomène met en évidence une vulnérabilité des données synthétiques, car elles ont "la capacité de divulguer des informations sur les données à partir desquelles elles ont été dérivées" (traduction libre) [11], ce qui les rend sujettes à des attaques en matière de protection de la vie privée.

Par conséquent, il est impératif de procéder à une évaluation approfondie de toutes les données synthétiques afin de déterminer si elles sont personnelles ou non. Le Contrôleur européen de la protection des données (CEPD) a notamment souligné que cette évaluation doit porter sur la mesure dans laquelle les personnes concernées peuvent être identifiées dans les données synthétiques et sur la quantité de nouvelles données concernant ces personnes qui seraient révélées en cas d'identification réussie [17]. 

Néanmoins, une telle évaluation n'est pas un processus simple. D'un point de vue juridique, l'évaluation des données synthétiques en vertu du RGPD est influencée par le débat en cours sur les limites de la notion de "données à caractère personnel". Ce sujet est très complexe (voir les récents arrêts de la CJUE dans les affaires C-319/22 et GC T-557/20 [18]), ce qui se traduit par l'absence de standards communs et une définition potentiellement extensive des "données à caractère personnel". Essentiellement, les débats relatifs au risque d'identification dans le cadre de la définition des "données à caractère personnel" du RGPD se concentrent souvent sur la détermination du point de vue qui devrait décider si une information peut être qualifiée de personnelle. En outre, il est nécessaire d'établir un seuil de "ressemblance raisonnable" pour évaluer le risque de réidentification. Un autre problème persistant lié aux données synthétiques concerne la déduction potentielle d'informations sensibles sur une personne, même dans les cas où le test d'identifiabilité n'aboutit pas à un résultat positif.

Même si les données synthétiques n'atteignent pas le seuil d'anonymat, le remplacement des données a caractère personnel collectées par des données générées artificiellement offre un niveau de sécurité supplémentaire aux données à caractère personnel. L'AEPD [4] et l'ICO [19] considèrent les données synthétiques comme une technologie d'amélioration de la vie privée ("Privacy-Enhancing Technology", PET) qui vise à affaiblir ou à rompre le lien entre une personne et les données a caractère personnel d'origine. Certains chercheurs proposent de combiner les données synthétiques avec d'autres technologies de protection de la vie privée, telles que la confidentialité différentielle, afin d'améliorer la protection de la vie privée tout en conservant l'utilité [5]. 

4. Les données synthétiques peuvent-elles être réglementées de manière à ce que leur statut soit clair ?

Le terme "données synthétiques" est en train de faire son apparition dans la réglementation de l’UE. En particulier, le considérant 7 du règlement sur la gouvernance européenne des données stipule qu' "il existe des techniques permettant des analyses sur des bases de données contenant des données à caractère personnel, telles que l'anonymisation, la confidentialité différentielle, la généralisation, la suppression et la randomisation, l'utilisation de données synthétiques ou de méthodes similaires et d'autres méthodes de pointe de préservation de la vie privée qui pourraient contribuer à un traitement des données plus respectueux de la vie privée" (traduction libre) [20]. Bien que le règlement sur la gouvernance des données reconnaisse la valeur des données synthétiques en tant que PET, il n'offre pas de définition juridique ni de position concernant leur statut de données à caractère personnel ou non personnel. 

Comme mentionné ci-dessus, la position actuelle de certaines autorités de protection des données et de certains professionnels de la vie privée est que les données synthétiques doivent être évaluées dans le cadre du RGPD, et que les implications en matière de vie privée de tout ensemble de données synthétiques dépendent fortement du contexte spécifique [4]. Ce point de vue est considéré comme un obstacle potentiel au développement de l'utilisation des données synthétiques dans la recherche. Des inquiétudes ont été exprimées concernant les exigences juridiques complexes et les processus de conformité au RGPD qui doivent être respectés, ce qui pourrait entraver le progrès technologique et empêcher l'adoption généralisée des données synthétiques. On pourrait être tenté de suggérer que les complexités liées à la qualification des données synthétiques pourraient être facilement résolues par l'établissement d'une définition juridique adoptée par les législateurs de l'Union européenne. Un tel espoir a été suscité par la proposition de loi sur l'intelligence artificielle (AI Act) [21], dont l'article 54, paragraphe 1, point b), stipule ce qui suit :

"Dans le cadre du bac à sable réglementaire de l’IA, des données à caractère personnel collectées légalement à d’autres fins sont traitées aux fins du développement et du test de certains systèmes d’IA innovants dans le bac à sable, dans les conditions suivantes:

a) (...)

b) les données traitées sont nécessaires pour satisfaire à une ou plusieurs des exigences visées au titre III, chapitre 2, lorsque ces exigences ne peuvent être satisfaites de manière efficace en traitant des données anonymisées, synthétiques ou autres à caractère non personnel;"

L'attention a été attirée sur la partie de la disposition dans laquelle les catégories de données anonymes, synthétiques ou autres données à caractère non personnel sont mentionnées ensemble. Comme certains le soutiennent [22], cette formulation suggère – implicitement – que les données synthétiques sont considérées comme un type de données à caractère non personnel. Toutefois, selon notre évaluation, cette conclusion semble quelque peu prématurée. 

L'origine des données synthétiques est un facteur important pour déterminer si elles doivent être considérées comme des données à caractère personnel. Lorsque des données synthétiques sont créées à partir de données à caractère personnel originales, un compromis crucial apparaît, dans lequel l'utilité et l'anonymat sont intrinsèquement liés. Plus un ensemble de données synthétiques est utile, moins il est anonyme (ce qui signifie que le risque de réidentification est plus élevé), et vice versa [23] [24]. Par conséquent, trouver un équilibre entre l'anonymat absolu et la préservation de l'utilité est une tâche nuancée lorsque des données synthétiques sont générées à partir de données à caractère personnel réelles, et il est peu probable qu'un consensus unanime se dégage pour affirmer que les données synthétiques revêtent sans équivoque un caractère non personnel, dans tous les cas. À l'inverse, les données synthétiques générées à partir d'hypothèses, contournant donc le traitement direct de données à caractère personnel, n’ont pas à relever ces défis.

À cet égard, les perspectives critiques mettent en garde les décideurs politiques contre l'idée que toutes les formes de synthèse des données sont aussi efficaces les unes que les autres. Les experts indiquent également que le contexte et la pratique auront une influence majeure sur le risque de réidentification [15]. Ils affirment que les autorités de protection des données (APD) et la communauté devraient parvenir à "desnormes et des approches appropriées pour évaluer l'identifiabilité de méthodes spécifiques de génération de données synthétiques, en utilisant autant que possible des métriques quantitatives" (traduction libre) [15]. 

L'avenir nous dira si ces commentaires seront pris en compte dans la version finale  du règlement sur l'IA. Dans les amendements au règlement sur l'IA adoptés le 14 juin 2023 par le Parlement européen [25], une référence aux données synthétiques à l'article 10.5 a été ajoutée, décrivant les conditions de traitement de catégories spéciales de données pour détecter les biais négatifs dans les systèmes d'IA à haut risque. L'une de ces conditions est que "la détection et la correction des biais ne peuvent être assurées efficacement par le traitement de données synthétiques ou anonymes". Cet ajout n'implique pas que les données synthétiques constituent une catégorie de "données à caractère non personnel" au sens de l'article 54, paragraphe 1, point b). Il est intéressant de noter que le texte de l'article 54, paragraphe 1, point b), de la proposition initiale reste inchangé. Au moment de la rédaction de cet article de blog, le texte final de l'accord provisoire conclu entre la présidence du Conseil et les négociateurs du Parlement européen [26] n'a pas encore été divulgué, et il reste donc à voir comment (et si) le texte final aborde le statut des données synthétiques.

5. Que dois-je faire si je prévois de générer ou d'utiliser des données synthétiques ?

Voici quelques-unes des bonnes pratiques liées aux données synthétiques :

  • Établir une base juridique claire : Si le point de départ de la génération des données synthétiques implique des données à caractère personnel, le traitement de ces données à caractère personnel doit être conforme au RGPD. Par conséquent, les organisations doivent évaluer soigneusement la justification juridique du traitement des données à caractère personnel d'entrée, en veillant à ce qu'il se fonde sur une base juridique appropriée. 
  • Transparence et responsabilité : Les organisations doivent faire preuve de transparence lorsqu'elles collectent et traitent des données à caractère personnel dans le but de générer des données synthétiques. En outre, il est essentiel de tenir des registres détaillés du traitement des données à caractère personnel dans le but de générer des données synthétiques, afin de démontrer l'engagement de l'organisation à l'égard de la transparence et du principe de responsabilité. 
  • Trouver un équilibre : Comme pour l'anonymisation des données, la production de données synthétiques nécessite de trouver un équilibre entre l'utilité et l'anonymat. Si les données synthétiques ressemblent trop aux données réelles, tout en étant utiles aux chercheurs, elles peuvent compromettre la vie privée des personnes concernées et rester dans le domaine des données à caractère personnel. Cela pourrait poser des problèmes importants en termes de conformité à la protection des données. Par exemple, en raison de la nature unique des données synthétiques, il serait difficile, voire impossible, de garantir l'exactitude des données, de répondre aux demandes de correction et de traiter les objections des personnes concernant leurs données. Les données synthétiques sont générées artificiellement et ne correspondent pas à des informations réelles concernant des personnes spécifiques. 
  • Évaluation de la protection de la vie privée : Afin de s'assurer que les données synthétiques ne doivent pas être considérées comme des données à caractère personnel, il est essentiel de procéder à des évaluations de la protection de la vie privée. Il s'agit d'évaluer le risque de réidentification, d'assurer la minimisation des données et de mettre en œuvre des mesures de protection appropriées pour protéger la vie privée des personnes. Les recherches en cours explorent les méthodes et les paramètres permettant d'évaluer la probabilité de réidentification des ensembles de données synthétiques. 
  • Documentation et suivi : Comme pour tout entraînement de l'IA, il est essentiel de documenter soigneusement les données d'entrée et le processus de création des données synthétiques. L'analyse et la supervision par des experts, qu'il s'agisse d'experts du domaine ou de scientifiques des données, sont importantes lors de la génération et de l'évaluation des données synthétiques. Les organisations doivent veiller à ce que le niveau de qualité des données soit adapté au cas d'utilisation prévu et intégrer le principe de la protection des données dès la conception dans le cycle de vie de la génération des données synthétiques.  

Il est important de reconnaître que puisque les données synthétiques sont relativement nouvelles, les règles relatives à leur utilisation et les implications juridiques dans différents domaines ne sont pas encore claires. Il convient d'être particulièrement prudent dans les scénarios où les données doivent être utilisées pour l’entraînement et la validation de modèles d'IA destinés à être catégorisés comme dispositifs médicaux. Des inquiétudes ont notamment été exprimées quant à l'utilisation de données synthétiques pour la validation clinique, soulignant l'absence de fondement dans la réglementation relative aux dispositifs médicaux [27] [28]. Dans ce paysage en évolution, où les standards d'évaluation de la qualité des données synthétiques font l'objet d'améliorations constantes (en termes d'exhaustivité et d'exactitude), et qui, comme nous l'avons vu plus haut, dépendent fortement du contexte, les organisations doivent faire preuve de prudence. 

Les risques associés aux données synthétiques comprennent les inexactitudes potentielles découlant de données d'entrée ou d'informations de base erronées [29], ainsi que le risque de biais dans la création des données en raison d'informations d'entrée mal équilibrées. En outre, des inquiétudes sont exprimées concernant la capacité des utilisateurs à comprendre la logique sous-jacente appliquée par l'apprentissage automatique pour générer des valeurs synthétiques, ce qui soulève des questions quant à la transparence et à la fiabilité des données. Dans ce monde dynamique des données synthétiques, où les normes et les risques font l'objet d'un examen permanent, il convient d'accorder une attention particulière à la conformité et à la gestion responsable des données.

FLUTE et AISym4Med ont reçu un financement des programmes de recherche et d'innovation Horizon 2020 et Horizon Europe de l'Union européenne. Cependant, le contenu de cet article reflète l'opinion de ses auteurs et ne représente en aucun cas les opinions de l'Union européenne ou de la Commission européenne. La Commission européenne n'est pas responsable de l'usage qui pourrait être fait des informations contenues dans cet article.

Références:

[1] López, C. A. F, ‘On synthetic data: a brief introduction for data protection law dummies’, European Law Blog, (September 2022). Accessible at: https://europeanlawblog.eu/2022/09/22/on-synthetic-data-a-brief-introduction-for-data-protection-law-dummies/

[2] Valerie Marshall,  Charlie Markham, Pavle Avramovic, Paul Comerford, Carsten Maple,  Lukasz Szpruch,  FCA Official,   ‘Research Paper: Exploring Synthetic Data Validation – Privacy, Utility and Fidelity’. Accessible at: https://cy.ico.org.uk/media/for-organisations/documents/4025484/sythetic-data-roundtable-202306.pdf

[3] K. El Emam, L. Mosquera, and R. Hoptroff, ‘Practical Synthetic Data Generation: Balancing Privacy and the Broad Availability of Data’. O'Reilly Media Inc, (May 2020). Accessible at: https://cdn.ttgtmedia.com/rms/pdf/Practical_Synthetic_Data_Generation.pdf

[4] Agencia Espanola Proteccion Datos, ‘Synthetic data and data protection’, (November 2023). Accessible at: https://www.aepd.es/en/prensa-y-comunicacion/blog/synthetic-data-and-data-protection

[5] Gal, M. S., & Lynskey, O, ‘Synthetic Data: Legal Implications of the Data-Generation Revolution’, 109 Iowa Law Review, Forthcoming, LSE Legal Studies Working Paper No. 6/2023, (January 2023).  Accessible at: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4414385   

[6] Fontanillo López, C. A., & Elbi, A, ‘On the legal nature of synthetic data’, Center for IT and IP Law, KU Leuven, NeurIPS 2022 Workshop on Synthetic Data for Empowering ML Research. Accessible at: https://openreview.net/pdf?id=M0KMbGL2yr

[7] Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation). Accessible at: https://eur-lex.europa.eu/eli/reg/2016/679/oj 

[8] Elise Devaux, ‘Types of synthetic data and 4 real-life examples’, (2022). Accessible at: https://www.statice.ai/post/types-synthetic-data-examples-real-life-examples 

[9] Random Face Generator. Accessible at: https://this-person-does-not-exist.com/en

[10] Timo Kohlberger & Yuan Liu, ‘Generating Diverse Synthetic Medical Image Data for Training Machine Learning Models’, (February 2020). Accessible at: https://blog.research.google/2020/02/generating-diverse-synthetic-medical.html?m=1

[11] Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., Cohen, S. N., & Weller, ‘Synthetic Data - what, why and how?’ (May 2022). Accessible at: https://royalsociety.org/-/media/policy/projects/privacy-enhancing-technologies/Synthetic_Data_Survey-24.pdf

[12] Ganev, Georgi, ‘When Synthetic Data Met Regulation’,  arXiv preprint arXiv:2307.00359vl, (July 2023). Accessible at: https://arxiv.org/pdf/2307.00359.pdf

[13] Opinion 05/2014 of the Article 29 Working Party on Anonymisation Techniques. Accessible at: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf 

[14] Theresa Stadler, Bristena Oprisanu, Carmela Troncoso, ‘Synthetic Data -- Anonymisation Groundhog Day’, (November 2020). Accessible at: https://arxiv.org/abs/2011.07018

[15] Colin Mitchell and Elizabeth Redrup Hill, ‘Are synthetic health data 'personal data'?’. Accessible at: https://www.phgfoundation.org/report/are-synthetic-health-data-personal-data#:~:text=We%20found%20that%20regulators%20and,been%20reduced%20to%20remote%20levels.

[16] Julia Ive, ‘Leveraging the Potential of Synthetic Text for AI in Mental Healthcare’, Front. Digit. Health (October 2022). Accessible at: https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2022.1010202/full

[17] European Data Protection Supervisor, Tech Champion: Robert Rieman, publication on ‘Synthetic Data’. Accessible at: https://edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en

[18] Alexandre Lodie, European Law Blog, ‘Are personal data always personal? Case T-557/20 SRB v. EDPS or when the qualification of data depends on who holds them’, (November 2023). Accessible at: https://europeanlawblog.eu/2023/11/07/are-personal-data-always-personal-case-t-557-20-srb-v-edps-or-when-the-qualification-of-data-depends-on-who-holds-them/#more-9476

[19] Information Commissioner’s Office. ‘Draft anonymisation, pseudonymisation and privacy enhancing technologies guidance. Chapter 5: Privacy-enhancing technologies (PETs)’. (September 2022). Accessible at: https://ico.org.uk/media/about-the-ico/consultations/4021464/chapter-5-anonymisation-pets.pdf

[20] Regulation (EU) 2022/868 of the European Parliament and of the Council of May 30, 2022, on European data governance and amending Regulation (EU) 2018/1724 (Data Governance Act). Accessible at: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A32022R0868 

[21] Proposal for a Regulation of the European Parliament and of the Council Laying Down Harmonised Rules On Artificial Intelligence (Artificial Intelligence Act) AND Amending Certain Union Legislative Acts, COM/2021/206 final. Accessible at: https://eur-lex.europa.eu/legal-content/EN/ALL/?uri=celex:52021PC0206

[22] Legal status of Synthetic Data, Lorenzo Cristofaro, (October 2023). Accessible at: https://www.linkedin.com/pulse/legal-status-synthetic-data-lorenzo-cristofaro

[23] Khaled El Emam, ‘Precaution, ethics and risk: Perspectives on regulating non-identifiable data’, IAPP, (May 2022). Accessible at: https://iapp.org/news/a/precaution-ethics-and-risk-perspectives-on-regulating-non-identifiable-data/

[24] López, Cesar Augusto Fontanillo, ‘On the legal nature of synthetic data’,  NeurIPS 2022 Workshop on Synthetic Data for Empowering ML Research, (2022). Accessible at: https://openreview.net/pdf?id=M0KMbGL2yr

[25] Amendments adopted by the European Parliament on 14 June 2023 on the proposal for a regulation of the European Parliament and of the Council on laying down harmonised rules on artificial intelligence (Artificial Intelligence Act) and amending certain Union legislative acts (COM(2021)0206 – C9-0146/2021 – 2021/0106(COD), Accessible at: https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_EN.html

[26] https://www.consilium.europa.eu/en/press/press-releases/2023/12/09/arti…

[27] Regulation (EU) 2017/745of the European Parliament and of the Council of 5 April 2017 on medical devices, amending Directive 2001/83/EC, Regulation (EC) No 178/2002 and Regulation (EC) No 1223/2009 and repealing Council Directives 90/385/EEC and 93/42/EEC. Accessible at: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A32017R0745 

[28] Jarosław Greser, ‘Synthetic Data and Medical AI – Where Do We Stand?’, (October 2023). Accessible at: https://lsts.research.vub.be/synthetic-data-and-medical-ai-where-do-we-stand

[29] Theresa Stadler, Bristena Oprisanu & Carmela Troncoso, ‘Synthetic Data – Anonymisation Groundhog Day’ (unpublished manuscript, January 2022). Accessible at: https://arxiv.org/pdf/2011.07018.pdf.