CAIRN.INFO : Matières à réflexion
linkThis article is available in English on Cairn International

1À l’heure des débats sur l’«  open data  », un retour sur la production, l’archivage, la diffusion et le partage des données d’enquêtes est utile pour éclairer les enjeux, les freins et les potentialités d’un élargissement de l’accès aux données quantitatives produites par les sciences sociales. Retraçant d’abord la genèse de l’archivage des données et la mise en place de réseaux de partage dans différents pays et institutions précurseurs, Arianna Caporali, Amandine Morisset et Stéphane Legleye décrivent ensuite en détail la façon dont l’Ined s’est peu à peu doté d’une politique structurée d’archivage et de mise à disposition des bases de données d’enquêtes via le Réseau Quetelet. Travail chronophage, peu visible et rarement valorisé dans la recherche, l’organisation raisonnée des fichiers d’enquêtes et de leur documentation est une étape essentielle pour permettre un large accès aux données, inciter aux exploitations secondaires des enquêtes et garantir la qualité scientifique des résultats produits.

L’importance du partage de données

2Les activités visant à mettre à disposition les données d’enquêtes sont d’une importance cruciale pour les sciences sociales. Elles permettent de partager les enquêtes au sein des équipes qui participent à leur élaboration ainsi qu’avec la communauté scientifique dans son ensemble. Le partage des données d’enquêtes est essentiel pour les sciences sociales, car il rend possible la production d’analyses secondaires, la vérification et la réplicabilité des études. Ceci permet aux chercheurs de comprendre et d’évaluer les études existantes, de mieux s’appuyer sur elles pour leurs travaux et de contribuer ainsi à la progression de leur discipline (King, 1995 ; King, 2006 ; ICPSR, 2012 ; Silberman, 1999). Cette mise à disposition des données décourage également la fraude scientifique et sert à enseigner les méthodes d’analyse. En outre, elle bénéficie aux producteurs de données, car elle améliore la connaissance de leur travail par la citation, justifie les coûts élevés des enquêtes par la réutilisation des données, et permet de tester les méthodes de collecte (Silberman, 1999).

3Les activités liées au partage des données d’enquêtes concernent aussi bien les producteurs de données que les archives (ICPSR, 2012). Les producteurs traitent les données en fonction de l’utilisation qu’ils vont en faire et créent des fichiers de données cohérents. Ils préparent également la documentation des enquêtes et peuvent archiver et accorder l’accès aux fichiers de données pour garantir une utilisation ultérieure. La valeur ajoutée des archives de données d’enquêtes, c’est-à-dire des archives qui traitent principalement des données au niveau individuel (micro), tient dans leur capacité à ouvrir l’accès aux enquêtes à la communauté scientifique dans son ensemble, ce qui nécessite un travail de documentation le plus minutieux possible. Leurs activités consistent à évaluer la qualité des données, créer des métadonnées exhaustives, publier des fichiers de données et de métadonnées dans des catalogues en ligne, et à gérer les demandes d’accès, l’aide aux utilisateurs et les relations avec les producteurs afin d’établir des rapports sur l’utilisation des données d’enquêtes [1] (ICPSR, 2012).

4Le travail de documentation est fondamental pour le partage de données, car « sans documentation adéquate, les chercheurs ont souvent du mal à répliquer leurs propres résultats à quelques mois d’intervalles » (King, 1995, p. 444). Cependant, la préparation des métadonnées dispose rarement d’un budget spécifique alors que les données produites peuvent servir aux différentes équipes de recherche qui s’épargnent ainsi la tâche de production ; en outre les chercheurs sont peu enclins à lui accorder du temps. La plupart le font dans la précipitation juste avant de déposer leur enquête dans un centre d’archives. Souvent, « les chercheurs ne sont pas à l’aise avec l’idée que d’autres puissent bénéficier de jeux de données élaborés à grand-peine et, peut-être plus important encore, ils craignent qu’en rendant leurs données publiques, des erreurs ne soient découvertes dans la collecte et le traitement des données et dans les résultats qu’ils ont publiés ou qu’ils publieront » (De Moor et Van Zanden, 2008, p. 68). Par ailleurs, dans la plupart des pays occidentaux, le dépôt de données est imposé par les organismes qui financent les enquêtes et de plus en plus de revues exigent des auteurs que l’ensemble des données citées dans l’article soit disponible (De Moor et Van Zanden, 2008 ; Mochmann et Vardigan, 2011). Malgré cela, les archivistes qui assemblent la documentation et gèrent l’accès aux données sont souvent confrontés à des problèmes de disponibilité des métadonnées.

5Cet article a pour ambition de rendre compte de l’importance du partage des données en s’appuyant sur les activités archivistiques menées par le Service des enquêtes et des sondages (SES) [2] de l’Institut national d’études démographiques (Ined) pour mettre à disposition ses enquêtes. Ces enquêtes consistent en des données quantitatives au niveau individuel (micro), produites par des chercheurs dans un but non lucratif, avec des fonds publics, et souvent en collaboration avec d’autres organismes publics. Il existe d’autres types de données relevant de la recherche en sciences sociales qui n’entrent pas dans le cadre de cet article, notamment les données de recherches qualitatives, les textes électroniques, les corpus linguistiques, les données historiques et archéologiques, les données administratives et les données produites dans un but lucratif. Dans cet article, le développement des activités de l’Ined est replacé dans le contexte français et international de l’accès aux données d’enquêtes quantitatives en sciences sociales (dénommées ci-après « données d’enquêtes »).

6Nous allons dans un premier temps remonter aux origines du travail d’archivage des données d’enquêtes. Puis nous montrerons comment les normes internationales de documentation des données d’enquêtes ont été établies. Dans un troisième temps, nous décrirons le développement des archives de données d’enquêtes et les règlements régissant l’accès aux données des sciences sociales en France. L’article traitera ensuite de l’évolution et de l’organisation actuelle des activités visant à offrir un accès aux données d’enquêtes à l’Ined et se terminera par des réflexions sur l’évolution de l’archivage et du partage des données d’enquêtes.

I – Origines et développement des archives de données d’enquêtes en sciences sociales

7Le développement des archives de données d’enquêtes a commencé après la seconde guerre mondiale à l’initiative de chercheurs en sciences politiques [3]. Le contexte géopolitique d’après-guerre a encouragé les études comparatives internationales dans cette discipline, ce qui a entraîné un besoin accru de partager les données (Bisco, 1966 ; Doorn et Tjalsma, 2007 ; Silberman, 1999). Ces archives ont permis « l’institutionnalisation du partage de données » (Silberman, 1999, p. 26) en prenant en main une activité autrefois largement effectuée de manière informelle.

8L’Unesco (Organisation des nations unies pour l’éducation, la science et la culture) a joué un rôle clé dans ce développement. L’organisation a promu le débat sur les coûts et les bénéfices de l’archivage et encouragé la création de centres d’archives des données [4] (Scheuch, 2003 ; Silberman, 1999). La plupart des premiers centres ont été créés dans les milieux universitaires. Ils se sont développés dans un contexte où les chercheurs pouvaient mener des enquêtes à grande échelle financées par l’État, où les statistiques publiques offraient des données insuffisantes et/ou difficilement accessibles pour la recherche en sciences sociales [5] (Silberman, 1999). Créées pour fournir un accès à des enquêtes anonymisées [6] produites par les chercheurs, les archives ont également pris en charge la gestion des enquêtes des instituts nationaux de statistiques (Silberman, 1999). En France, comme nous le verrons (section III), des facteurs institutionnels et juridiques expliquent le développement tardif de ce type d’archives.

9Depuis les années 1980, les progrès des technologies de l’information ont permis la création de portails en ligne facilitant la recherche de ressources autrement dispersées (Doorn et Tjalsma, 2007). Pour permettre la réplication des études, certaines revues ont adopté une « politique de mise à disposition des données » nécessitant de déposer les données utilisées dans les articles (De Moor et Van Zanden, 2008 ; King, 2006). Par ailleurs, les archives ont acquis de plus en plus de données qualitatives (Corti, 2000 ; Duchesne et Garcia, 2014), et développé des systèmes permettant un accès sécurisé à des données très détaillées [7] dans le respect du principe du secret statistique (Silberman, 2011 ; Le Gléau et Royer, 2011).

II – Réseaux internationaux d’archives de données d’enquêtes et normes de documentation des données

10Les premières archives de données d’enquêtes ont rapidement été coordonnées en réseaux internationaux. Les conférences organisées par l’Unesco dans les années 1960 et 1970 (note n° 4) ont joué un rôle dans leur développement (Bisco, 1966 ; Rokkan et Scheuch, 1963 ; Rokkan, 1966 ; Scheuch, 2003). Par exemple, le Conseil européen des archives de données en sciences sociales (Cessda) [8] a été créé en 1976 dans le but d’échanger des données et des technologies et d’encourager les recherches comparatives (Doorn et Tjalsma, 2007 ; Marker, 2013 ; Scheuch, 2003 ; Silberman, 1999). Depuis 2013, c’est une infrastructure de recherche européenne disposant d’un statut juridique [9]. L’Association internationale pour les services et les technologies informatiques des sciences sociales (IASSIST), une organisation regroupant des archivistes professionnels, organise quant à elle une conférence annuelle depuis le milieu des années 1970 [10] (O’Neill Adams, 2006).

11Les conférences internationales organisées par ces réseaux ont favorisé la définition de normes internationales pour la documentation des métadonnées (Scheuch, 2003 ; Silberman, 1999), particulièrement importantes pour l’accès aux données au-delà des frontières (Blank et Rasmussen, 2004 ; Rasmussen et Blank, 2007). Alors que la documentation standardisée s’est imposée dès les premières réunions internationales comme un enjeu majeur, les innovations dans le domaine des technologies de l’information ont permis des évolutions décisives. Les acteurs nord-américains et européens dans le domaine des enquêtes scientifiques et des archives de données ont créé la Data Documentation Initiative (DDI) en 1995. Le projet DDI a mené à l’élaboration d’« une norme technique internationale basée sur format XML pour la compilation, la présentation et l’échange de documentations sur des ensembles de données dans le domaine des sciences sociales et comportementales » (Vardigan et al., 2008, p. 108). La norme DDI prend le relais de la norme SSD (Standard Study Description) établie à Copenhague en 1980 par le Cessda et de la norme Osiris mise au point par l’Université du Michigan durant les années 1970 (Marker, 2013). Son objectif premier a été le remplacement des dictionnaires de codes sur papier par des métadonnées dans un format électronique lisible par les personnes (encadré 1). Aujourd’hui, la norme DDI est largement utilisée ; « si le DDI n’existait pas, les systèmes auraient plus de mal à “dialoguer” entre eux, il y aurait moins de métadonnées disponibles pour interpréter les données, et les chercheurs passeraient leur temps à “réinventer la roue” » (Wackerow et Vardigan, 2013, p. 163). Le DDI est soutenu par les membres de l’IASSIST et recommandé par le Cessda. Son application a été facilitée par Nesstar (Networked Social Science Tools and Resources, encadré 2), un logiciel convivial pour la publication en ligne de données et de métadonnées (Vardigan et al., 2008), et dont l’utilisation est nécessaire pour intégrer le catalogue du Cessda.

Encadré 1. Data Documentation Initiative (DDI)

Le Data Documentation Initiative (DDI, www.ddialliance.org/) est une norme internationale pour la documentation des enquêtes en sciences sociales. Basée sur l’eXtensible Markup Language (XML, « langage à balise extensible » en français), elle fonctionne à partir d’un groupe d’éléments permettant la description générale d’études empiriques jusqu’au niveau de chacune des variables d’un jeu de données. Le XML présente l’avantage d’être un format manipulable par ordinateur. Il est robuste, uniforme, extensible, et compatible avec de nombreuses applications, (Mochmann et Vardigan, 2011 ; Leighton, 2002 ; Vardigan et al., 2008). Par ailleurs, le DDI est compatible avec d’autres normes de métadonnées, comme le Dublin Core (une norme bibliographique). La version 1.0du DDI a été lancée en 2000. Il existe aujourd’hui deux types de spécifications DDI :
  • Le DDI-Codebook (DDI-C ou DDI 2, version 2.5., en novembre 2014), a été introduit en 2002 pour la documentation des données d’enquêtes simples. Il est centré sur les documents et reprend les éléments de base d’un dictionnaire de codes traditionnel. Cette spécification est largement utilisée, en particulier grâce à la possibilité de la mettre en œuvre via un logiciel convivial appelé Nesstar (encadré 2).
  • Le DDI-Lifecycle (DDI-L ou DDI 3, version 3.2., en novembre 2014), a été introduit en 2008 pour la documentation des enquêtes tout au long de leur cycle de vie. Il peut être utilisé dès le début d’un projet d’enquête pour documenter toutes ses phases. Il est particulièrement adapté aux études longitudinales, car il contient des fonctionnalités permettant des comparaisons explicites entre les éléments de différentes vagues (Hansen et al., 2011 ; Kramer et al., 2011). En outre, un dialogue a été initié entre les développeurs du DDI-L et ceux du SDMX (Statistical Data and Metadata Exchange ; Gregory et Heus, 2007), la norme utilisée pour la documentation de données agrégées par les instituts de statistique par exemple de l’Eurostat et de l’Organisation de coopération et de développement économiques (OCDE). Ces développeurs collaborent pour trouver un moyen de faire fonctionner ensemble les deux normes (Data without Boundaries, 2013).

Encadré 2. Nesstar (Networked Social Science Tools and Resources)

Développé dans le cadre des séminaires d’experts du Cessda et de projets financés par l’Union européenne (UE) dans la seconde moitié des années 1990 (Marker, 2013), Nesstar est aujourd’hui géré par le Centre norvégien de données pour les sciences sociales (NSD). Ce logiciel, simple d’utilisation, permet de gérer la documentation dans le format DDI-C sans connaissance préalable du langage XML. Il permet également la publication de données et de métadonnées sur internet, quand il est lié à un serveur. Le serveur offre alors un moyen pratique et intuitif aux utilisateurs de chercher, naviguer ou explorer les métadonnées, et de visualiser et analyser les données correspondantes en ligne. Il est possible d’accéder à l’information au niveau de chaque variable (notamment d’effectuer un tri à plat), de créer des tableaux croisés ou des graphiques personnalisés, voire des analyses simples (corrélations, régressions). Il dispose également d’un outil pour pondérer les données afin d’interpréter correctement les résultats et les analyses. Nesstar est en outre doté d’un outil efficace permettant d’effectuer des recherches simples ou avancées dans la documentation ou les variables. Enfin, la documentation des enquêtes, ainsi que les résultats d’analyse peuvent être exportés dans divers formats. Une description complète des fonctionnalités du logiciel est disponible en anglais sur le site de Nesstar (www.nesstar.com/). Bien que d’autres logiciels compatibles avec la norme DDI aient été développés (voir le site DDI pour une liste complète), Nesstar est le plus utilisé par les centres européens d’archivage de données d’enquêtes.

III – Le contexte français : un retard à rattraper

Archives de données d’enquêtes et réglementation de l’accès aux données jusqu’au xxe siècle

12Si plusieurs chercheurs français ont participé aux premières discussions sur le partage des données d’enquêtes, les premiers centres d’archives d’enquêtes ne sont apparus en France que dans les années 1980 (Silberman, 1999). D’un côté, il existait dans ce pays un faible soutien institutionnel et peu d’infrastructures pour la réalisation d’enquêtes à grande échelle par les universités qui, comme nous l’avons vu précédemment (section I), sont à la base du développement des archives de données d’enquêtes dans les autres pays. Par ailleurs, les enquêtes de l’Institut national de la statistique et des études économiques (Insee) couvraient un large spectre de domaines et les chercheurs français pouvaient utiliser les données agrégées publiées par l’institut. Il était également possible d’accéder aux fichiers de données individuelles [11], mais le cadre juridique, attaché à la protection des données, était assez contraignant.

13Deux textes législatifs protégeaient les données individuelles. Premièrement, la loi n° 51-711 du 7 juin 1951 interdisait la communication des données individuelles collectées par le service statistique public (c’est-à-dire l’Insee et les services statistiques ministériels) [12]. Ces données ne pouvaient être diffusées que sous forme agrégée et dans des fichiers anonymisés. Des dérogations ont été accordées pour les données sur les entreprises à partir de 1984 avec la création du Comité du secret statistique concernant les entreprises [13] (Gaeremynck, 2009 ; Silberman, 2011). Deuxièmement, la loi sur la protection des données de 1978 (n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, dite « Informatique et libertés ») établissait qu’à chaque fois qu’une identification était possible, les données personnelles ne pouvaient être collectées et traitées que durant une durée limitée, après notification à la Commission nationale de l’informatique et des libertés (Cnil) [14], et dans un but précis. Cette loi, qui a pris une importance accrue avec les progrès de l’informatique [15], a entravé la réutilisation de données personnelles pour des objectifs différents de ceux qui avaient initialement motivé leur collecte (Riandey, 2000 ; Silberman 1999 ; Silberman, 2011).

14Dans ce cadre juridique [16], les premières archives ont été créées pour faciliter le partage de fichiers de données individuelles anonymisées (Silberman, 1999). La Banque de données sociopolitiques (BDSP) a été établie à l’Institut d’études politiques de Grenoble et intégrée au Centre d’informatisation des données sociopolitiques (CIDSP) [17]. Ce centre d’archives rassemblait des données sociopolitiques produites par des bureaux de statistiques privés et publics, ainsi que les données produites par les chercheurs dans le milieu universitaire. Un autre organisme appartenant à une unité de recherche du Centre national de la recherche scientifique (CNRS), le Laboratoire d’analyse secondaire et de méthodes appliquées à la sociologie (Lasmas), devenu depuis le service d’Archives de données issues de la statistique publique (Adisp) du Centre Maurice-Halbwachs (CMH) [18], a été créé à Paris. L’une de ses missions était de fournir un accès aux données produites par le service statistique public. Ces archives ont été établies grâce aux initiatives d’équipes indépendantes plutôt que par un effort institutionnel commun [19] (Silberman, 1999).

15Plusieurs accords ont réglementé l’accès des chercheurs aux données stockées (Rhein, 2002 ; Silberman, 1999). Un accord a été signé en 1986 entre l’Insee et le CNRS autorisant le Lasmas à diffuser quelques enquêtes anonymisées de l’Insee à l’ensemble des chercheurs du CNRS. Le CNRS a également signé des conventions de ce type avec d’autres producteurs publics de données tels que le ministère de l’Éducation. Les instituts de recherche français comme l’Ined et l’Institut national de la recherche agronomique (Inra) ont signé des accords analogues avec des producteurs publics pour avoir accès à leurs données. Les accords sur les données produites par des chercheurs et archivées au CIDSP, quoique moins formels et conclus au cas par cas, ont offert des conditions d’accès aux données similaires pour les chercheurs. Les principes généraux concernant l’accès aux données produites avec des fonds publics ont été clarifiés en 1994 par la circulaire Balladur. Si l’accès aux données était gratuit, les institutions souhaitant en faire l’acquisition devaient payer le coût du service de la mise à disposition.

16À la fin des années 1990, Claude Allègre, ministre de l’Éducation nationale, de la recherche et de la technologie, note un besoin accru pour les chercheurs en sciences sociales d’accéder et d’utiliser les données d’enquêtes et il confie à Mme Silberman, directrice du Lasmas, la rédaction d’un rapport sur les sciences sociales et leurs données en France (Allègre, 1999). En se basant sur une enquête portant sur des laboratoires de recherche du CNRS et d’universités, Silberman (1999) a identifié trois problèmes majeurs. Le premier concernait l’accès aux données. En France, les fichiers de données n’étaient pas régulièrement mis à jour pour s’adapter aux dernières innovations informatiques. De plus, certaines enquêtes n’étaient pas ou peu documentées, ce qui rendait leur réutilisation impossible. Mais surtout, aucun droit d’accès des chercheurs universitaires aux données produites par le service statistique public n’était prévu par les accords passés avec le CNRS et l’Insee, ce qui conduisait certains d’entre eux à s’appuyer sur des contacts personnels au sein de l’Insee ou d’autres administrations. Le statut des droits d’auteur des chercheurs universitaires et l’obligation de fournir un accès aux données produites n’étaient pas non plus clairement établis. En l’absence de réglementation, les enquêtes coproduites par des organismes publics et des universités n’étaient pas rendues disponibles par le Lasmas. En outre, un niveau accru d’anonymisation visant à protéger les données privées des citoyens, en particulier pour les fichiers de microdonnées des recensements, empêchait les chercheurs en sciences sociales de mener des analyses détaillées. Certaines études de la BDSP étaient protégées et inaccessibles. Le second problème portait sur l’utilisation des données. Comparée à d’autres pays, la sociologie quantitative française semblait moins avancée et moins équipée en termes de matériel et de logiciels informatiques pour le traitement de données. Le troisième problème portait sur la production de données. Les enquêtes à grande échelle entièrement produites par des chercheurs issus du milieu universitaire étaient encore rares en France.

17Dans ce contexte, Silberman (1999) a appelé à la création « d’une véritable structure d’archivage » (p. 47) et à une réforme en profondeur de la politique française en matière d’accès aux données des sciences sociales. L’accès à des données dans un but de recherche devait être inscrit dans la loi et toute enquête produite avec des fonds publics devait être disponible pour réutilisation. L’expérience d’autres pays occidentaux a montré que les archives avaient joué un rôle clé dans le développement de la sociologie quantitative et dans l’implication des chercheurs dans la production d’enquête. Une importante structure d’archivage était nécessaire pour harmoniser la manière dont les enquêtes étaient documentées et permettre à la France de jouer un rôle dans le Cessda. Le rapport Silberman a posé les fondations de la création du Centre Quetelet (Chenu, 2011) qui gère aujourd’hui en France l’accès à la plupart des données d’enquêtes en sciences sociales, ainsi qu’à certaines enquêtes internationales (encadré 3).

Encadré 3. Exemples de modalités pour accéder aux enquêtes quantitatives françaises en sciences sociales

En novembre 2014, il existait quatre moyens principaux d’accéder aux données d’enquêtes quantitatives en sciences sociales en France. Ces moyens se différencient par le niveau de détails de l’information fournie :
  • Le site internet de l’Insee (www.insee.fr/) propose des fichiers de données hautement anonymisés. Ces fichiers peuvent être téléchargés sans demande formelle. Il est également possible de demander des tableaux sur mesure comprenant uniquement des variables (anonymisées) spécifiques.
  • Si des données plus détaillées sont nécessaires, les chercheurs peuvent effectuer une demande d’accès aux enquêtes à des fins scientifiques auprès du Réseau Quetelet (section III). Plus de 1 100 références y sont disponibles, notamment des enquêtes sociopolitiques du CDSP (par exemple, les enquêtes post-électorales), des enquêtes sociodémographiques de l’Ined (section IV), et des enquêtes de la statistique publique du CMH-Adisp (notamment des données de l’Insee et des services statistiques des ministères). L’Adisp peut aussi préparer, en coopération avec l’Insee, des tableaux de données sur mesure.
  • Si un projet de recherche nécessite des données plus détaillées, un autre partenaire du Réseau, le Casd/Genes (section III), gère l’accès aux données très détaillées notamment de l’Insee et des ministères. Sur demande, le Casd peut aussi préparer des fichiers issus de différentes sources.
  • Pour les chercheurs souhaitant étudier la France dans des enquêtes internationales (comme l’Enquête sur la santé, le vieillissement et la retraite en Europe – SHARE, l’Enquête sociale européenne – ESS, les enquêtes Générations et genre – GGS), un accès peut être accordé par les infrastructures de recherche et les institutions qui gèrent ces données.
Cette organisation implique qu’une même enquête (comme l’enquête Emploi) puisse être accessible de différents endroits. Évidemment, ces modalités ne couvrent pas l’ensemble des moyens d’accéder aux enquêtes quantitatives françaises (Silberman, 2011). L’Étude longitudinale française depuis l’enfance (Elfe) suit un protocole spécial (pour plus d’informations : https://pandora.vjf.inserm.fr/public/).

Le Réseau Quetelet : création, objectifs et accès aux données

18Le Centre Quetelet a été créé par l’article n° 10 du décret n° 2001-139 du 12 février 2001 (Chenu, 2003). Avec les Plateformes universitaires de données (PUD), il met en œuvre la politique du Comité de concertation pour les données en sciences humaines et sociales (CCDSHS). Ce comité est chargé d’établir la politique nationale sur les données des sciences humaines et sociales axée sur trois principes : faciliter l’accès aux données utiles pour la recherche, renforcer l’utilisation de ces données et soutenir la production d’enquêtes à grande échelle pour la recherche en sciences sociales. Les PUD fournissent une aide aux utilisateurs au niveau local et un soutien pour la réalisation d’enquêtes. Le Centre Quetelet est chargé de collecter, gérer et archiver les données en sciences sociales et de former les utilisateurs aux innovations techniques et scientifiques dans ce domaine.

19Le Centre a été créé en décembre 2001, affilié au CNRS, et en partenariat avec trois autres institutions : l’École des hautes études en sciences sociales (EHESS), l’Ined et l’Université de Caen (Arduin, 2004 ; Chenu, 2003 ; Riandey, 2003). Il a trois membres fondateurs : le CIDSP (actuellement CDSP, voir note n° 17) qui fournit des enquêtes sociopolitiques, le Lasmas (actuellement Adisp) chargé notamment des données de la statistique publique, et l’Ined à travers le SES qui offre accès aux enquêtes sociodémographiques de l’Ined (encadré 4 et section IV). En 2005, le Centre Quetelet a pris le nom de Réseau Quetelet (Chenu, 2011). Il est membre du Cessda et, depuis 2013, le fournisseur de données français au sein du nouveau Cessda établi en tant qu’infrastructure de recherche européenne dotée d’un statut juridique (note n° 9). Il participe également à Progedo (Production et gestion des données en sciences humaines et sociales), l’infrastructure de recherche française qui réunit les principaux acteurs concernés par les enquêtes quantitatives.

Encadré 4. Services des enquêtes et des sondages (SES) de l’Ined

L’Ined a créé un service spécialisé qui gère la collecte de données pour les projets conduits par ses chercheurs et, de plus en plus, en partenariat avec d’autres institutions (Insee, Institut national de la santé et de la recherche médicale-Inserm, etc.). Il a trois missions principales. Sa première mission est axée sur la collecte de données quantitatives et qualitatives allant de la conception de questionnaires à la présentation des données finales. Ses membres offrent un savoir-faire spécialisé à tous les stades du processus de collecte des données, et participent à de nombreux projets à grande échelle en France et à l’étranger. Deuxièmement, il participe activement aux recherches méthodologiques et à l’évaluation des techniques et protocoles d’enquêtes innovants dans le domaine des sciences sociales. La troisième mission consiste à mettre à disposition des utilisateurs les enquêtes quantitatives de l’Ined.

20Le Réseau travaille sur trois axes principaux : la documentation des données, l’accès aux données et la valorisation des données (Arduin, 2004). Concernant la documentation des données, ses partenaires sont chargés de rassembler toute l’information disponible sur l’ensemble des enquêtes archivées et de la restructurer selon les normes internationales en matière de documentation. Sur l’accès aux données, le Réseau prépare et envoie les jeux de données aux demandeurs dans le respect des règles déontologiques. Il conseille également les chercheurs sur l’utilisation des jeux de données. Sur le plan de la valorisation des données, il informe les utilisateurs sur la disponibilité des données et sur les dernières innovations technologiques concernant les logiciels et les méthodes. Il favorise également les liens entre les utilisateurs et les producteurs de données au niveau national et international.

21Pour remplir ses missions, le Réseau développe et anime un site internet [20] où toutes les données fournies par ses partenaires sont cataloguées et documentées. Conformément aux recommandations du Cessda, l’ensemble des partenaires ont adopté la norme DDI pour documenter les données et le logiciel Nesstar. Des efforts sont entrepris pour fournir des métadonnées d’enquêtes en français et en anglais. Certaines enquêtes internationales ne sont documentées qu’en anglais, comme l’enquête Migrations entre l’Afrique et l’Europe (MAFE) de l’Ined (encadré 5).

Encadré 5. Les enquêtes de l’Ined et leurs principaux sujets

Les enquêtes de l’Ined menées depuis les années 1980 comprennent :
  • La formation des couples 1983-1984,
  • Les situations familiales, 1985 (avec l’Insee),
  • Enquête 3B bis – Biographie familiale, professionnelle et migratoire, 1988-1989 (avec l’Université catholique de Louvain),
  • Proches et parents, 1990,
  • Mobilité géographique et insertion sociale (MGIS), 1992 (avec l’Insee),
  • Analyse des comportements sexuels en France, 1992 (avec l’Inserm),
  • Passage à l’âge adulte, 1993-1994,
  • Enquête auprès des personnes sans domicile à Paris, 1994-1995,
  • Les situations familiales et l’emploi, 1994 (avec l’Insee),
  • Devenir des enfants naturels, 1996-1997,
  • Enquête nationale sur les violences envers les femmes en France, 2000,
  • Observatoire de la mucoviscidose en France, 2000-2007,
  • Handicap, incapacités, dépendances en prison (HID-prison), 2001 (avec l’Insee),
  • Intentions de fécondité (3 vagues) 1998, 2001, 2003 (avec l’Insee),
  • Enquête adoption dans dix départements, 2003-2004,
  • Familles et employeurs, 2004-2005 (avec l’Insee),
  • Enquête Générations et genre (GGS), enquête internationale dont la partie française a été confiée à l’Ined (avec l’Insee) : Étude des relations familiales et intergénérationnelles (Erfi), 2005, 2008, 2011,
  • Contexte de la sexualité en France, 2006 (avec l’Inserm),
  • Migrations entre l’Afrique et l’Europe (MAFE), une initiative de recherche majeure rassemblant dix centres de recherches européens et africains, 2008-2010,
  • Migrations – Famille – Vieillissement dans les départements d’outre-mer, 2009-2010 (avec l’Insee).
L’Ined a également développé des systèmes de surveillance démographique en Afrique occidentale, notamment au Sénégal depuis 1970 (à Bandafassi et Mlomp), et au Mali depuis 1989 (Cercle de Tominian).

22L’accès aux données gérées par le Réseau est réglementé par deux types de convention : l’une passée avec les fournisseurs (les partenaires du Réseau) et l’autre avec les demandeurs. Les conditions d’accès aux données sont régies par un principe général de gratuité pour une utilisation à des fins de recherche. Toute utilisation commerciale est exclue. Les procédures d’accès sont disponibles en français et en anglais. Elles peuvent varier en fonction du statut des utilisateurs, de leur institution et de la nature des fichiers de données demandés. Si les procédures sont ouvertes aux demandeurs de toutes nationalités, des informations supplémentaires (notamment un descriptif plus détaillé des projets de recherche) sont requises pour les demandeurs qui ne relèvent pas des universités françaises ou d’établissements publics à caractère scientifique et technologique (EPST). Les données demandées sont envoyées via le site internet du Réseau qui a été rénové en mars 2014. Les utilisateurs peuvent dorénavant commander plusieurs fichiers issus de différents producteurs de données dans le même formulaire. Les utilisateurs s’engagent à respecter un ensemble de règles [21]. La durée moyenne pour obtenir l’accès peut varier de quelques jours à plusieurs semaines.

23Peu après la création du Réseau Quetelet, le cadre juridique de la protection des données a évolué. Un niveau croissant d’anonymisation complexifiait l’analyse des statistiques françaises. Les variables spatiales et de nature sensible (en particulier sur la nationalité ou le pays de naissance) étaient fournies sous des formes de plus en plus agrégées (Riandey, 2000 ; Silberman, 2011). Premièrement, la loi de 1978 sur la protection des données personnelles a été réformée en 2004 (loi n° 2004-801 du 6 août), à la suite de la directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données – en vigueur depuis 1998 dans les États membres. La possibilité d’utiliser à des fins statistiques, historiques et de recherche, des données personnelles collectées dans un autre but a été introduite [22] (Silberman, 2011). La réutilisation de données personnelles pouvant mener directement ou indirectement à une identification et/ou de nature sensible devait être validée par la Cnil (voir note n°14). Deuxièmement, concernant le service statistique public, la loi de 1951 (note n° 12) a été réformée en 2008 (n° 2008-696 du 15 juillet). La réforme a permis de réutiliser des données personnelles très détaillées collectées par le service statistique public à des fins statistiques, historiques ou de recherche [23] (Gaeremynck, 2009). Il convient également de mentionner la loi de 2013 sur l’enseignement supérieur et la recherche (n° 2013-660 du 22 juillet) qui a introduit la possibilité d’accéder à des données fiscales dans un but de recherche scientifique. Comme pour les données sur les entreprises (voir note n° 13) et les données sur les organismes publics (avec l’ordonnance n° 2004-280 du 25 mars), les demandes d’accès aux données personnelles très détaillées devaient être soumises à l’avis du Comité du secret statistique, désormais amputé de son nom complet qui spécifiait « des entreprises ».

24Ces évolutions ont ouvert la voie pour organiser un accès sécurisé aux données très détaillées issues de la statistique publique. Le Centre d’accès sécurisé aux données (Casd) a été créé en 2010 par le Groupe des écoles nationales d’économie et statistique (Genes), qui était à l’époque un département de l’Insee, et il est devenu partenaire du Réseau Quetelet (Le Gléau et Royer, 2011 ; Silberman, 2011). Il est devenu également le fournisseur de données français au sein du projet européen Données sans frontières (Data Without Boundaries, DWB) qui promeut un accès égal et facilité aux microdonnées officielles en Europe (Silberman, 2013). Contrairement aux autres partenaires du Réseau, l’accès au Casd n’est pas gratuit. En outre, la procédure implique l’accord du Comité du secret statistique, du producteur des données et, dans le cas de données personnelles, de la Cnil [24]. Elle peut prendre plusieurs semaines selon le nombre d’autorisations requises par la procédure.

IV – Le cas de l’Ined : un triple rôle de producteur, utilisateur et fournisseur de données

De l’archivage à la mise à disposition des enquêtes

25Depuis sa création en 1945, l’Ined mène des enquêtes sociodémographiques, parfois en collaboration avec d’autres organismes publics (encadré 5). Pendant longtemps, l’accès à ces enquêtes a été géré de manière informelle [25]. Dès les années 1970, les enquêtes et leur documentation ont commencé à être archivées et transmises aux Archives nationales grâce au travail de Suzanne Helgoual’ch et Henri Bastide (Comité d’archivage de l’Ined, 2001a). Cependant, ces activités ne suffisaient pas pour accomplir pleinement la mission de l’Ined consistant à diffuser les connaissances au sein de la communauté de la recherche, des autorités publiques et du grand public en général, comme cela était indiqué dans ses statuts de 1945 et 1986 (modifiés en 2001) et dans les orientations stratégiques de l’institut (Ined, 2002).

26Les premières réflexions sur la nécessité pour l’Ined de promouvoir l’accès à ses enquêtes ont commencé lors de la première moitié des années 1990. Le coût des enquêtes s’envolait et les demandes d’accès aux données pour une analyse secondaire étaient de plus en plus fréquentes (Bozon, 1995). Dans ce contexte, le directeur de l’Ined de l’époque, Jacques Magaud, a chargé Michel Bozon, alors responsable du SES, de rédiger un rapport sur les moyens d’organiser l’accès aux enquêtes de l’institut. Ce dernier a consulté plusieurs chercheurs de l’Ined et relevé différentes propositions, souvent divergentes, ainsi que certaines réserves (Bozon, 1995). Il était nécessaire d’expliciter certains principes de gestion de l’accès aux enquêtes, jusque-là informel, et de fournir un accès aux enquêtes de l’Ined, accompagnées d’une documentation complète, pour faciliter leur réutilisation.

27La définition des règles d’accès aux enquêtes de l’Ined était l’un des objectifs de l’institut dans les orientations stratégiques pour 2002-2005. Il était nécessaire de respecter la propriété intellectuelle des producteurs de données, qu’ils appartiennent ou non à l’Ined, mais aussi de prendre en compte les coûts d’accès. Un accès prioritaire devait être maintenu pour les partenaires ayant participé au financement et à la conception des enquêtes. L’Ined, contrairement à d’autres centres d’archivage de données, ne diffusait et ne mettait à disposition que des enquêtes menées en interne ou en partenariat avec d’autres institutions. Sauf exceptions, l’Ined n’avait pas pour mission de fournir un accès aux fichiers de données produits par d’autres organismes sans la collaboration de l’Ined.

28L’évolution de la situation et la forte volonté de François Héran, directeur de l’Ined à l’époque, ont conduit l’institut à devenir un partenaire cofondateur du Réseau Quetelet en décembre 2001. Au sein du Réseau, l’institut occupe une position intermédiaire entre celle des producteurs d’enquêtes de la statistique publique et celle d’institut de recherche, car les chercheurs de l’Ined produisent des données tout autant qu’ils les utilisent. Concrètement, le SES (encadré 4) s’est vu confié la tâche de mettre en application la politique de l’institut concernant la documentation et l’accès à ses enquêtes, en partenariat étroit avec le Réseau Quetelet (Ined, 2002). La mise en œuvre de cette politique n’a été effective qu’au cours de l’année 2004 [26]. Les fichiers de données anonymisés, ainsi que leur documentation, pouvaient être demandés par les chercheurs, travaillant ou non à l’Ined, à condition qu’ils acceptent les termes et conditions d’utilisation des fichiers de données d’enquêtes et qu’ils signent un accord reprenant les règles d’utilisation des données [27] (Service des enquêtes et des sondages de l’Ined, 2004). Les données étaient ensuite envoyées sur CD-ROM par la poste.

29Les activités visant à fournir un accès aux enquêtes se sont progressivement intensifiées (Ined, 2006) et, depuis 2006, sous l’impulsion de Francois Héran et Cécile Lefèvre, à l’époque responsable du SES, plus de ressources leur ont été consacrées (Comité d’archivage de l’Ined, 2006). La mise à disposition d’un accès aux enquêtes impliquait la documentation et le reformatage des fichiers de données, des activités qui dépassaient le cadre de l’archivage. Suite à cette politique, en 2008, certaines enquêtes récentes ont commencé à être disponibles avant d’être envoyées aux Archives nationales.

30En 2009, le SES s’est également vu confier la mission de fournir un accès aux enquêtes Générations et genre (GGS), au sein du programme de recherche Générations et genre (GGP) [28]. En outre, des réflexions ont commencé à être menées sur les moyens appropriés de promouvoir l’utilisation des enquêtes de l’Ined, de mieux comprendre les utilisateurs réels et potentiels, et de définir en conséquence les enquêtes prioritaires pour les activités de mise à disposition (Comité d’archivage de l’Ined, 2009). Cela a été possible grâce à l’adoption de la norme DDI (encadré 1) et à la mise en ligne de l’intégralité du catalogue des enquêtes de l’Ined via le portail Nesstar (encadré 2).

Adoption de la norme DDI et du logiciel Nesstar

31Après avoir envisagé la possibilité d’utiliser le logiciel DDS (Dictionnaire de données statistiques) de l’Insee pour archiver et documenter les enquêtes, la norme DDI a été adoptée en 2003. Les règles fixées par la norme DDI ont été contrôlées et testées, ainsi que les fonctionnalités du logiciel Nesstar, qui pouvaient faciliter la mise en œuvre de la norme DDI-C (Comité d’archivage de l’Ined, 2003 ; Comité d’archivage de l’Ined, 2004). Mais ce n’est qu’à la fin 2008 que le catalogue des enquêtes de l’Ined a commencé à être transféré sur Nesstar.

32Adopté par les autres membres du Cessda et du Réseau Quetelet [29], le logiciel Nesstar offre la possibilité de générer un catalogue en ligne contenant l’ensemble des enquêtes. Le catalogue Nesstar des enquêtes de l’Ined [30] a été officiellement créé en juin 2012. Il remplace l’outil de diffusion précédemment utilisé. Depuis sa création, plus de 5 800 utilisateurs (venant de 93 pays) ont consulté plus de 67 700 pages du catalogue. En 2014, le nombre d’utilisateurs a augmenté de 160 %.

33Les enquêtes GGP sont gérées via un autre catalogue, GGP Online Codebook & Analysis, lancé en 2010 et disponible sur la page d’accueil du GGP [31]. Ce catalogue a été consulté par plus de 5 100 utilisateurs (venant de 74 pays), qui ont consulté en moyenne 19,4 pages par session. Le nombre d’utilisateurs a augmenté de près de 180 % au cours de l’année 2014.

Enquêtes mises à disposition et procédures d’accès aux données

34En novembre 2014, le catalogue Nesstar de l’Ined contenait 248 références couvrant un large spectre de thèmes sociodémographiques aussi variés que la fécondité, la contraception, la sexualité, le couple, les migrations, l’intégration des migrants, la discrimination, le genre, les générations, les inégalités, la santé, le vieillissement, le logement et l’emploi. Dans le catalogue, les enquêtes sont divisées en deux catégories (organisées par décennie en fonction de l’année de production) :

  • Les enquêtes accessibles (55 références), c’est-à-dire celles pour lesquelles il est possible de commander les fichiers de données ;
  • Les enquêtes qui ne sont pas accessibles (193 références), c’est-à-dire celles pour lesquelles il n’est pas possible de commander les fichiers de données (parce qu’ils n’existent pas ou parce que leur accès n’est pas encore autorisé).

35Pour les enquêtes disponibles, le catalogue offre une documentation complète et téléchargeable des données, ainsi que la possibilité de réaliser et d’exporter des analyses de base. Le catalogue est consultable en français et en anglais, mais pour la plupart des enquêtes, la documentation n’est disponible qu’en français. L’accès aux données peut être demandé par le portail du Réseau Quetelet. Il est accordé en fonction des principes établis par le Réseau (section III). Depuis son ouverture, le catalogue a stimulé la demande d’accès aux données (+ 8 % au cours de l’année passée).

36Le catalogue GGP Online Codebook & Analysis est entièrement en anglais. En novembre 2014, il offrait des données pour les deux vagues de l’enquête portant sur 17 pays (Allemagne, Australie, Autriche, Belgique, Bulgarie, Estonie, France, Géorgie, Hongrie, Italie, Lituanie, Norvège, Pays-Bas, Pologne, République tchèque, Roumanie, Russie). Les fichiers de données sont constamment mis à jour avec les versions les plus récentes des enquêtes. L’accès aux enquêtes GGP est restreint à la recherche et il est géré via une plateforme en ligne administrée par la Commission économique des Nations unies pour l’Europe (UNECE). Le délai moyen pour obtenir l’accès aux données est de cinq jours. Les conditions sont fixées par des accords signés par l’UNECE et les pays participants au GGP (voir le site internet du GGP pour plus d’informations). Ce catalogue a également contribué à la diffusion des données du GGP. Le nombre d’utilisateurs enregistrés de microdonnées du GGS a augmenté de 33 % au cours de l’année écoulée (Generations & Gender Programme, 2014).

Le travail de préparation et de documentation des données

37Avant qu’une enquête puisse être réutilisée, un travail « invisible » de préparation et de documentation est mené. Il est nécessaire de rassembler, de la manière la plus exhaustive possible, la documentation sur l’enquête elle-même et ses fichiers de données. Cette documentation est souvent dispersée : certains documents peuvent être stockés sur des fichiers électroniques ou dans des archives conservées à l’Ined, certains peuvent venir d’équipes de recherche ou se présenter sous forme d’articles et de documents de travail basés sur les données de l’enquête. Quant aux fichiers, deux scénarios n’impliquant pas la même charge de travail sont possibles. Pour les enquêtes les plus récentes, les fichiers ont des formats « actuels » : ce sont des documents Word ou PDF permettant une duplication simple, et les fichiers de données sont dans des formats SAS, SPSS ou Stata qui n’ont pas besoin d’être convertis. Dans le cas d’enquêtes plus anciennes, il n’est pas rare d’avoir uniquement des documents papier, écrits à la main ou tapés à la machine, et des fichiers en format texte par exemple (voire pas de fichier) [32]. Les documents sont parfois incomplets et des noms de variables peuvent être manquants.

38Parfois, il peut s’avérer nécessaire de sélectionner l’information correcte. Il peut manquer certains documents ou, au contraire, certaines informations peuvent avoir été dupliquées. La collaboration des équipes de recherche participant à la collecte de données est d’une importance cruciale à ce stade, à la fois pour optimiser l’assemblage et la sélection de l’information et pour la synthétiser. Si les équipes fournissent des fichiers de données et des documents clairs et exhaustifs, le travail de préparation et de documentation des données peut être simplifié et les enquêtes peuvent être mises à disposition bien plus rapidement.

39Une fois que tous les fichiers de données et la documentation sont prêts, ils sont importés dans Nesstar. L’objectif est de rendre l’information claire et compréhensible à tout utilisateur potentiel. Les métadonnées sont documentées en fonction des champs DDI choisis par le SES. Ces champs se divisent en trois groupes :

  • Description du document : information sur le fichier Nesstar (enquête concernée, auteur, etc.) ;
  • Description de l’étude : information sur l’enquête (résumé, chercheurs, producteurs, commanditaires, dates de collecte, discipline, méthodologie, procédure d’échantillonnage, etc.) et liens vers le questionnaire, autres enquêtes associées ou liées, et bibliographie [33] ;
  • Description des fichiers de données : information sur les jeux de données (structure et contenu, données manquantes, notes sur les variables remplacées par des variables dérivées, etc).

40Sous Nesstar, les modalités et les libellés des variables sont également précisées. Pour cela, les bases de données déjà documentées représentent un gain de temps significatif. Chaque variable est en outre examinée en détail : les textes de la question (texte précédent la question, formulation de la question, texte suivant la question, instructions aux enquêteurs), l’univers (c’est-à-dire les enquêtés auxquels la question a été posée) et la personne répondant à la question (l’enquêteur ou l’enquêté). D’autres informations peuvent être ajoutées. Par exemple, le questionnaire dont provient la variable (lorsqu’il y a plusieurs questionnaires) ou, dans le cas de variables dérivées, les variables d’origine et le logiciel et le code utilisés pour le calcul. Pour renseigner au mieux chacun des champs, chaque jeu de données est passé entièrement en revue, et les variables sont réorganisées de façon à suivre l’ordre du questionnaire.

41Ce travail de documentation, de vérification et d’harmonisation nécessite énormément de temps. Ce temps peut être réduit par un bon dictionnaire de codes et des fichiers propres et anonymisés. La détection des variables potentiellement identifiantes, qui doivent être recodées ou effacées avant diffusion [34] représente en effet un travail important.

42La documentation des enquêtes GGP s’effectue conformément aux champs DDI choisis pour les enquêtes de l’Ined. Les jeux de données sont déjà anonymisés et les libellés et les modalités des variables déjà renseignées. Si certaines métadonnées sont communes à toutes les enquêtes GGP (notamment la manière dont il convient de citer l’étude, les mots-clés sur le contenu des données et le résumé de ce contenu), la préparation de métadonnées propres à un pays (c’est-à-dire des informations qui varient d’une enquête à l’autre, comme les méthodes de collecte et de traitement et les variables spécifiques) peut s’avérer chronophage.

Conclusion

43Cet article a passé en revue le développement des activités visant à fournir un accès aux enquêtes quantitatives en sciences sociales. Il a examiné en détail l’évolution de ces activités et les pratiques actuelles à l’Ined. Dans un premier temps, l’article a présenté une brève histoire du partage et de l’archivage des données en sciences sociales. La nécessité d’organiser l’accès à des données d’enquêtes pour les analyses secondaires a commencé à se faire sentir dans les années 1950 dans le domaine des sciences politiques. La volonté de développer la recherche comparative à l’échelle européenne et internationale a encouragé l’établissement d’archives nationales pour ces données. Dans un second temps, l’article a étudié les origines des réseaux internationaux reliant ces structures. Ces réseaux ont encouragé la création de normes internationales harmonisées pour la documentation des métadonnées. Développées parallèlement (et grâce) à la révolution informatique, ces normes ont permis l’accès aux données par delà les frontières nationales via internet. La norme internationale DDI est aujourd’hui recommandée par le Cessda et largement adoptée par les centres d’archives européens.

44Troisièmement, l’article a présenté l’évolution des pratiques d’archivage des données d’enquêtes en sciences sociales en France. Dans ce pays, l’établissement d’une structure pour l’archivage des données nationales est relativement récent. Ce retard est principalement imputable à une faible tradition universitaire de production et d’analyse d’enquêtes de grande échelle et à un cadre juridique très protecteur des fichiers de données individuelles. Le Réseau Quetelet a été créé au début du xxie siècle en tant qu’organisme visant à structurer des archives de données jusque-là disséminées. Aujourd’hui, il centralise l’accès à la plupart des enquêtes françaises en sciences sociales. En outre, l’environnement juridique français a progressivement pris en compte les besoins des chercheurs en autorisant la réutilisation des données personnelles et très détaillées à des fins de recherche. Cela a été rendu possible en particulier grâce à la réforme de 2004 de la loi sur la protection des données personnelles et à la réforme de 2008 de la loi sur les archives.

45Quatrièmement, l’article a passé en revue le développement des activités visant à fournir un accès aux enquêtes à l’Ined. Malgré les premières réflexions menées dans les années 1990 sur la possibilité de fixer des règles formelles accordant l’accès aux enquêtes pour les chercheurs, c’est dans les années 2000 que l’institut a initié des activités allant dans ce sens. Le SES, cofondateur du Réseau Quetelet, propose aujourd’hui son expertise sur ce type d’activités dans le cadre de projets internationaux comme le GGP. Comme tous les partenaires du Réseau et conformément aux recommandations du Cessda, l’Ined a adopté le logiciel Nesstar pour publier et explorer les données et métadonnées en ligne. Les catalogues Nesstar de l’Ined et du GGP ont contribué à la diffusion de leurs enquêtes. Enfin, l’article a décrit les activités menées par le SES pour préparer les enquêtes et leur documentation avant de les rendre accessibles. Les métadonnées d’enquêtes n’étant pas structurées pour la norme DDI, le travail de préparation des données et des métadonnées nécessite souvent beaucoup de temps. Le temps nécessaire pour fournir l’accès aux données pourra être réduit pour les futures enquêtes par une collaboration accrue avec les producteurs de données lors de la préparation des métadonnées d’enquêtes basée sur les prescriptions DDI (ICPSR, 2012 ; Vardigan et al., 2008).

46À l’avenir, la tendance aux données en libre accès (open data) (Silberman, 2013) permise par les progrès de l’informatique renforcera l’importance des activités de mise à disposition des données d’enquêtes en sciences sociales. L’accès aux données est devenu un enjeu transnational et des actions sont entreprises au niveau de l’UE pour intégrer et consolider les infrastructures offrant un accès aux données (notamment par le Cessda et le projet Data Without Boundaries ; Silberman, 2013). Ces évolutions et l’établissement du Cessda-Eric imposent une veille constante des mises à niveau technologique et davantage de ressources pour assurer la connaissance et la diffusion des enquêtes mises à disposition.

Remerciements

Nous remercions Jacques Véron pour ses commentaires précieux sur une version précédente de l’article et Benoît Riandey pour les informations utiles qu’il nous a apportées sur le contexte français. Nous remercions tout particulièrement Roxane Silberman pour sa lecture, ainsi que pour le temps qu’elle a su prendre pour nous transmettre des éléments essentiels. Nous sommes également reconnaissants au comité de rédaction et aux relecteurs anonymes de Population qui ont beaucoup contribué à la version finale de cet article.
Annexes

Annexe 1. Index des acronymes

47ADISP : Archives de données issues de la statistique publique.

48BDSP : Banque de données sociopolitiques.

49CADA : Commission d’accès aux documents administratifs.

50CASD : Centre d’accès sécurisé aux données.

51CCDSHS : Comité de concertation pour les données en sciences humaines et sociales.

52CCTIRS : Comité consultatif sur le traitement de l’information en matière de recherche dans le domaine de la santé.

53CDSP : Centre de données sociopolitiques.

54CESSDA : Consortium européen des archives de données en sciences sociales.

55CIDSP : Centre d’informatisation des données sociopolitiques.

56CISS : Conseil international des sciences sociales de l’UNESCO.

57CSSDA : Council of Social Science Data Archives.

58CMH : Centre Maurice-Halbwachs.

59CNIL : Commission nationale de l’informatique et des libertés.

60CNIS : Conseil national de l’information statistique.

61CNRS : Centre national de la recherche scientifique.

62DDI : Data Documentation Initiative.

63DDS : Dictionnaire de données statistiques.

64DWB : Data without Boundaries.

65EHESS : École des hautes études en sciences sociales.

66ELFE : Étude longitudinale française depuis l’enfance.

67EPST : Établissements publics à caractère scientifique et technologique.

68ERFI : Étude des relations familiales et intergénérationnelles.

69ERIC : Consortium pour une infrastructure de recherche européenne.

70ESFRI : Forum stratégique européen sur les infrastructures de recherche.

71ESS : Enquête sociale européenne.

72GENES : Groupe des écoles nationales d’économie et statistique.

73GGP : Programme générations et genre.

74GGS : Enquêtes générations et genre.

75HID-prison : Handicap, Incapacités, Dépendances en prison.

76IASSIST : Association internationale pour les services et les technologies informatiques des sciences sociales.

77ICPSR : Inter-University Consortium for political and social research (Consortium inter-universitaire pour la recherche politique et sociale).

78IFDO : Fédération internationale des organisations de services des données en sciences sociales.

79INED : Institut national d’études démographiques.

80INRA : Institut national de la recherche agronomique.

81INSEE : Institut national de la statistique et des études économiques.

82INSERM : Institut national de la santé et de la recherche médicale.

83LASMAS : Laboratoire d’analyse secondaire et de méthodes appliquées à la sociologie.

84MAFE : Migrations entre l’Afrique et l’Europe.

85MGIS : Mobilité géographique et insertion sociale.

86NESSTAR : Networked Social Science Tools and Resources.

87NSD : Centre norvégien de données pour les sciences sociales.

88OCDE : Organisation de coopération et de développement économiques.

89PROGEDO : Production et gestion des données en sciences humaines et sociales.

90PUD : Plateformes universitaires de données.

91SAFARI : Système automatisé pour les fichiers administratifs et le répertoire des individus.

92SDMX : Statistical Data and Metadata Exchange.

93SES : Service des enquêtes et des sondages.

94SHARE : Enquête sur la santé le vieillissement et la retraite en Europe.

95SSD : Standard Study Description.

96UE : Union européenne.

97UNECE : Commission économique des Nations unies pour l’Europe.

98UNESCO : Organisation des Nations unies pour l’éducation, la science et la culture.

99XML : eXtensible Markup Language (« langage à balise extensible »).

Annexe 2. Index des sites web en novembre 2015

100Adisp : www.cmh.ens.fr/greco/adisp.php

101Casd : https://casd.eu/fr

102Catalogue Nesstar des enquêtes de l’Ined : http://nesstar.ined.fr/webview/

103CDSP : http://cdsp.sciences-po.fr/

104Cessda : www.cessda.net

105DDI : www.ddialliance.org

106Elfe – Plateforme de données : https://pandora.vjf.inserm.fr/public/

107GGP : http://www.ggp-i.org/

108GGP Online Codebook & Analysis : www.ggp-i.org/online-data-analysis.html

109Insee : www.insee.fr

110Nesstar : www.nesstar.com

111Réseau Quetelet : www.reseau-quetelet.cnrs.fr

Notes

  • [*]
    Institut national d’études démographiques, Paris.
    Correspondance : Arianna Caporali, Institut national d’études démographiques, 133 boulevard Davout, 75980 Paris Cedex 20, courriel : arianna.caporali@ined.fr
  • [1]
    Les archives de données d’enquêtes ne sont pas des dépôts institutionnels comme les bibliothèques universitaires, les archives publiques (qui conservent les documents administratifs) et, de manière générale, les institutions de conservation de la mémoire (notamment de photographies, de sons, d’images et de statistiques officielles) (Doorn et Tjalsma, 2007). Toutes ces institutions ont pour mission la préservation de leurs collections. Les archives de données ont pour objectif de diffuser les données et de faciliter leur réutilisation immédiate (Silberman, 1999).
  • [2]
    Les acronymes utilisés dans l’article sont répertoriés dans l’annexe 1.
  • [3]
    Le premier centre d’archives pour les données d’enquêtes, l’Elmo Roper’s Public Opinion Research Center, a été créé aux États-Unis, au Williams College (Massachusetts) en 1947 (Bisco, 1966 ; Doorn et Tjalsma, 2007 ; Hastings, 1964 ; Silberman, 1999). En Europe, le Zentralarchiv, a été fondé à l’Université de Cologne en 1960 pour rassembler des données d’instituts de recherche de la République fédérale d’Allemagne (Bisco, 1966 ; Scheuch, 2003).
  • [4]
    Le Conseil international des sciences sociales (CISS) de l’Unesco a organisé des conférences internationales sur l’archivage des données de recherche. Les trois premières conférences, principalement consacrées aux données d’enquêtes, ont eu lieu dans les années 1960. Les réunions suivantes, organisées dans les années 1970, étaient centrées sur le besoin de développer les réseaux internationaux d’archives de données (section II). Après les années 1970, l’Unesco s’est concentrée sur les aspects juridiques de l’archivage de données (Scheuch, 2003).
  • [5]
    La relation entre le développement des archives de données d’enquêtes et la statistique publique est complexe et varie en fonction des pays. Silberman (1999) propose une vue d’ensemble pour le Canada, la France, l’Allemagne, le Royaume-Uni et les États-Unis.
  • [6]
    Les enquêtes anonymisées sont des fichiers de données où les identifiants directs (par exemple le nom et l’adresse) sont retirés et où les identifiants indirects (comme la localisation géographique et la profession) ne sont donnés que sous forme agrégée (ICPSR, 2012).
  • [7]
    Nous définissons les « données très détaillées » comme des données désagrégées (par exemple, sur la localisation géographique ou la nationalité) pouvant permettre l’identification des répondants si elles sont croisées.
  • [8]
    www.cessda.net/ Les sites web cités dans l’article sont répertoriés dans l’annexe 2.
  • [9]
    Le Cessda rassemble les principales archives de données d’enquêtes en Europe et il fournit sur son site internet un catalogue rassemblant des données disponibles dans ces archives. Il a été inscrit sur la feuille de route du Forum stratégique européen sur les infrastructures de recherche (ESFRI), et il a été identifié comme candidat pour former un Consortium pour une infrastructure de recherche européenne (ERIC) (Marker, 2013). En 2013, le Cessda est devenu une entité juridique permanente de droit norvégien (Cessda AS).
  • [10]
    Aux États-Unis, le Council of Social Science Data Archives (CSSDA), entre autres réseaux internationaux d’archives de données d’enquêtes, a été actif entre 1962 et 1970 en tant que confédération d’institutions visant à coordonner et diffuser les activités de ses membres (Bisco, 1966 ; O’Neill Adams, 2006). Au niveau international, la Fédération internationale des organisations de services des données en sciences sociales (IFDO) a été fondée en 1977 pour la coordination des services de données au niveau mondial (Scheuch, 2003 ; Silberman, 1999).
  • [11]
    L’Insee a également participé à des projets universitaires internationaux, comme l’enquête Emploi du temps en 1966, et ouvert l’accès à ses enquêtes (Chenu, 2011 ; Szalai, 1972). Cet accès était géré par les départements de l’Insee ou par ce qui étaient autrefois les observatoires économiques régionaux (B. Riandey, communication personnelle, 13 novembre 2014). Les enquêtes de l’Insee étaient archivées en interne et transmises aux Archives nationales (R. Silberman, communication personnelle, 26 novembre 2014).
  • [12]
    Cette loi a consolidé les principes de coordination de la collecte des données officielles par l’Insee, d’obligation de fournir des réponses correctes par les répondants et de secret professionnel pour les statisticiens, autant de points qui existaient déjà dans la législation française (Lang, 2008). Le secret professionnel des statisticiens était à la base du lien de confiance entre l’enquêteur et l’enquêté, et sa violation pouvait se traduire par des sanctions pénales.
  • [13]
    L’anonymisation a rendu difficile les études sur les entreprises dont certaines informations (comme la taille) étaient essentielles. Le décret n° 84-628 du 17 juillet 1984 a créé le Comité du secret statistique concernant les entreprises attaché au Conseil national de l’information statistique (Cnis), dont la mission était de répondre aux demandes d’accès à des données sur des entreprises. Le comité considérait la pertinence scientifique des demandes, le sérieux des demandeurs et la fiabilité de leur institution (Gaeremynck, 2009 ; Silberman, 2011).
  • [14]
    Une déclaration auprès de la Cnil était suffisante dans le cas de données personnelles permettant une identification directe ou indirecte, mais pour des données sensibles (comme l’origine ethnique, les opinions politiques et religieuses, la santé, les comportements sexuels), il était nécessaire de demander une autorisation.
  • [15]
    Cette loi a été rédigée en réaction à un projet gouvernemental, le Système automatisé pour les fichiers administratifs et le répertoire des individus (Safari) qui avait pour objectif d’interconnecter les fichiers de l’administration française (Riandey, 2000 ; Silberman, 2011).
  • [16]
    Mentionnons trois textes législatifs supplémentaires : 1) la loi n° 78-753 du 17 juillet 1978 qui a créé la Commission d’accès aux documents administratifs (Cada) chargée d’en assurer le droit d’accès, 2) la loi sur les archives n° 79-18 du 3 janvier 1979 qui a autorisé le libre accès aux données d’enquêtes après 100 ans pour des faits ou des actes de nature privée, et 30 ans pour les informations de nature économique et financière, 3) le Livre des procédures fiscales qui ne prévoyait pas l’accès aux documents fiscaux pour la recherche (Silberman, 2011).
  • [17]
    Le Centre de données sociopolitiques (CDSP, pour plus d’informations, voir http://cdsp.sciences-po.fr/) de Science Po Paris a pris la suite de la BDSP en 2005 (Chenu, 2011).
  • [18]
    Pour plus d’informations, voir www.cmh.ens.fr/greco/adisp.php, Chenu (2011).
  • [19]
    La création de la BDSP a été encouragée par Frédéric Bon. Le Lasmas a été créé grâce à l’initiative d’Alain Degenne et d’ingénieurs ayant travaillé avec Jacqueline Frisch au Centre d’études sociologiques dirigé par Raymond Boudon.
  • [20]
  • [21]
    Utiliser exclusivement les données à des fins de recherche ; prévenir la détérioration des fichiers de données ; ne pas transmettre les fichiers à une tierce partie ; traiter les données conformément aux règles de l’art ; présenter les résultats des analyses de manière à éviter l’identification des répondants ; utiliser autant que possible les données reçues ; mentionner la source des données dans les publications.
  • [22]
    L’accès aux données à des fins de recherche avait été prévu dans la convention de 1981 du Conseil de l’Europe pour la protection des personnes à l’égard du traitement automatisé des données à caractère personnel. Mais la France ne l’avait pas mis en œuvre. En 1994, cet accès a été introduit pour la recherche médicale à condition d’obtenir l’autorisation du Comité consultatif sur le traitement de l’information en matière de recherche dans le domaine de la santé (CCTIRS) (Silberman, 1999, 2011).
  • [23]
    La loi relative aux archives de 2008 a également réduit le délai pour un libre accès aux données collectées par voie d’enquêtes de 100 à 75 ans pour des faits et des actes de nature privée, et de 30 à 25 ans pour des informations de nature économique et financière.
  • [24]
    L’autorisation d’autres organismes peut également être nécessaire. Une explication détaillée de la procédure demandée par le Casd est fournie par Le Gléau et Royer (2011) et sur le site internet du centre (https://casd.eu/). Le Casd a permis de satisfaire les besoins des chercheurs tout en continuant à respecter le principe du secret statistique. Les données sont stockées sur un serveur où elles ne peuvent être copiées, et elles sont accessibles pour une durée limitée via un code personnel du demandeur. Les résultats d’analyse doivent être anonymisés.
  • [25]
    Les demandes de données pouvaient venir de chercheurs français ou étrangers et les procédures étaient gérées par les unités de recherche ou le SES (Riandey, communication personnelle, 13 novembre 2014).
  • [26]
    Cependant, dès 2001, certains fichiers d’enquêtes ont été mis à disposition des professeurs de démographie pour enseigner la matière (Comité d’archivage de l’Ined, 2001b).
  • [27]
    Les conditions fixées sont détaillées dans un document interne (Service des enquêtes et des sondages de l’Ined, 2004) et sont similaires à celles du Réseau Quetelet (note n° 21).
  • [28]
    Le GGP constitue une infrastructure de recherche pan-européenne visant à fournir des données individuelles comparables au niveau international sur les comportements démographiques et des informations contextuelles sur les macro-conditions démographiques, sociales, économiques et politiques. Pour ce faire, le GGP associe les données collectées à travers les enquêtes GGS, une enquête panel renouvelée tous les trois ans, avec une base de données contextuelles (Vikat et al., 2007 ; Caporali et al., 2014). Pour plus d’informations : www.ggp-i.org/.
  • [29]
    La licence du logiciel Nesstar a été acquise par le Réseau Quetelet pour tous ses partenaires.
  • [30]
  • [31]
  • [32]
    Par le passé, les données des questionnaires étaient enregistrées sur des cartes perforées. Elles ont ensuite été transférées sur des fichiers informatiques, mais des informations ont été perdues au cours de ces opérations effectuées à plusieurs reprises. Par conséquent, les données de certaines enquêtes ne seront jamais accessibles.
  • [33]
    La bibliographie en ligne fait partie des métadonnées de l’enquête. Elle consiste en une liste de références bibliographiques mises à jour en collaboration avec le Service de la documentation de l’Ined.
  • [34]
    Les variables identifiantes sont préservées dans un fichier séparé qui sera archivé. Pour résumer, il peut y avoir quatre types de fichiers de données pour une même enquête : des fichiers de données brutes (après la collecte), des fichiers de données de recherche (nettoyées et pondérées, pas nécessairement totalement anonymisées) pour l’équipe travaillant sur l’enquête, des fichiers de données diffusables (entièrement anonymisés), et des fichiers de données envoyés aux Archives nationales (qui correspondent le plus souvent aux fichiers de données de recherche).
linkThis article is available in English on Cairn International
Français

L’accès aux enquêtes et le partage de données sont fondamentaux pour la recherche en sciences sociales. Pourtant, les activités d’archivage qui permettent un accès aux enquêtes mises à disposition sont peu connues. Cet article se concentre sur les données des enquêtes quantitatives. Il passe en revue le développement des archives de données d’enquêtes en sciences sociales depuis leur création dans les années 1950, ainsi que l’émergence de normes internationales. En France, les archives de données d’enquêtes ont été établies relativement tard. L’article montre ensuite l’importance des archives pour l’accès aux enquêtes en s’appuyant sur l’exemple du service des enquêtes et des sondages de l’Institut national d’études démographiques (Ined), cofondateur du Réseau Quetelet, qui centralise aujourd’hui l’accès à la plupart des enquêtes quantitatives en sciences sociales en France. Les activités d’archivage et de mise à disposition des données et métadonnées d’enquêtes à des fins de recherche sont ensuite discutées, en montrant l’importance de la collaboration avec les producteurs de données dans un contexte d’ouverture croissante des données (open data).

Mots-clés

  • archives de données en sciences sociales
  • partage des données
  • métadonnées
  • documentation des données
  • Data Documentation Initiative
  • données d’enquêtes

Références

  • Allègre Claude, 1999, « La lettre de mission », in Silberman Roxane, Les sciences sociales et leurs données, rapport du ministère de l’Éducation nationale, de la recherche et de la technologie, p. 5-6, www.ladocumentationfrancaise.fr/var/storage/rapports-publics/004000935/0000.pdf
  • Arduin Pascal, 2004, « Présentation du Centre Quetelet : description des missions, activités, partenaires et projets de mise à disposition des données », Journée d’information sur l’archivage historique et la mise à disposition des données d’enquêtes en SHS, Ined, Paris, France.
  • En ligneBlank Grant, Rasmussen Karsten Boye, 2004, « The Data Documentation Initiative : The value and significance of a world-wide standard », Social Science Computer Review, 22(3), p. 307-318.
  • En ligneBisco Ralph L., 1966, « Social science data archives: A review of developments », American Political Science Review, 60(1), p. 93-109.
  • Bozon Michel, 1995, « L’accès aux enquêtes de l’Ined. Principes généraux, règles pratiques, problèmes en suspens », Ined, rapport, 11 p.
  • Caporali Arianna, Klüsener Sebastian, Neyer Gerda, Krapf Sandra, Grigorieva Olga, 2014, « The contextual database of the Generations and Gender Programme: Concept, content and research examples », Stockholm University, Stockholm Research Report in Demography, n° 6.
  • Chenu Alain, 2003, « Une infrastructure pour les données en sciences humaines et sociales », Courrier des statistiques, n° 107, p. 29-31.
  • En ligneChenu Alain, 2011, « Introduction », in Chenu Alain, Lesnard Laurent (dir.), La France dans les comparaisons internationales. Guide d’accès aux grandes enquêtes statistiques en sciences sociales, Paris, Presses de Science Po, p. 9-17.
  • Comité d’archivage de l’Ined, 2001a, « Compte rendu et relevé de décisions de la séance du 18 janvier 2001 », Ined, rapport.
  • Comité d’archivage de l’Ined, 2001b, « Compte rendu et relevé de décisions de la séance du 11 décembre 2001 », Ined, rapport.
  • Comité d’archivage de l’Ined, 2003, « Compte rendu et relevé de décisions de la séance du 16 janvier 2003 », Ined, rapport.
  • Comité d’archivage de l’Ined, 2004, « Compte rendu et relevé de décisions de la séance du 8 janvier 2004 », Ined, rapport.
  • Comité d’archivage de l’Ined, 2006, « Compte rendu et relevé de décisions de la séance du 14 décembre 2006 », Ined, rapport.
  • Comité d’archivage de l’Ined, 2009, « Compte rendu et relevé de décisions de la séance du 4 février 2009 », Ined, rapport.
  • Corti Louise, 2000, « Progress and problems of preserving and providing access to qualitative data for social research – The international picture of an emerging culture », Forum: Qualitative Social Research, 1(3), http://www.qualitative-research.net/index.php/fqs/article/view/1019
  • Data Without Boundaries, 2013, « Deliverable D7.1.Metadata Standards-usage and needs in NSIs and Data Archives », Work Package 7 – Standards Development, prepared by : Merja Karjalainen, Mari Kleemolaand Uwe Jensen ; with the contributions of Iris Alfredsson, Maurice Brandt, Michelle Coldrey, Claus-GöranHjelm, Ørnulf Risnesand, David Schiller, www.dwbproject.org/export/sites/default/about/public_deliveraples/dwb_d7-1_metadata-standards-usage_report.pdf
  • En ligneDe Moor Tine, Van Zanden Jan Luiten, 2008, « Do ut des: Collaboratories as a new method for scholarly communication and cooperation for global history », Historical Methods, 41(2), p. 67-78.
  • En ligneDoorn Peter, Tjalsma Heiko, 2007, « Introduction: Archiving research data », Archival Science, 7(1), p. 1-20.
  • Duchesne Sophie, Garcia Guillaume, 2014, « beQuali : une archive qualitative au service des sciences sociales », in Cornu Marie, Formageau Jérôme, Müller Bertrand (dir.), Archives de la recherche. Problèmes et enjeux de la construction du savoir scientifique, Paris, L’Harmattan, p. 35-56.
  • Gaeremynck Jean, 2009, « Le comité du secret statistique », Courrier des statistiques, 128, p. 15-18.
  • Generations & Gender Programme, 2014, « GGP at a Glance n° 15 », Newsletter, www.ggp-i.org/images/stories/GGP_AT_A_GLANCE_016-May-Jun-2014.pdf
  • Gregory Arofan, Heus Pascal, 2007, « DDI and SDMX: Complementary, not competing, standards », Open Data Foundation, www.opendatafoundation.org/papers/DDI_and_SDMX.pdf
  • En ligneHansen Sue Ellen, Iverson Jeremy, Jensen Uwe, Orten Hilde, Vompras Johanna, 2011, « Enabling longitudinal data comparison using DDI », DDI Working Paper Series – Longitudinal Best Practice, n° 2, www.ddialliance.org/system/files/EnablingLongitudinalDataComparison UsingDDI.pdf
  • Hastings Philip K., 1964, « Le Roper Public Opinion Research Center, centre international d’archives de données d’enquêtes par sondage », Revue internationale de sciences sociales, 16(1), p. 102-109.
  • Ined, 2002, « Orientations stratégiques de l’Institut national d’études démographiques pour la période 2002-2005. Présentées au conseil scientifique du 27 février 2002 », Paris, Ined.
  • Ined, 2006, « Orientations stratégiques de l’Institut national d’études démographiques 2006-2009. Approuvées par le conseil d’administration extraordinaire du 15 juin 2006 », Paris, Ined.
  • icpsr (Inter-University Consortium for Political and Social Research), 2012, Guide to Social Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (5th ed.), Ann Arbor (Michigan), USA, www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf
  • En ligneKing Gary, 1995, « Replication, Replication », PS: Political Science & Politics, 28(3), p. 444-452.
  • En ligneKing Gary, 2006, « Publication, Publication », PS: Political Science & Politics, 39(1), p. 119-125.
  • En ligneKramer Stefan, Banks Randy, Chang Vicky, Sieber Ingo, Vardigan Mary, Zenk-Moltgen Wolfgang, 2011, « Presenting longitudinal studies to end users effectively using DDI metadata », DDI Working Paper Series – Longitudinal Best Practice, n° 4, www.ddialliance.org/system/files/PresentingLongitudinalStudiesUsingDDI Metadata.pdf
  • Lang Gérard, 2008, « L’élaboration de la loi de 1951 », Courrier des statistiques, n° 123, p. 39-41.
  • Le Gléau Jean-Pierre, Royer Jean-François, 2011, « Le centre d’accès sécurisé aux données de la statistique publique française : un nouvel outil pour les chercheurs », Courrier des statistiques, n° 130, p. 1-5.
  • En ligneLeighton Vernon, 2002, « Developing a new data archive in a time of maturing standards », IASSIST Quarterly, 26(1), p. 5-9.
  • Marker Hans Jørgen, 2013, « Strengthening cooperation between European social science data archives: The evolving role of CESSDA », in Kleiner Brian, Renschler Isabelle, Wernli Boris, Farago Peter, Joye Dominique (eds.), Understanding Research Infrastructures in the Social Sciences, Zurich, Seismo Press, p. 39-46.
  • En ligneMochmann Ekkehard, Vardigan Mary, 2011, « L’analyse secondaire de données et la documentation pour leur diffusion », in Chenu Alain, Lesnard Laurent (dir.), La France dans les comparaisons internationales. Guide d’accès aux grandes enquêtes statistiques en sciences sociales, Paris, Presses de Science Po, p. 173-181.
  • En ligneO’neill Adams Margaret, 2006, « The origins and early years of IASSIST », IASSIST Quarterly, 30(3), p. 5-14.
  • En ligneRasmussen Karsten Boye, Blank Grant, 2007, « The data documentation initiative: A preservation standard for research », Archival Science 7(1), p. 55-71.
  • En ligneRhein Catherine, 2002, « Démogéographie et données statistiques », Espace, populations, sociétés, 20(1-2), p. 125-132.
  • Riandey Benoît, 2000, « La statistique 20 ans après la loi Informatique et libertés », in Héran François, Sebag Jean-Claude (dir.), L’utilisation des sources administratives en démographie, sociologie et statistique sociale, Paris, Ined, Dossiers et recherches n° 86, p. 35-41.
  • Riandey Benoît, 2003, « Centre Quetelet, deuxième anniversaire », Courrier des statistiques, n° 107, p. 33-36.
  • En ligneRokkan Stein, Scheuch Erwin K., 1963, « Conference on data archives in the social sciences », Social Science Information, 2(4), p. 109-114.
  • Rokkan Stein (ed.), 1966, Data Archives for the Social Sciences, Paris, The Hague, Mouton & Co., 215 p.
  • Szalai Alexander (ed.), 1972, The Use of Time. Daily Activities of Urban and Suburban Population in Twelve Countries, Paris, The Hague, Mouton & Co., 868 p.
  • En ligneScheuch Erwin K., 2003, « Les services de données en sciences sociales : historique et perspectives », Revue internationale des sciences sociales, 177(3), p. 433-449.
  • Service des Enquêtes et des Sondages de l’Ined, 2004, Archives de l’équipe mise à disposition, Ined.
  • Silberman Roxane, 1999, Les sciences sociales et leurs données, Ministère de l’Éducation nationale, de la recherche et de la technologie, 180 p., www.ladocumentationfrancaise.fr/var/storage/rapports-publics/004000935/0000.pdf
  • En ligneSilberman Roxane, 2011, « La protection des données individuelles en France et la recherche en sciences sociales », in Chenu Alain, Lesnard Laurent (dir.), La France dans les comparaisons internationales. Guide d’accès aux grandes enquêtes statistiques en sciences sociales, Paris, Presses de Science Po, p. 183-204.
  • Silberman Roxane, 2013, « Transnational access to official micro-data: The Data without Boundaries European network », in Kleiner Brian, Renschler Isabelle, Wernli Boris, Farago Peter., Joye Dominique (eds.), Understanding Research Infrastructures in the Social Sciences, Zurich, Seismo Press, p. 47-66.
  • En ligneVardigan Mary, Heus Pascal, Thomas Wendy, 2008, « Data Documentation Initiative: Toward a standard for the social sciences », The International Journal of Digital Curation, 3(1), p. 107-113.
  • En ligneVikat Andres, Spéder Zsolt, Beets Gijs, Billari Francesco C., Bühler Christoph et al., 2007, « Generations and Gender Survey (GGS): Towards a better understanding of relationships and processes in the life course », Demographic Research, 17(14), p. 389-440.
  • Wackerow Joachim, Vardigan Mary, 2013, « An established international metadata standard: The Data Documentation Initiative (DDI) », in Kleiner Brian, Renschler Isabelle, Wernli Boris, Farago Peter, Joye Dominique (eds.), Understanding Research Infrastructures in the Social Sciences, Zurich, Seismo Press, p. 158-167.
Arianna Caporali [*]
  • [*]
    Institut national d’études démographiques, Paris.
    Correspondance : Arianna Caporali, Institut national d’études démographiques, 133 boulevard Davout, 75980 Paris Cedex 20, courriel : arianna.caporali@ined.fr
Amandine Morisset [*]
  • [*]
    Institut national d’études démographiques, Paris.
    Correspondance : Arianna Caporali, Institut national d’études démographiques, 133 boulevard Davout, 75980 Paris Cedex 20, courriel : arianna.caporali@ined.fr
Stéphane Legleye [*]
  • [*]
    Institut national d’études démographiques, Paris.
    Correspondance : Arianna Caporali, Institut national d’études démographiques, 133 boulevard Davout, 75980 Paris Cedex 20, courriel : arianna.caporali@ined.fr
Traduit par
Camille Richou
Cette publication est la plus récente de l'auteur sur Cairn.info.
Mis en ligne sur Cairn.info le 20/01/2016
https://doi.org/10.3917/popu.1503.0567
Pour citer cet article
Distribution électronique Cairn.info pour Ined Éditions © Ined Éditions. Tous droits réservés pour tous pays. Il est interdit, sauf accord préalable et écrit de l’éditeur, de reproduire (notamment par photocopie) partiellement ou totalement le présent article, de le stocker dans une banque de données ou de le communiquer au public sous quelque forme et de quelque manière que ce soit.
keyboard_arrow_up
Chargement
Chargement en cours.
Veuillez patienter...