LE PROGRAMME
DATA LAB’

NOTRE PROGRAMME DATA LAB’

objectifs

DATA LAB’ est notre programme d’analyse de données en grand nombre. Il a pour but de comprendre le vécu des parents et des enfants dans l’espace numérique grâce à l’intelligence artificielle. Nous collectons et analysons les grands volumes de données disponibles pour en extraire de l’information sur les usages, les attentes, les besoins des parents et des enfants.

Ce programme repose sur la maîtrise des technologies de Traitement Automatique des Langues (TAL) combinée à notre connaissance du contexte spécifique du champ social de la parentalité numérique, de la protection et de l’éducation des enfants dans l’espace numérique.

Concrètement, le programme DATA LAB’ d’écoute et d’analyse des opinions et sentiments des parents et des enfants débouche sur de nombreuses applications très intéressantes comme :

  • Participer à l’amélioration de produits et services existants (par exemple, l’analyse en masse des verbatims anonymisés d’une ligne téléphonique dédiée à l’écoute parentale ou à l’écoute des jeunes victimes de harcèlement permettrait d’encapaciter les écoutants dans leur prise en charge ; autre exemple: ​​apporter un soutien aux éditeurs de solutions applicatives de contrôle parental).
  • Initier la création de nouveaux produits et services adaptés à de nouveaux usages induits par la révolution numérique (par exemple, veiller à la protection de l’enfance eu égard à l’usage des assistants vocaux ou de nouveaux jouets connectés)
  • Accompagner la puissance publique et les institutionnels en contact avec les familles afin d’encapaciter les parents dans leurs usages (information sur les contrôles parentaux, formation dédiée, enquêtes, études en faveur de la protection de l’enfance…)
  • Identifier de nouvelles tendances d’usages numériques au sein des familles
  • Anticiper de nouveaux risques ou de nouvelles opportunités dans les domaines de la santé, de l’éducation et de la protection de l’enfance.

modélisation

L’univers de la parentalité numérique et de la vie numérique d’un enfant est complexe.
DATA LAB’ s’appuie sur notre modélisation de cet univers qui prend en considération la singularité de l’enfant, son environnement (contexte externe), la nature de son engagement dans les nouvelles technologies et son niveau d’exposition.
Toutes nos ontologies de recherche sont irriguées par ce modèle.

L’ontologie est un terme consacré en science du vivant pour décrire le monde tel qu’il est. Nos ontologies servent à catégoriser et hiérarchiser les sujets qui couvrent toute la problématique de la protection et de l’éducation de l’enfance dans l’espace numérique et des actions parentales. Elles font l’objet d’un processus dynamique. En effet, la production d’informations grâce à l’analyse en grand nombre dans un domaine donné accroît la connaissance au niveau global : les ontologies s’enrichissent et se relient de manière plus pertinente, la modélisation s’affine.

model_enfant_num

approche

Notre programme DATA LAB’ propose un ensemble de processus permettant une analyse à trois niveaux des gisements de données :

  • L’analyse statistique permet de disposer d’une cartographie dans l’espace et dans le temps des principales variables.
  • L’extraction de thèmes (méthodes dites non-supervisées) est très utile pour découvrir dans un nouvel ensemble de données le poids relatif des thèmes évoqués, les sous-thèmes qui les composent ainsi que leur évolution dans le temps.
  • La classification automatique « multi-labels » (méthode dite « supervisée ») permet de prédire – c’est-à dire-d’identifier – la présence de thèmes au sein d’un texte voire d’un ensemble de textes. Elle repose sur la combinaison de notre expertise métier et de l’état de l’art des modèles (voir illustration ci-dessous dans le champ des applications de contrôle parental). Or l’expertise métier se construit au travers des étapes précédentes (modélisation, ontologies, analyses statistiques et extractions de thèmes). Les applications de la classification automatique sont nombreuses et très riches.

le DATA LAB’ POUR LES APPLICATIONS DE CONTRôLE PARENTAL

LE CADRE DE L’ÉTUDE

CHAMP D’ÉTUDE

Dans notre modélisation, les contrôles parentaux sont une sous-partie de l’ontologie « CONTEXTE» (en vert dans le schéma présenté ci-dessus) :CONTEXTE > Potentialité des situations (opportunités vs risques) > Attitudes et actions parentales > APPLICATIONS DE CONTRÔLE PARENTAL.

Le sujet des contrôles parentaux est l’un des tout premiers sujets sur lequel nous nous sommes investis pour trois raisons.

Tout d’abord, pendant la période de gestation de notre projet en 2018, nous avions identifié que très peu de parents installaient une solution de contrôle parental et en étaient satisfaits. Or un parent doit protéger et éduquer son enfant dans la vie numérique comme dans la vie.

Ensuite, nous nous sommes tournés vers les travaux de la Commission Européenne dédiés au contrôle parental. En 2006, la commission avait lancé un programme spécifique dans le cadre du Safer Internet Program, le SIP BENCH, destiné à évaluer les dispositifs de contrôles parentaux. Ce programme s’est étendu sur 3 phases, jusqu’en 2016. En 2017, le rapport final concluait à l’inefficacité des outils d’aide à la parentalité (« Commission study suggests that most parental control tools fail to sufficiently address the needs of the parents to protect children against online risks”). En mars 2018, le rapport d’étape du programme Better Internet for Kids – BIK – indiquait que 85% des états membres n’avaient pas mis en place de dispositifs de test ou de certification des outils de contrôle parental.

Enfin, la troisième raison réside en la possibilité d’accéder à un grand volume de données publiques. Dans les App Stores, les parents et les enfants laissent des témoignages relatifs à leur expérience de l’usage des applications de contrôle parental que les parents ont installées sur le téléphone ou sur la tablette de leur enfant. Depuis la naissance du Google Play et de l’App Store en 2008, il existe plus de 1,4 millions de verbatims (avis, commentaires, témoignages) sur une sélection de 59 applications de contrôle parental pour mobile ou tablette. Nous avons constitué un dataset couvrant un tiers de ce gisement de données.

OBJECTIFS DE NOS TRAVAUX

Ces travaux doivent permettre aux parties prenantes de la parentalité numérique (politiques, institutionnels, industriels et éditeurs de solutions, monde de l’éducation, professionnels de la santé…) d’écouter les parents qui s’expriment en masse sur leur expérience d’usage d’une solution d’application parentale, afin d’être en capacité de :

  • Aider les parents et les enfants à comprendre les enjeux liés à l’usage du contrôle parental.
  • Leur permettre de progresser dans leurs pratiques respectives et favoriser le dialogue parents-enfants.
  • Favoriser l’émergence de solutions plus performantes.

méthodologie

Conformément à notre approche, il s’agit de :

  • Collecter des témoignages en nombre postés sur les appstores par les familles sur leur expérience des applications de contrôle parental.
  • Analyser les retours à l’aide d’outils informatiques de traitement du langage naturel, identifier les thèmes abordés et les sentiments associés.

PRÉSENTATION DES DATASETS

Nos jeux de données s’étalent de l’émergence des App stores en 2009 jusqu’en novembre 2020.

Notre data set au niveau mondial :

VERBATIMS

Applications

Langues

Pays

Notre data set en langue française :

Nous avons extrait de notre «data set mondial», un data set « français » de 24.000 commentaires de parents et d’enfants s’exprimant en langue française.

le DATA LAB’ POUR LES APPLICATIONS DE CONTRôLE PARENTAL

quelques résultats

1 – ANALYSES STATISTIQUES

L’étude statistique des variables collectées (nom d’application, date de l’avis, pays, langue, app store, sentiment, note) permet d’exprimer des tendances et d’avoir une vision mondiale des usages des applications mobiles de contrôle parental.

1) Nombre de verbatims des familles en fonction du temps

Le nombre de verbatims suit une progression cohérente avec l’évolution du nombre d’appareils dans le monde. Elle est fortement tirée en 2019 et 2020 par l’application Google Family Link qui a été déployée au niveau mondial fin 2018. A elle seule, l’application représente 57% de l’ensemble des verbatims.

2) Répartition des avis des parents et des enfants sur le dataset en langue française

Extraction de la parole des enfants

Nos algorithmes permettent d’isoler les verbatims des enfants qui représentent 12% du dataset en langue française.

Avis des parents et des enfants

Les enfants qui postent leurs commentaires expriment majoritairement leur mécontentement d’être restreints dans leurs pratiques du smartphone ou de la tablette. : ils attribuent à 95% la note la plus basse d’1/5.

Les parents sont plutôt satisfaits : le sentiment positif domine puisque les notes 4 et 5 totalisent 66% des commentaires.

2 – Extraction automatique de thèmes

Intérêt du topic modeling avec le LDA (Latent Dirichlet Allocation)

En intelligence artificielle, les méthodes d’apprentissage « non supervisées » de TAL permettent de laisser l’algorithme découvrir des thématiques présentes dans un ensemble de données. Le rôle du data scientist est de choisir l’algorithme, un LDA en l’occurence, et de régler ses paramètres d’apprentissage en fonction du type de données et de l’objectif de recherche.  Le LDA est un modèle statistique (modèle génératif probabiliste) qui génère des thèmes basés sur la fréquence des mots à partir d’un ensemble de documents.

Approche méthodologique

Le graphique en étoile illustre un résultat d’extraction automatique de 25 thèmes distincts dans le data set français. Chaque thème (couleur) est constitué d’un sous-ensemble de 10 mots clés.

Quelques résultats

Ce paramétrage apporte un éclairage intéressant sur les sujets associés à chaque thème :

  • Le thème N°2 fait ressortir que les parents s’expriment davantage à propos de leurs grands enfants, les adolescents.
  • Le thème N°3 est lié aux aspects relatifs à l’ergonomie des applications.
  • La thématique du jeu est couverte par 4 thèmes qui renvoient, par ordre d’importance, au contrôle du temps (N°1), aux limites des fonctionnalités permettant de définir des profils par joueur (N°4) et de définir des seuils et des plages horaires (N°6 & N°9).
  • La question du contournement des applications par les enfants et de l’inefficacité du dispositif de contrôle parental fait l’objet des regroupements au sein des thèmes N°5 et N°10.
  • Les thèmes N°12, 15 et 24 traitent des problèmes que les parents rencontrent tout au long du cycle de vie des App, dans les phases d’installation, de paramétrage, jusqu’à la désinstallation.
  • Les thèmes N°16, 18, 23 et 25 traitent des fonctionnalités attendues, comme la gestion des messages et des appels, le filtrage de la navigation web, la géolocalisation et l’utilisation de YouTube.
  • Enfin, les thèmes N°19 et 21 traitent des aspects relatifs à la relation commerciale des parents avec les éditeurs d’applications, notamment les problèmes de service après-vente.

3 – Prédiction de la présence de thèmes

Intérêt des modèles de deep learning de type BERT

En 2018, Google a rendu open source le code du modèle de langue BERT . En 2019, les équipes de Facebook AI Research associées aux chercheurs de l’INRIA ont rendu public CamemBERT, un modèle de type BERT, pré-entraîné sur 138 GB de textes français.

Camembert est donc un modèle qui « connait la langue française » et qui peut  être utilisé pour des tâches de classification automatique « multi-labels » appartenant au champ des méthodes dites « supervisées ».

Approche méthodologique

La supervision nécessite de fournir au modèle de langue un data set d’entraînement préalablement labellisé par nos soins : chaque verbatim a été associé à 27 colonnes, une par thème. La labellisation consiste à tagger chaque colonne si le thème correspondant est présent dans le verbatim.

Nous paramétrons l’algorithme afin qu’il s’entraîne et réduise ses erreurs de prédiction : il « cache » les taggs, tente de les prédire, puis ensuite vérifie pour chaque verbatim s’il s’est trompé, prend en compte son erreur, et recommence ainsi de suite pendant plusieurs heures.

Les approches deep learning nécessitent des machines puissantes et à mémoire élevée du fait de la volumétrie et de la parallélisation des calculs requis. Nous avons travaillé sur des solutions cloud avec des GPU NVIDIA TESLA P100.

Une fois le modèle entraîné et performant, nous l’utilisons en production pour réaliser des prédictions sur des verbatims nouveaux. Les méthodes supervisées de deep learning sont très performantes, pour autant, elles ne permettent que de prédire des thèmes sur lesquels le modèle a été préalablement entraîné.

Nous avons opté pour une prédiction en mode « multi-labels » qui permet d’associer un verbatim à plusieurs labels. Concrètement, nous avons entraîné un modèle à détecter une variété de thématiques au sein d’un verbatim – ou d’un ensemble de verbatims – et nous obtenons pour chaque label le score de son poids relatif dans le verbatim.

Nous avons dans un premier temps adapté CamemBERT au champ sémantique de la parentalité numérique (fine-tuning), puis nous l’avons entraîné avec un jeu de données labellisées sur 27 thèmes.

Thématiques  issues de l’ontologie à capturer dans les verbatims

Exemple d’extraction de thèmes dans un verbatim parental

Voici ci-dessous un exemple de verbatim parental dont le résultat d’analyse est présenté dans le graphe circulaire :

 » Très franchement application bien et facile d’utilisaton, pratique. l’installation s’est passée sans trop de problèmes, malgré l’intervention du support technique que j’ai du appeler. en famille on respire mieux et le calme est de retour. filtrage ok mon fils ne peut pas la contourner. il faut dialoguer avec l’enfant pour lui apprendre les règles et échanger en famille est toujour une bonne chose »

Lecture du graphique : 
Le modèle renvoie une prédiction sur une échelle allant de 0 (absence de présence du thème) à 1 (thématique principale). La légende sous le graphique indique les zones de couleurs correspondant aux intervalles de poids de la présence du thème.
Dans cet exemple, notre modèle fait apparaître par ordre décroissant les thématiques principales suivantes :

  • Locuteur : Un parent s’exprime
  • Thématiques : Ergonomie & UX (« facile d’utilisation », « pratique »), robustesse (« pas la contourner »), MAJ & Maintenance (« intervention support technique »), Education ( « dialoguer », « apprendre les règles »), Vie de famille (« en famille on respire… »)
  • Sentiment : Positif
  • Note : l’appartenance à la catégorie 4&5 est jugée la plus probable

Notre modèle de langage a correctement capturé les thèmes abordés, le sentiment associé, ainsi que la note probable. Il peut être amélioré, car les prédictions « filtrage WEB »  et « installation et paramétrage » devraient avoir des scores supérieurs.

Les métriques par label et globaux attestent d’une performance à l’état de l’art (roc_auc_score_micro: 0.9959, Hamming_loss : 0.0203, F1_micro: 0.9403).

Cette performance a été atteinte grâce au développement d’un processus de labellisation semi-automatique des données d’entraînement irrigué par un ensemble de dictionnaires thématiques élaborés par le DATA Lab’.

Exemples d’applications immédiates et concrètes de la classification automatique

  • Amélioration d’une fonctionnalité sur une (ou plusieurs) application (s) de contrôle parental.
  • Création d’un moteur de recherche multicritères destiné aux parents pour étayer un choix dans le domaine des applications de contrôle parental

suites à donner au programme

1) Compléter nos analyses sur les contrôles parentaux

Étendre notre analyse sur un corpus de données plus important :
• Étendu à un volume de verbatims français plus important (supérieur à 50.000)
• Étendu à d’autres app mobiles, autres plateformes (mac, windows)

Étendre à un corpus structuré après enquête de grande envergure (14 millions de parents en France) :
• Passer de l’analyse de données non structurées à celle de données structurées
• Approfondir les analyses
• Faire réagir les familles sur les sujets non abordés
• Focus Covid-19

2) Créer un observatoire des usages du contrôle parental

Étant donnée la progression du nombre d’avis laissés par les familles à propos de leur vécu, la création d’un « observatoire des usages du contrôle parental » ou « observatoire de la protection parentale » apparait pertinente. Cet observatoire permettrait d’informer les parties prenantes de la vie numérique des enfants sur l’évolution des tendances, des attentes et des besoins des familles. Une telle initiative favoriserait l’émulation entre éditeurs et l’émergence de solutions performantes au regard de l’évolution des usages.

Dans une deuxième phase, il pourrait s’agir de piloter une analyse des flux en temps réel de verbatims, avec pour objectif de :
• Détecter de nouveaux sujets (signaux faibles et forts)
• Suivre des indicateurs et repérer les tendances
• Prédire des attentes et besoins des familles

3) Concevoir et créer de nouveaux services en ligne pour les parents
(application, jeu familial…)

Ces services peuvent prendre la forme d’une application, d’un jeu familial, d’une plate-forme, avec l’objectif de :
• Accompagner les pratiques parentales
• Fournir aux parents une solution de « monitoring » respectant la vie privée des enfants : opérer un changement de paradigme de la parentalité numérique : passer de “combien ?” (Temps et nombre d’écrans) à “quoi ?” (Quels contenus ? quels impacts ? que faire ?) et “comment ?” (Où trouver de l’aide)

4) Produire des études à la demande dans notre champ d’expertise

vous avez une question, un besoin ?
Nous sommes à votre écoute