Big Data : Chercheurs et Codeurs au rendez-vous du Développement Socio-Économique

Big Data : Chercheurs et Codeurs au rendez-vous du Développement Socio-Économique

Lisibilité
by Laëtitia Férault Laëtitia Férault
A- A A+

Aujourd’hui, les données sont partout (commerce en ligne, réseaux sociaux, télécoms, capteurs météo, passages en caisse, abonnements de transport, etc). Leur utilisation dans les domaines du marketing ou de la sécurité alimente bien des fantasmes. Mais au-delà d’inquiétudes plus ou moins exagérées et/ou légitimes, les Big Data constituent AUSSI un formidable levier de développement capables d’améliorer notre vie au quotidien et encore davantage celle des habitants des pays émergents, un des grands défis de ces prochaines années, tant au niveau du traitement des données que de leurs applications. Science ET conscience…

Les Big Data sont caractérisées par 3 critères principaux (la règle des 3 V) : le volume, la vélocité et la variété. Et de fait, les données statistiques anonymisées de gestion des réseaux de téléphonie mobile, véritables photographies en temps réel de la vie des sociétés, placent un opérateur comme Orange au centre de l’enjeu des données massives.

Laetitia Ferault, chargée de projets Big Data au Technocentre Orange, revient sur un événement particulier qui a eu lieu dans le cadre du Challenge Orange Data for Development, le « datathon », un événement organisé simultanément de part et d’autre de l’Atlantique, à Boston et à Montreuil. Une étonnante première et une étape significative dans l’utilisation des Big Data mobiles.

D4D kesako ?

Orange - D4D - Image1

Data for Development s’inscrit dans le cadre du programme Orange for Development qui fait du développement socio-économique un vecteur important de nos activités dans les pays émergents.

Le lien entre usages téléphoniques et développement s’est rapidement imposé à nous. En effet, les opérateurs télécoms possèdent des informations de gestion de réseaux qui peuvent être réinterprétées pour fournir des indications macroscopiques sur les interactions des populations, les richesses régionales, les zones économiques etc… qui peuvent être très utiles au développement de politiques publiques. On sait qu’actuellement ces politiques se basent souvent sur des données peu disponibles ou peu quantifiées, sur des enquêtes ou des hypothèses plus ou moins vérifiées. L’idée est née de trouver des moyens de valoriser nos données techniques pour soutenir ces projets de développement.

C’est sur ce principe qu’a été initié le Challenge D4D, qui consiste tout simplement à mettre à la disposition de la communauté scientifique internationale des sets de données téléphoniques mobiles anonymisées et à faire concourir entre elles des équipes de chercheurs selon différentes thématiques liées au développement socio-économique.

La 1ère édition du Challenge Orange D4D a été lancée en 2012 à partir des statistiques de trafic téléphonique de la Côte d’Ivoire et ses résultats ont été proclamés en mai 2013. La seconde édition, lancée en 2014, concerne cette fois le Sénégal et ses résultats viennent d’être révélés le 10 avril dernier au MIT de Cambridge, dans le cadre de la conférence internationale NetMob.

Datathon : une big battle autour des Big Data

Orange - D4D - Image2

Nouveauté cette année, était organisé dans le cadre de NetMob, un hackhaton Big Data ou « Datathon », simultanément au MIT à Cambridge et en France… à Montreuil, à Simplon.co plus précisément, une école de codage à dimension sociale.

A cette occasion, une partie introductive d’initiation aux Big Data mobiles a précédé une session intensive de codage et de développement à partir des mêmes sets de données de trafic mobile Sénégalais qui ont servi au Challenge D4D. Avec d’un côté l’élite des étudiants internationaux thésards et post-doctorants et de l’autre des apprentis codeurs mêlés à quelques étudiants !

7 équipes à Boston, 7 équipes à Montreuil : plus de 70 participants ont donc planché pendant 36 h sur des projets destinés à améliorer le bien-être des populations, voilà une confrontation pour le moins originale avec pour objectif de sensibiliser les data scientists en herbe au potentiel des données massives téléphoniques en matière de développement socio-économique.

Les Big Data en live à Montreuil

Orange - D4D - Image3

Dans la « fabrique sociale de codeurs » comme aime à se nommer Simplon.co, le Datathon D4D commence par un cours dispensé par un expert d’Orange sur le fonctionnement des machines virtuelles sécurisées sur lesquelles se trouvent stockées les données et sur la composition des trois jeux de données mis à disposition (les communications entre des antennes relais et les trajectoires de déplacement faible et haute résolution).

Des idées fusent assez rapidement et les équipes se forment par affinité d’idées et complémentarité des compétences. Le défi de faire travailler des codeurs et designers ensemble ne semble finalement pas si dur à surmonter. Toute la journée, les coachs de Simplon et intervenants Orange sont là pour guider et conseiller les équipes. A midi, heure de Boston (17h à Paris), les cours du MIT débutent et nos apprentis chercheurs peuvent suivre en direct le cours par Skype et flux audio. A 23h, les derniers courageux s’en vont et se donnent rendez-vous à 9h le lendemain.

Orange - D4D - Image4

Le lendemain, l’ambiance conviviale a laissé place à des écrans noirs remplis de ligne de code. Face à certaines questions techniques, les équipes s’entraident. Plus les heures passent et plus la tension monte. A 18h, les équipes doivent exposer leur projet devant le jury du MIT commun aux équipes de Paris et Boston.

Les projets sont très centrés sur les réalités locales comme l’accès au savoir dans les zones rurales reculées, la mise en place d’une médecine préventive auprès des mères et futures mères dans des zones manquant d’infrastructures sanitaires, la propagation des maladies, les besoins en énergie, la gestion de l’eau, la transition à l’agriculture bio (leur description ici).

Orange - D4D - Image5

MIT vs Simplon : data Force One

Le jury désigne le meilleur projet côté France : c’est celui de Baptiste Wallerich, Florian Pineau, Antoine Goupille et Selain Kasereka (de gauche à droite sur la photo) qui ont imaginé et développé Ndox (eau en Wolof), un outil de simulation de la propagation des maladies liées à la stagnation des eaux au Sénégal. Les eaux stagnantes constituent des foyers épidémiques potentiels (bactéries, moustiques, vers…). En croisant des données météorologiques, topographiques et de mobilité, il est possible de cibler des zones à risques. En modélisant la contamination et la transmission des maladies il devient possible de limiter, voire de juguler les phénomènes épidémiques.

Orange - D4D - Image6

La grande finale opposait ensuite l’équipe française, au projet américain. C’est finalement l’équipe américaine (ci-dessous) qui remporte le Datathon avec Mass Mobility, un puissant algorithme qui permet de visualiser la mobilité des foules. En 30 heures, cette équipe a développé une dataviz interactive (sur PC et mobile/Androïd) dont la démo était capable de montrer le déplacement des bulles de trafic lors de la visite de Barak Obama à Dakar en juin 2013. L’intérêt de cette appli est bien entendu à considérer dans les domaines de l’information, de l’assistance et de la sécurité des foules lors d’événements importants.

Orange - D4D - Image7

 

Le challenge D4D Sénégal a enfoncé le clou : les Big Data mobiles sont définitivement un formidable outil de développement. La quantité et la qualité des données téléphoniques mobiles offrent un potentiel énorme directement utilisable pour d’innombrables projets d’amélioration du bien-être des populations. La valeur de tous les projets présentés en atteste. Et les quelques 250 scientifiques présents à Boston sont tombés d’accord sur le fait que désormais nous entrons dans le domaine des applications de plus en plus pratiques.

Et c’est là justement que l’initiative Datathon d’Orange prend tout son sens : il est temps désormais d’agréger autour des Big Data une communauté de talents et d’approches diversifiés, issus tout aussi bien des grands laboratoires de recherche que des pépinières de développeurs astucieux et agiles. De la véritable open innovation conforme à ce que sont les Big Data : le nombre, la diversité et la rapidité. CQFD : D4D Action !

Orange - D4D - Image8