lundi 28 janvier 2013

BIG DATA (1/3) Mais bordel c’est quoi la Big Data !

2011 a vu l’avènement de la communication M2M, de l’internet des objets ou encore de l’impression 3D. En 2012, on nous a principalement vendu le concept de BYOD (Bring Your Own Device at work pour les novices) et la… big data : discipline naissante ? buzz trendy véhiculé par éminents et respectables journalistes de la trempe de Morandini ou Pernault ? Nouveau paradigme marketing ? Adage et fantasme réservé aux data scientists ? Coup d’épée dans l’eau ou gisement majeur ? Remous balbutiants, véritable rupture ou nouvel artifice dont le fard ne tardera pas à couler ? On nous prédit une nouvelle révolution technologique comme aucune n’a atteint cette vitesse de propagation et cette amplitude "richterienne". Essayons d’y voir plus clair dans ce bouillonnant déluge informationnel. Y’a moyen que cette mouvance décape sévère.
Décryptage.
 

En quelques mots, c’est quoi la big data ?

Allez, zou, on commence. Les données s’abattent à rythme exponentiel sur les organisations. Les nouveaux systèmes d’informations, les vecteurs d’expression, les systèmes de paiement, et l’ouverture de multiples bases de données publiques et privées génèrent chaque jour des afflux soudains de milliards d’informations. De plus, chaque acteur (particulier, administration, organisation, entreprise, groupement communautaire) se fait directement producteur de nouveaux corpus d’informations non ou semi-structurés : données personnelles, applications géolocalisées (conjuguées à la dimension temporelle), conversations sur réseaux sociaux, évènements, contenus dématérialisés, photos Flickr, microblogs… Et sur le côté passif, les communications issues de la multiplicité des objets communicants numériques (internet des objets, communication M2M, capteurs, sondes, RFID) génèrent de la donnée à grande échelle.

Ok, vous avez avez toujours pas saisi la magnitude du truc ? Citons quelques faits saillants pour positionner l’ampleur de la rupture. On parle de 30 milliards de données (messages, photos) ajoutées à Facebook chaque mois par 600 millions d’utilisateurs, 32 milliards de recherches et requêtes effectuées sur ce même mois sur Twitter, plus de 2 milliards de vidéos visionnées chaque jour sur le seul canal Youtube (à ce rythme, je comprends mieux que le chanteur du Gangnam style soit aujourd’hui multi-millionaire, à une échelle d’appréciation musicale, un peu moins je dois admettre). Pas très évocateur ces chiffres isolés ? Une échelle comparative serait plus parlante ? OK. Next : Comme le rappelait Eric Schmidt (PDG de Google) en 2010, « entre les débuts de l’ère humaine et 2003, l’humanité a produit 5 exaoctets d’informations, soit 5000 petaoctets. Aujourd’hui, nous produisons autant d’information tous les deux jours ».

Pour caractériser la prouesse de la Big Data, on a pour généralement nomenclature la conjonction de 5 attributs pour simplifier la complexité analytique : la dimension triviale du volume (volumétrie exponentielle et sans précédent de data), la vitesse (la velocity définit la vitesse de collecte, de synchronisation, d’analyse en temps réel de ces corpus de données entre les systèmes) et la variété (diversification et hétérogénéité des différentes familles de formats à traiter issus de sources multiples, on va revenir là-dessus).

Merde, je ne sais plus compter sur mes doigts, là j'ai que 3 variables.... Ah oui, c'est bon. OK, on est allé chercher la data. Mais pour la résoudre, l'assaisonner, la malaxer, la représenter sur une estrade un brin plus sexy, on a besoin de nouveaux modèles pertinents de design visuel. C'est la représentation graphique multidimensionnelle sur-mesure (data visualization). Ces nouveaux modèles d'illustration visuelle créative de la donnée sont à même de faire parler les différentes sources d'informations (de nature internes, open et exogènes). Ces tableaux de bord (dashboards) analytiques et opérationnels permettent donc in fine de comprendre la data, lui donner du sens (concept de création de valeur). Et ainsi, faire tomber le rideau. Et révéler au grand jour les liens de corrélation impactants, jusqu'ici patiemment dissimulés. 3+2=5. Mon cher Laurent Romejko, le compte est bon. 

Donc, la Big Data consiste, dans une dynamique temps réel à intégrer, synchroniser, traiter et valoriser ces flux de données vertigineux. Extrêmement variés et de différentes natures. Il s’agit à terme de donner du sens à des gisements massifs de données et d’en faire ressortir la quintessence et la valeur ajoutée. Les data ne sont plus de formats dits structurés et relationnels, mais référencés comme contenus non structurés et hétérogènes (commentaires, micro-discussion, vidéos, images, sons, données de capteurs ….). Aller collecter un document posté relève d’une donnée structurée. En revanche, en comprendre le contenu, faire de la reconnaissance d’images ou d’objets, définir les variables explicatives, résoudre les subtilités sémantiques, croiser différentes sources de données relèvent d’une analyse non structurée. La nature de ces données hétérogènes ne connait aucune limite pour la Big Data.

1er commandement : où et quand a commencé le big data ? 

Okapi et Sciences et Vie Junior ne nous aideront pas sur ce coup-là. Pour une fois la pomme d’Adam et Eve, sans oublier celle de Steve Jobs n’ont pas grand-chose à voir non plus dans cette mouvance. Allez, on va essayer de vulgariser grosso modo. Faites entrer les accusés : Google a lancé le mouvement d’indexation, puis c’est devenu l’os à ronger et le diamant brut du désormais posthume cro-magnon Yahoo. Malheureusement, ce denier n’a pas eu l’habilité de la Place Vendôme pour le polir.  


Constat simple, face à quelques dizaine de téraoctets, les systèmes d’indexation existants étaient révolus. Les bases de données dites relationnelles de langage SQL (jusque-là, le standard traditionnel) ne permettaient plus de les interroger par requêtes face à ce déluge de données en croissance exponentielle. Les calculs algorithmiques n’étaient pas assez parallélisés et distribués pour garantir une puissance de calcul d’interrogation suffisante. La sémantique de la base de données dite relationnelle était dépassée. En somme, les procédés de gestion de la data étaient débordés. Cela imposait des mutations fondamentales dans l’architecture des systèmes de gestion de données. On a donc embrayé sur le système de requête de bases de données type NoSQL. Cette dernière permet un stockage de masse à plat sans requêtes. Et conjuguée aux capacités de stockage, de calcul et les autres traitements répartis sur un grand nombre de machines pour un coût (désormais dérisoire) dans le cloud (fournit de façon presque illimitée), c’est une affaire qui roule. Très scalables, les infrastructures cloud permettent ainsi de gérer n'importe quel pic de puissance de calcul. Plus aucune problématique pour dimensionner votre infrastructure. La mutualisation de serveurs pour affinent votre capacité de puissance de calcul. Avec évidemment cette agilité et les coûts inhérents de calcul propres au cloud.

Ceux qui ont opéré le putsch ne se cachent plus : les bases sont désormais orientées colonnes (Vertica), graphes (Neo4J), documents / objets structurés (MongoDB), permettent de prendre en charge des applis de données haut débit (VoltDB) ou se positionnent sur le traitement d’évènements complexes (Streambase). A cela, on greffe les framework Hadoop (système de fichiers distribués afin de faire remonter les contenus non structurés) ou l’analyse séquentielle de MapReduce pour effectuer des fameux calculs parallèles et la création d’applications sur des architectures web distribuées (c’est là qu’on retrouve nos petits : Facebook, Twitter, LinkedIn, …).
 
Avantage non négligeable, ces différentes associations permettent une montée en charge et une extension graduelle d’ordre de grandeur (traduite concrètement par le volume brusque et croissant de données à traiter) tout en maintenant des capacités de calcul égales. Là, on parle en échelle de pétaoctets de données les amis. Ouais, je sais, ça impressionne ma copine aussi quand je dis ça. Les champs applicatifs se révèlent sans limites : ciblage comportemental, analyse sémantique et naturelle, statistiques, calcul haute performance (HPC), linguistique, … 


« Ok, c’est cool ton truc, un brin soporifique, mais concrètement, ça sert à quoi ? » (j’essaie de prendre l’intonation de voix de Fred et Jamy de « C’est pas sorcier » pour rendre le propos plus interactif).
 Exemple avec le marketing, pour lequel la Big Data fera office de chevalier blanc dans les futurs process de decision making.

On détecte de suite l’intérêt du marketing à s’approprier la Data Analytics : analyser des données comportementales, mieux comprendre son consommateur, faire émerger des e-sentiments, structurer et analyser des verbatims, prédire des attentes, anticiper les tendances majeures afin d’optimiser des ventes physiques en retail, maximiser la pertinence de publicités en ligne ou campagnes marketing. 
Ainsi, le marketing est une fonction désormais sévèrement challengée. Fini l’instinct et l’intuition précaires de prises de décision. Ses process de décision making un brin archaïques pour mieux connaître ses clients, devront s’adapter aux possibilités offertes par la Data Analytics. Le métier du marketing devra incontestablement se recycler pour converger vers des fonctions de data scientist ou data analyst.  


Aujourd’hui, les actions marketing aujourd’hui s’appuient en grande majorité sur des ressorts automatisés de pifomètre rudimentaire, d’instinct, ou d’intuition. La discipline (mécanique) marketing du retail, s’appuie majoritairement sur des logiques de moyenne, d’échantillons et de segments. Somme toute assez réductrice. Les grilles de lecture et les œillères calées sur une logique d’analyse par gamme, canal et silos (entrepôts de de données sédimentés) ne sont plus adaptées. Les effets conjugués de flux de données externes impactantes et la complexité à les synchroniser en temps réel, échappent complètement au data mining et à la business intelligence traditionnels. 

La Big Data Analytics rebattra les cartes du marketing. Lui permettra de changer de métrique pour s’attaquer au concept de granularité temps réel d’analyses prédictives. Ainsi, il est crucial de rappeler que la valeur ajoutée de la data dépend de la capacité de chaque organisation à être en mesure d’indexer et d’analyser en temps réel la data au regard de ses attributs de péremption (temps réel, géolocalisation).

Même la data a une date limite de consommation, antinomique avec des décisions marketing linéaires et génériques. La donnée est mutante, temps réel, comportementale, changeante, vivante. Elle n’a rien de défensive. Le consommateur est force de proposition : il modifie en temps réel la substantifique moelle de la donnée. L’extrême personnification de l’expérience client est en marche. Ainsi, la notion de granularité (en retail surtout) conférera à chaque point de vente un caractère local et particulier. Renforçant par là son autonomie et sa capacité de prise de décision, en prenant compte un champ contextuel qui lui est propre. Le contextuel alimenté en temps réel par des sources de données propres, montera en puissance. La Big Data contemporaine permettra de mieux connaitre en temps réel ses consommateurs. Permettra une interaction personnalisée.

Dès lors, force est de constater que les campagnes génériques trans-territoriales n’auront bientôt plus de sens. Nous verserons, à contrario vers les concepts de de micro-décisions opérationnelles. Le cycle analytique émerge : le marketing s’appuyait auparavant sur les analyses de vente, puis s’est intéressé à l’analyse comportementale armé de ses outils rudimentaires, naviguant à vue, bon pied, bon oeil, tel un Collin-Maillard. Désormais, les environnements techniques matures sont à disposition. Cette révolution de la productivité permettra d’amorcer la pompe de la modélisation comportementale ou encore du process de machine-learning. Ces mutations créent de nombreuses opportunités et usages dont tous les secteurs peuvent bénéficier. La puissance analytique bouleversera les méthodologies d’analyse et les problématiques métiers. Mettra en relief les corrélations statistiques cachées. Armé de cette nouvelle puissance analytique, la data prendra le pas sur le décisionnel arbitraire. Le taux d’attrition aura un nouvel ennemi identifié.

La donnée fiable et fraîche est exposée en étale. Reste aux organisations à l’exploiter avant que celle-ci ne soit faisandée. Cependant, toute organisation devra acquérir une philosophie de donnée, en comprendre les variations et en apprécier son périmètre local afin de mieux capter les tendances prédictives. C’est là que réside la notion de valeur de la data, d’accès croisé à l’information. Et qu’émergent les usages, formidables vecteurs de croissance.

En résumé, dans le paysage du maketing, la Big Data grâce à sa puissance analytique, ne se limitera pas à vérifier et corroborer une intuition (dite « boussole Collin Maillard ») mais deviendra le premier ressort d’aide à la décision et de décryptage des bases de données comportementales. Ne reste plus qu’à engager en interne le dialogue des usages. Le marketing connaîtra désormais l’ensemble de données qui impacteront le comportement d’achat de ses individus, grâce aux connecteurs de données exogènes, jusqu’ici minorées. Les grandes théories du marketing en pâtisseront.  


La profession en vogue et trendy c’est le job de data scientist, le métier le plus sexy et convoité de ces prochaines années.

On parle ici d’une nouvelle révolution technologique et d’un avènement de nouveaux champs applicatifs, qui nécessitent a fortiori de nouvelles fonctions.

 Autrefois cantonnée aux seules fonctions de business analysts ou d’informaticiens infrastructures, la manipulation de la donnée est désormais l’affaire de data scientists. Ces spécialistes de l’interprétation données sont amenés à jouer une partition vitale dans la définition des stratégies analytiques des organisations. 

Ainsi, nous assistons à un décloisonnement de la discipline de l’architecture, de l’analyse et de la représentation de la donnée. Cela nécessite une compréhension multi disciplinaire. Appréhender les enjeux holistiques et sociologiques. Revêtir simultanément le costume d’architecte, d’analyste et de programmateur algorithmique. 
Sans omettre la composante essentielle de la représentation visuelle. 

Mais en dépit d’environnements techniques fiables, la machine française est mal calibrée. Elle manque de charbon pour exprimer son potentiel analytique. Nous sommes spectateurs d’une pénurie et d’une carence cruelle de data scientists ayant une connaissance métiers, la demande devenant exponentielle. Mc Kinsey évalue à 1,5 million, le nombre de nouveaux emplois devant être créés autour de l’analytique et de manipulation multidimensionnelle. Avec en France, un besoin de 200 000 data scientists d’ici 5 ans. Nous possédons en France des formations qui excellent mondialement dans le domaine de la statistique et des traitements algorithmiques. Ces écoles n’offrent aucun cursus dédié qui puisse combiner analyse, développement algorithmique, statistique et design visuel. Aucun mastère autour d’Hadoop ou des bases NoSQL n’est enseigné à l’ENSAE, l’ENSAI et l'ISUP. 

Le manque latent avait pourtant était identifié. 


« Lorsque j’étais président du Conseil National du Numérique, j’ai voulu réunir six écoles de différentes natures autour d’une chaire consacrée au big data. Mais je n’y suis pas parvenu », témoigne Gilles Babinet. 
 Mal symptomatique gaulois : distorsion entre programme dispensé et le besoin des compétences identifiées en amont par les entreprises. 
Ainsi, la sphère académique, malgré ses atouts, n’a pas su anticiper le besoin de spécialistes qui savent manipuler l’information et jongler avec les index. De nombreux industriels déplorent cette pénurie. Le pipe de data scientists est à sec. Florian Douetteau, fondateur de Dataiku, société spécialisée dans les traitements big data, va dans le même sens : « Si, en France, nous excellons dans les domaines théoriques comme l’algèbre ou l’analyse, la statistique, elle, intervient trop tard dans les cycles universitaires. A la différence des Etats-Unis où elle est enseignée de manière très pratique, et ce dès le début des cursus ». 

Le tryptique entrepreneur - académique - sphère politique est nouvelle fois sévèrement amoché. As usual, les industriels ont attisé la dynamique. Posé les jalons. Développé de nouveaux environnements techniques et mis en exergue le potentiel de cette révolution numérique. Mais se retrouvent délaisser de ressources académiques et de compétences appropriées. 

Quant aux pouvoirs publics, reste à lui faire prendre conscience des enjeux sans limite de la data. Le numérique français dispose des potentiels académiques, entrepreneuriaux, créatifs pour se tailler une place de choix dans les applications analytiques et forer le nouvel or noir. Mais se heurte à la structuration de sa filière. Et à l’aversion de la sphère politico-académique à appréhender l’ampleur sans limites de ces enjeux. La convergence d’intérêts du tryptique est nécessaire. Vœu pieux ?



Les technologies analytiques prédictives ne sont pas péjoratives. Hier se posait la question des problématiques techniques, aujourd’hui celle des usages. Approprions-nous aujourd’hui ces champs et spectres d’application jusqu’ici insoupçonnés, concourant à la réduction de dépenses : machine-learning et intelligence artificielle des réseaux énergétiques, refonte des nouveaux protocoles de soins, avènement des processus de soins personnalisés, accélération de la recherche sur le cancer, nouveaux outils d’aide à la décision et collaboration pluridisciplinaire autour d’un diagnostic médical, organisation du trafic citadin en temps réel … La Big Data est mature et démocratisée. L’algorithmique parallèle et les connecteurs (permettant d’aller chercher et de synchroniser la data) sont dans les starting blocks. Arrêtons de limiter et de confier une nouvelle fois les nouveaux modèles de simulation analytique temps réel et prédictive aux seuls acteurs financiers et bancaires.

Aucun commentaire:

Enregistrer un commentaire