Chaque action que nous effectuons laisse une trace numérique… Cette phrase qui peut paraître surprenante est pourtant bien loin d’être totalement fausse. En effet, dès lors que nous utilisons notre smartphone, tablette ou ordinateur disposant d’une connexion au réseau, ce que nous en faisons directement ou ce qui en découle est donc susceptible d’être enregistré. Toutes ces mesures émanant en permanence des agissements de milliards de personnes représentent une masse colossale de données collectées chaque jour. A cela nous pouvons ajouter des entreprises industrielles qui enregistrent, à l’aide de nombreux capteurs, des données en temps réel dans leurs locaux, ou encore des sites dédiés à des expériences ou observations scientifiques qui génèrent là encore avec des outils comme les grands télescopes par exemple, de très grandes quantités de mesures. Tous ces appareils dans nos poches, sur nos bureaux, dans nos entreprises ont généré en quelques années plus de données que nous n’en avons jamais collecté depuis la nuit des temps. Seulement voilà, collecter des données c’est bien, mais il est indispensable de les analyser afin de pouvoir en extraire des informations importantes. Et le changement d’échelle concernant les quantités de données collectées et stockées a nécessité de réfléchir à de nouvelles manières de pouvoir les gérer et les traiter. Cette augmentation brutale de la quantité de données collectées grâce au réseau et aux nouvelles technologies de l’information a conduit à l’introduction, il y a un peu plus d’une vingtaine d’années, d’un nouveau terme plus adéquat pour les désigner. Le Big Data est né…
Définition du Big Data
La notion de Big Data est extrêmement vaste et il est relativement difficile d’en produire une définition précise. Le terme de Big Data, qui peut être traduit en français par mégadonnées ou encore données massives, désigne les masses extrêmement importantes de données collectées à chaque instant par de nombreux appareils et dans de nombreux domaines et dont la quantité notamment, mais également la diversité et la vitesse de production nécessitent la mise en place d’outils spécialement conçus afin de les traiter, de les analyser et d’en extraire des informations importantes. L’intérêt du Big Data est de pouvoir de manière automatisée, et ce grâce aux ressources informatiques qui sont aujourd’hui à notre disposition, exploiter de très grandes quantités de données afin de créer de la valeur et d’en dégager des connaissances que nous n’avions pu, faute de moyens, mettre en évidence jusque-là.
Les caractéristiques du Big Data
Le Big Data est régulièrement caractérisé par de multiples « V » désignant la première lettre de trois termes principaux auxquels on peut parfois en ajouter deux, trois voire même quatre autres. Commençons par celui qui caractérise l’essence même du Big Data à savoir le « Volume ». En effet, le terme de Big Data désigne d’abord la quantité de données qui sont collectées et ce volume de données suit une loi d’évolution quasi exponentielle de par le fait que nous soyons de plus en plus nombreux, que nous ayons de plus en plus d’appareils capables d’enregistrer des données et que le progrès technologique y soit sans cesse toujours plus favorable.
Ensuite, le Big Data est caractérisé par la « Variété » des données. Nous avons ici l’une des raisons pour lesquelles les Systèmes de Gestion de Bases de Données Relationnelles (SGBDR) derrière lesquels on retrouve le traditionnel langage SQL n’est plus adapté au traitement et à l’analyse de données Big Data. En effet, en plus d’être très nombreuses ces données rassemblées sont très différentes les unes des autres et semblent parfois n’avoir aucun lien entre elles. On dénombrera parmi elles du texte mais également du son, des images ou encore des vidéos qui viennent en permanence alimenter les bases. Et c’est là l’une des grandes forces du Big Data ! C’est d’avoir une telle variété dans les données collectées qu’il en devient possible d’extraire des relations entre une partie d’entre elles qu’intuitivement un traitement préalable effectué par un homme n’aurait pas pu imaginer.
La dernière caractéristique qui ne fait pas débat concernant le Big Data c’est la « Vitesse ». Comme nous l’avons évoqué précédemment, si la quantité de données à notre disposition double régulièrement c’est parce que nous collectons toujours plus de données mais aussi parce que nous les collectons toujours plus vite. Il devient alors nécessaire de mettre en place des outils qui peuvent non seulement traiter les masses de données du Big Data mais surtout les traiter extrêmement rapidement jusqu’à pouvoir le faire en temps réel.
De la précédente peut en découler une quatrième, il s’agit de la « Volatilité ». Avec la vitesse à laquelle les données sont collectées s’en suit naturellement des mises à jour de plus en plus fréquentes. Les données sont amenées, dans ce monde qui évolue très vite, à changer très rapidement et donc à devenir plus fréquemment obsolètes. La nécessité de leur analyse sans délai voire en temps réel est encore plus indispensable de par le fait qu’elles peuvent très rapidement perdre de leur valeur à cause de cette obsolescence.
Évoquons rapidement les autres caractéristiques que l’on peut attribuer au Big Data… D’abord, la « Véracité » notion qui est également propre au Big Data par rapport aux bases de données relationnelles évoquées précédemment et ce pour la simple raison que collecter des données en interne et en plus faible quantité favorise la fiabilité de ces dernières. Dès lors que vous collectez massivement des données depuis de nombreuses sources qui sont parfois extrêmement hétérogènes, le risque d’obtenir des données de très faible qualité augmente. Leur traitement est d’autant plus complexe que ces dernières sont caractérisées par leur manque de structure. Certaines sont semi-structurées et d’autres ne le sont pas du tout. Et afin de déduire des connaissances de ces données, la confiance en ces dernières est une condition sin e qua non à l’obtention de déductions valides. Dans le même thème, nous pouvons évoquer la « Validité » qui renvoie quant à elle plus à l’importance d’avoir des données qui, en plus d’être justes, soient adéquates et pertinentes pour les déductions que l’on souhaite générer.
Enfin, nous l’avons vaguement évoqué précédemment nous devons insister sur la « Valeur ». Il s’agit là du dernier élément indispensable sans lequel le processus de traitement des données du Big Data n’aurait que très peu de raison d’être. La valeur c’est ce que l’on veut dégager de ce traitement en obtenant des informations que l’on pourra exploiter à des fins commerciales ou encore scientifiques. De ce fait, la nécessité d’obtenir un traitement des données efficace et performant dans le but d’assurer que les déductions issues de ce processus soient fiables et justes est incontournable.
Les sources du Big Data
Nous avons parlé des masses colossales de données qui sont collectées à chaque instant et qui sont l’essence même du Big Data. Mais d’où viennent concrètement ces données ? Même si nous avons déjà cité quelques-unes de ces sources, voyons un peu plus en détail tous les supports d’acquisition de ces mégadonnées.
Commençons par peut être la source d’acquisition la plus évidente, c’est sans doute les réseaux sociaux. Facebook ou Twitter en tête sont probablement les organisations qui sont entrées parmi les premières dans l’ère du Big Data. Et pour cause, les quantités de messages, de publications, de commentaires ou de données personnelles publiées chaque jour par les millions voire les milliards d’utilisateurs de ces services constituent un vivier d’informations colossal. Pour ces entreprises, leur stockage fait partie de la prestation de service fournie à leurs utilisateurs. Il s’est alors imposé comme une évidence que de trouver des moyens de les exploiter.
Une autre source d’acquisition des données est sans nul doute les entreprises. Nous l’avons précédemment évoqué, la présence de capteurs visant à évaluer l’état de fonctionnement des machines industrielles, ou encore l’ensemble des données commerciales et financières générées par les grandes entreprises ainsi que les données personnelles de leurs clients, constituent autant de bases qui s’étoffent heures par heures. La grande distribution notamment produit des masses colossales de données de par les milliers de tickets de caisse produits et enregistrés chaque minute.
Mais le Big Data c’est aussi les quantités démentielles de données que nous produisons tous chaque jour par l’utilisation de nos smartphones. Nous nous déplaçons avec nos petits appareils présents en permanence dans nos poches. Équipés de puces GPS et d’accéléromètres, il est possible à quiconque exploiterait les données transmises par ces téléphones de connaître la position de l’appareil et par voie de conséquence de son propriétaire à tout instant. De plus, ces smartphones étant en permanence connectés sur le réseau téléphonique, il est parfaitement possible de connaître une position approximative de l’appareil par les antennes relais qui sont déclenchées. Pour chaque appel que nous passons, ou SMS que nous envoyons, les numéros mis en jeu, mais également la durée lorsqu’il s’agit d’appels, sont également enregistrés et conservés par les opérateurs.
Mais internet en général produit également une masse colossale de données. Commençons par les requêtes effectuées sur les moteurs de recherches qui sont une source non négligeable d’informations. Notons également le trafic sur les différents sites web qui sont tracés en permanence par l’enregistrement des adresses IP, identifiant les différents appareils connectés sur les réseaux, mais également par les cookies enregistrés sur les espaces de stockage des appareils de navigation des internautes et ce afin de suivre leur trajet sur la toile. Mais on peut aller encore plus loin en enregistrant le temps passé sur les différentes pages, les zones de l’écran sur lesquelles passe la souris voire même les éléments interactifs qui sont cliqués par les visiteurs. Précisons que nous ne faisons pas ici la distinction entre les données qui sont collectées avec votre autorisation pour des raisons légales et celles qui ne le nécessitent pas.
La liste ne s’arrête pas là, mais nous avons vu ici quelques-unes des sources qui sont fortement génératrices des données pour le Big Data. Dans le même ordre d’idée que les réseaux sociaux, notons l’ensemble des plateformes en ligne de diffusion d’images ou de vidéos comme peuvent l’être Youtube ou encore Twitch. Mais toutes ces données collectées ne le sont pas et ne doivent pas l’être en vain. Voyons un peu quels usages peuvent être faits du Big Data…
Le Big Data, pour quoi faire ?
Vous l’aurez compris, la finalité du Big Data c’est d’exploiter l’ensemble des données recueillies afin d’en extraire des connaissances pouvant servir par la suite à des prises de décisions. Alors qu’elles peuvent être plus précisément les utilités du Big Data ? Comme pour les diverses sources de données que nous avons détaillées, nous ne pourrons pas citer l’ensemble des secteurs et sujets potentiels qui bénéficient déjà ou pourraient bénéficier dans le futur des technologies du Big Data tant là encore les usages possibles sont nombreux et vastes. Cependant, il est possible de lister quelques-uns de ceux-là et que l’on pourrait classer parmi les principaux…
Commençons par les entreprises… Si ces dernières recueillent des données en interne comme nous l’avons vu mais cherchent également à obtenir des données provenant de l’extérieur, c’est avant tout pour des raisons commerciales et financières. Collecter des données sur leurs clients et sur leur comportement a pour but premier de comprendre ce qui les intéresse et comment ils fonctionnent. L’objectif ultime étant d’adapter l’offre afin de la calquer sur ce qui a le plus fort potentiel de générer des ventes. On peut même aller plus loin en dressant les divers profils de clients et en s’adressant à chacun de manière personnalisée afin encore une fois de les fidéliser et d’augmenter le volume de ventes. Les entreprises industrielles, nous en avons parlé, collectent, par l’intermédiaire de capteurs, des données sur leur appareil de production. Ceci a pour but de le maintenir sous surveillance afin d’anticiper les éventuels risques de panne. Utiliser à bon escient les technologies du Big Data, c’est avant tout avoir un coup d’avance…
D’autre part, il nous faut détailler l’usage du Big Data en ce qui concerne la géolocalisation des utilisateurs de smartphones. Elle permet par exemple de proposer des offres promotionnelles spécifiques disponibles dans un magasin ou une boutique dès lors qu’un client est localisé à proximité. Elle permet également de connaître la fréquentation de certains lieux qui ne disposent pas d’un système de comptage des visiteurs comme l’ont les musées notamment pour lesquels on peut comptabiliser aisément le nombre d’entrées vendues. La géolocalisation permet aussi de connaître les habitudes des consommateurs et ainsi leur proposer par exemple des offres commerciales sur des produits de bricolage si on les localise régulièrement dans des magasins dédiés à la vente de ce type de produits. Avec les systèmes de géolocalisation, on peut savoir aisément si vous vous déplacez souvent ou très peu. Là encore, cela permet d’en savoir un peu plus sur vous et vos habitudes.
Nous avons parlé dans la section précédente des données collectées notamment par l’enregistrement des requêtes effectuées par les internautes sur les moteurs de recherche. Ces dernières sont une mine d’or permettant de connaître les tendances de ce qui les intéresse et des sujets à la mode par exemple. Mais ce n’est pas tout… Ces données permettent aussi d’obtenir des informations avec un grand niveau d’anticipation. Leur analyse permet notamment lors d’une recrudescence des requêtes concernant les symptômes de certains virus comme celui de la grippe d’anticiper l’arrivée d’une épidémie par exemple. Mais cela nous ramène à nouveau aux intérêts commerciaux des entreprises puisque l’exploitation des sujets recherchés permet de dresser votre profil et par la suite de vous soumettre des offres commerciales en rapport avec eux puisqu’ils sont supposés vous intéresser.
Poursuivons dans cette section par les données recueillies sur les réseaux sociaux. Là encore les intérêts commerciaux sont omniprésents et permettent de rassembler des données précieuses sur les utilisateurs. Entre les données des profils, les mentions « j’aime » qui déterminent les centres d’intérêt et jusqu’au visionnage de certaines catégories de vidéos sur Facebook Watch – qui permettent quant à elles d’augmenter les revenus publicitaires générés en vous soumettant simplement des vidéos similaires ayant plus de chance d’être elles aussi visionnées – toutes ces données de comportement ont pour but de cibler le plus précisément possible les offres commerciales proposées afin d’optimiser leur efficience. Les régies publicitaires, notamment celle de Google, utilisent les mêmes procédés pour les encarts proposés sur les sites internet mais aussi sur des services qu’ils proposent eux-mêmes comme la messagerie Gmail par exemple. Tous les commentaires et groupes rejoints sont autant d’informations permettant d’affiner notre profilage. Les algorithmes de recommandation comme ceux de YouTube ou Netflix par exemple ont eux aussi le même principe de fonctionnement en associant un compte au comportement de son propriétaire. Ceci a pour but d’augmenter la consommation du service et la fidélisation des utilisateurs et ce en améliorant sans cesse l’adéquation du contenu qui est soumis par la simple analyse des contenus déjà consultés.
A ce stade, il est aisé d’avoir l’impression que le Big Data ne peut être qu’au service des grandes puissances commerciales et utilisé partiellement au détriment des consommateurs. Mais les usages du Big Data sont bien plus larges à commencer par la médecine. En effet, la collecte de données concernant les patients malades peut par exemple permettre de mieux comprendre quelles sont les caractéristiques intrinsèques permettant d’identifier la présence d’une maladie voire même de pouvoir anticiper sa survenance. On peut aussi, lors de catastrophes naturelles comme les incendies majeurs ou les séismes par exemple, analyser les informations partagées sur les réseaux sociaux ou échangées dans des messages privés dans le but de concentrer les services d’assistance et les secours aux endroits où ils seront le plus utiles.
Et le Big Data peut aussi rendre de véritables services, par exemple en exploitant les données de circulation afin d’identifier les ralentissements ou les bouchons et ainsi faire gagner du temps à d’autres utilisateurs en proposant des itinéraires alternatifs. Mais il y encore plus intéressant dans ce cas là… N’oublions pas que diminuer les bouchons c’est diminuer le temps passé dans sa voiture et donc par conséquent le temps de fonctionnement des moteurs. Ainsi, nous diminuons le niveau de rejet de particules polluantes et de gaz à effet de serre dans notre atmosphère. Toujours dans le domaine de l’écologie, les données du Big Data peuvent également permettre lorsqu’il s’agit des consommations énergétiques d’infrastructures très gourmandes, comme les data center par exemple, de dégager les périodes où les serveurs sont moins sollicités et donc où il serait possible de les mettre en veille voire carrément de les éteindre pour limiter leur consommation globale en énergie. Et l’usage du Big Data pour des raisons écologiques peut aussi être envisagé pour optimiser la production d’énergie, notamment en évaluant en fonction des besoins et des ressources la répartition de la production par le biais de sources renouvelables et celle faisant intervenir des combustibles fossiles.
Nous avons fait le point ici sur ce que peut être le potentiel du Big Data mais de nombreux autres sujets sont déjà à l’étude et d’autres encore seront très probablement découverts dans un avenir plus ou moins lointain. Mais, nous l’avons déjà dit, le traitement de toutes ces données nécessite le déploiement de technologies bien particulières qui se différencient significativement des systèmes utilisés dans l’exploitation de bases de données traditionnelles. Voyons alors un peu plus en détail quelles sont ces technologies ?
Les technologies du Big Data
Difficile de parler du Big Data sans parler d’intelligence artificielle et de machine learning. Nous n’allons pas reprendre ici en détail la présentation de ces principes et notamment celui du machine learning, mais plutôt évoquer rapidement comment ceux-ci s’intègrent dans les analyses de données du Big Data. Si vous souhaitez en savoir plus sur ces méthodes d’apprentissage automatique, nous vous invitons pour cela à consulter notre article L’intelligence artificielle.
Les données présentes dans des systèmes de bases de données relationnelles sont liées entre elles par des… relations. Il est donc possible d’extraire des données avec un langage de requête en utilisant ces liens. Les bases de données Big Data sont bien plus massives et surtout sont généralement non structurées ou seulement semi-structurées ce qui signifie qu’il n’y a pas ou peu de liens entre les tables ou les données elles-mêmes. C’est là que le machine learning intervient… Ces algorithmes vont alors être chargés d’exploiter ces masses de données afin d’établir eux-mêmes ces relations manquantes pour en déduire des corrélations et de nouvelles connaissances. Là est la fameuse valeur dont nous avons déjà parlé plus tôt.
D’autre part, la taille des bases de données rend parfois difficile leur traitement par un seul appareil et il est parfois nécessaire de coordonner le travail de plusieurs ordinateurs ou serveurs afin d’effectuer une tâche spécifique sur les données, comme par exemple le décompte du nombre d’apparition d’une ou plusieurs chaînes de caractères dans d’immenses quantités de données textuelles. Certains outils comme Hadoop et leurs modules permettent ainsi de coordonner les ressources informatiques afin d’accélérer le processus de traitement. Pour ce faire, ces outils vont par exemple faire le choix de diviser les datasets en de multiples bases de données plus petites qui vont être traitées individuellement par chaque appareil, aussi appelé nœud. Une fois le travail effectué par chacun d’entre eux, l’outil de coordination va se charger de rassembler les résultats afin de l’obtenir sous la forme qui aurait été la sienne s’il avait été effectué par un seul appareil. Dans notre exemple simple, il s’agit d’ajouter les totaux obtenus par chacun des nœuds sur sa partie. Le rôle de l’outil qui coordonne l‘opération est également d’allouer de nouvelles ressources de traitement s’il s’aperçoit que l’un des appareils dédiés à cette tâche subit une défaillance. Il s’agit ici naturellement d’un exemple simplifié et les manières d’effectuer ces processus peuvent être très diverses. Cette dernière ne serait pas nécessairement adaptée à l’ensemble des tâches qu’il est possible de réaliser sur des datasets volumineux.
Vous l’aurez compris, le sujet du Big Data est extrêmement vaste, tant par les sources d’obtention des données toujours plus nombreuses, que par les applications permettant de les exploiter en passant par les outils pour effectuer ces traitements. Même si certains considèrent le Big Data comme manquant d’éthique car rassemblant aussi des données personnelles et privées parmi la masse de celles qui sont collectées, les bénéfices qui peuvent être tirés de certaines de ces données s’avèreront à coup sûr très importants dans des domaines comme celui de l’écologie ou de la médecine.
« Data is not information, information is not knowledge […] »
Clifford Stoll
Même si la donnée n’est pas de la connaissance, aujourd’hui, et c’est la raison pour laquelle nous sommes de plus en plus nombreux à en collecter massivement, le modèle économique des sociétés du numérique est basé sur leur acquisition. Il y a donc fort à parier qu’à l’avenir la maitrise de la capacité à collecter des données combinée à celle de pouvoir les exploiter correctement et en extraire des informations pertinentes soient l’un des enjeux majeurs. Dans tous les cas, l’association des mégadonnées avec l’intelligence artificielle devrait être pour nous tous une source de révolution majeure de ces prochaines années.
Thanks for sharing. I read many of your blog posts, cool, your blog is very good.
Keep up the fantastic work! Kalorifer Sobası odun, kömür, pelet gibi yakıtlarla çalışan ve ısıtma işlevi gören bir soba türüdür. Kalorifer Sobası içindeki yakıtın yanmasıyla oluşan ısıyı doğrudan çevresine yayar ve aynı zamanda suyun ısınmasını sağlar.
The factory’s uPVC fittings are designed with meticulous attention to detail, ensuring secure and tight connections that minimize the risk of leaks or failures. Elitepipe Plastic Factory