« Les big data,
littéralement les ‘grosses données’, ou mégadonnées,
parfois appelées données massives
désignent des ensembles de données qui deviennent tellement volumineux qu'ils en
deviennent difficiles à travailler avec des outils classiques de gestion
de base de données ou
de gestion de l'information. » (Wikipédia, 2014). Voilà la définition du big
data, tirée de Wikipédia dont le terme a été utilisé pour la première fois
en août 1999 dans un article publié dans le Communications
of the ACM par Steve Bryson, David Kenwright, Michael Cox, David Ellsworth
et Robert Haimes. C’est seulement au cours des dernières années que le big data a pris de l’ampleur dans notre
quotidien et que son utilisation a connu une expansion dans plusieurs aspects
de la société.
Le
big data est un concept
impressionnant; on estime qu’il y a actuellement autant d’information digitale
que d’étoiles dans le ciel, et 70 % de cette information provient des citoyens.
En 2012 seulement, la collection des informations a augmenté de 400 %.
C’est
en prenant connaissance, lors du cours Nouveaux médias et de lectures
intéressantes sur le big data, que je
me suis aperçue que j’étais un peu aveugle à ce concept qui prend de plus en
plus d’espace dans notre société. J’ai choisi de lire le livre de Mayer-Schönberger
et Cukier intitulé Big
Data : A Revolution That Will Transform How We Live, Work, And Think.
Le big
data, comme le mentionne le titre, a révolutionné nos façons de faire et
d'analyser l'information dans de nombreux domaines, dont le marketing, la
science et les communications. Ce livre est vraiment bien écrit; il est rempli
d’exemples, d’anecdotes et de détails. Trois concepts du big data discutés dans le livre m’ont particulièrement touchée lors
de ma lecture, soit l’utilisation quotidienne et son impact, la valeur cachée
du big data et les risques associés à
son utilisation.
Une compréhension
générale du big data
Dès
les premières pages du livre, Mayer-Schönberger et Cukier se positionnent sur
ce qu’est le big data :
« There is no rigorous definition of big data. Initially the idea was
that the volume of information had grown so large that the quantity being
examined no longer fit into the memory that computers use for processing, so
engineers needed to revamp the tools they used for analyzing it all...One way
to think about the issue today -- and the way we do in the book -- is this: big
data refers to things one can do at a large scale that cannot be done at a
smaller one, to extract new insights or create new forms of value, in ways that
change markets, organizations, the relationship between citizens and
governments, and more. » (Mayer-Schönberger
et Cukier, 2013, p. 6).
Tout au long du livre, Mayer-Schönberger
et Cukier essaient de déterminer la définition du big data en présentant un historique et de nombreuses utilisations
qui ont encouragé le développement et l'utilisation diverse du big data dans notre quotidien. Les trois
premiers chapitres couvrent trois éléments importants du big data, le maintenant (now),
l’augmentation d’information (more)
et le désordre (messy). Premièrement,
le « maintenant » démontre l’importance de traiter rapidement de
l’information pour rester compétitif et à l’affût des tendances. Ce n’est plus
un choix ou un avantage, c’est un atout pour réussir. Deuxièmement, le montant
d’information stocké, couvrant tous les sujets et sphères imaginables, est en
constante expansion. Il y a plus d’information à entreposer, à classifier et à
analyser. Troisièmement, en raison de cette quantité surabondante d’information
à analyser, il faut s’attendre à un certain niveau d’inexactitude. La qualité
de contrôle est différente car il est plus difficile de mettre en place des
procédures claires lors de l’analyse de big
data.
Ces
trois concepts poussent la société à changer son idéologie puisque les
nouvelles méthodes d’analyse changent la façon de comprendre et d’organiser
notre information. Les préoccupations de qualité sont moins importantes avec
une quantité d’information supérieure; les possibilités et les limites
changent. Tel que mentionné par Mayer-Schönberger et Cukier, l’analyse de plus
d’information est plus importante puisque nous nous rapprochons de la réalité :
« Big data, with its emphasis on comprehensive datasets and messiness, helps us
get closer to reality than did our dependance on small data and accuracy. » (Mayer-Schönberger et Cukier, 2014, p. 48).
Plusieurs
exemples viennent appuyer les explications de ces trois concepts. Observons le
système de traduction de Google, qui a été des plus innovateurs en utilisant
tout le contenu du Web, bon et mauvais, de qualité ou de source réfutable. Ceci
lui a permis d’avoir accès à une plus grande base de données pour son système.
Ce fut un processus de ‘désordre’, mais avec la quantité d’information, le
résultat a été la création de la plus grande banque de mots sur le Web.
La valeur cachée de l'information
« Data's true value is like an iceberg floating in the ocean. Only a
tiny part of it is visible at first sight, while much of it is hidden beneath
the surface. » (Mayer-Schönberger
et Cukier, 2013, p. 103). Cette citation
de Mayer-Schönberger et Cukier définit très bien l’importance de bien choisir,
comprendre, analyser et présenter le big
data. Ceux qui savent bien faire l’analyse pour atteindre leurs objectifs
peuvent grandement en tirer profit. Il suffit de penser aux nombreuses
entreprises qui ont utilisé le big data à
leur avantage et qui ont développé des modèles d’affaires qui priorisent
l’innovation. Les deux plus grands joueurs détaillés dans le livre de
Mayer-Shönberger et Cukier sont EBay et Google car ils ont su, comparativement
à leurs compétiteurs, choisir et utiliser le big data pour stimuler leur croissance.
Le
livre met l’accent sur l’importance de la réutilisation du big data, qui est presque aussi importante que l’utilisation des
qualités primaires, c’est-à-dire que de savoir utiliser l'information des
autres est un bénéfice. Un exemple présenté est celui d’Amazon, qui avait signé
une entente avec AOL pour connaitre les
habitudes de consommation des visiteurs de ce dernier. En ayant cette
information, Amazon pouvait ainsi proposer des achats à ces visiteurs; AOL ne
croyait pas qu’Amazon pouvait en bénéficier ainsi. Amazon est toujours en bonne
forme, tandis que AOL a perdu beaucoup de vapeur.
Finalement,
un autre concept expliqué est que l’information peut perdre sa valeur. Il est
important de conserver de l'information, mais il faut la renouveler continuellement
pour bien représenter le quotidien. Toutes les informations ont une durée de
vie différente, certaines plus longue que d’autres. Google est encore mentionné
ici puisque dans le cas de son dictionnaire, l’information n’expire
jamais. Grâce au cumul d’information
vaste et continue, Google offre le meilleur outil de révision et de traduction.
Il offre aussi de nombreux programmes comme GMail, Google Docs, Google Plus,
etc.
Le
chapitre termine en soulignant l’importance que le big data peut avoir afin d’ouvrir les barrières à l’information.
Barack Obama est nommé comme un leader qui appuie l’ouverture et le partage, une
idéologie qui est en pleine croissance.
Les risques du big data
Selon
les auteurs, les risques du big data
pour la communauté n’est pas le cumul d’information primaire, mais bien de
l’information secondaire. Avec le big data, les trois principes pour assurer la
vie privée des gens dans la collecte primaire de l’information, soit le
consentement, la possitilité de retrait (opt
out) et l'anonymat ont perdu beaucoup de leur impact. Souvent, au moment de
la cueillette d’information primaire, l’utilisation secondaire des données
n’est pas connue, donc les populations ne sont pas informées.
Les
auteurs parlent longuement de la collecte d’information des gouvernements sur
ses citoyens. Avec le big data, il
est beaucoup plus facile de surveiller et de s’infiltrer dans certaines
situations. Il peut y avoir des avantages, comme la prévention d’un crime ou
d’une épidémie, des banquiers peuvent mieux analyser les fluctuations, etc. Les
gouvernements assurent une surveillance beaucoup plus pointue sur ses citoyens,
ce qui peut être un avantage pour la société, mais les auteurs offrent une piste
de réflexion par rapport aux risques: « What turns it into a weapon of
dehumanization is a shortcoming, not of big data itself, but of the ways we use
its predictions. » (Mayer-Schönberger et
Cukier, 2013, p. 162).
Google : Chef de fil en innovation
Le livre faisant souvent référence à Google comme étant un
des initiateurs du big data, la
compagnie qui maîtrise le mieux l'analyse et l'utilisation de l’information
pour ses propres gains, j'ai voulu en apprendre davantage sur cette compagnie
et son fonctionnement.
Google
est probablement la compagnie qui traite la plus grande quantité d'information
de par ses multiples filiales et initiatives; nous pouvons penser à Google
Maps, Google+ et Google Books pour en nommer que quelques-unes. Certains disent
même que Google précède la vague technologique de plusieurs années de par son
innovation. Pour rester chef de file, Google a compris qu'il faut créer une
ouverture et un partage de l'information; bref il faut de la compétition pour
être considéré le meilleur. Pour se créer une compétition et ainsi rester le meilleur,
Google a mis à la disposition des compagnies un service d'analyse de big data sur le nuage web, BigQuery, qui initialement était offert gratuitement.
Dans le livre What Would
Google Do?, l’idéologie Google est résumée en quelques mots : « At
Google, we are God and our data is our Bible. It’s through data generated by
our activity that Google listens to what we want, prefer, and need.» (Jarvis,
2008, p. 87). Dans cet aspect, Google est toujours dix pas devant ses
compétiteurs. Une simple recherche sur Twitter avec les mots clics #google et
#bigdata permet de ressortir des centaines de nouvelles, d’articles et de
contenu sur les avancées technologiques de Google en lien avec le big data.
Conclusion
En
somme, le big data nous permet de
mieux comprendre et d'analyser notre environnement. Notre façon de faire change
et le big data deviendra partie
intégrale de notre quotidien, tant pour faire des prédictions sur la condition
des routes, les résultats d’élection, le moment le plus avantageux pour un
achat et les méthodes d’éviter le prochain rhume.
Les
possibilités du big data sont
infinies et ce, depuis 1999, où le terme a pris naissance et dont la définition
est en constante évolution. Certes, ceux qui apprennent à bien utiliser le big data seront les grand joueurs de
demain. Dans mes recherches et mes lectures, le big data entoure souvent des compagnies, une révolution
technologique au profit de grandes entreprises. Par contre, quel est l’impact du
big data concrètement sur mon
quotidien? J’ai encore plein de questions sur l’utilisation de l’information
recueillie grâce au big data.
Grâce
à l’information recueillie à mon sujet,
est-ce que n’importe qui peut connaître mes déplacements, mes goûts, mes
préférences? Comment ces données seront-elles utilisées au cours des prochaines
années? Y aura-t-il des retombées positives ou négatives sur ma personne?
|
Le buzz autour du big data est en constante croissance! Cette infographie tiré du site de IBM présente l'ampleur du big data aujourd'hui. Repérée à http://www.ibmbigdatahub.com/infographic/tuning-big-data-buzz-gets-louder) |
_________
Références :
JARVIS, Jeff, What Would Google
Do?, HarperCollins, 2009.
MAYER-SCHONBERGER, Viktor and CUKIER, Kenneth, Big Data: A Revolution That Will Transform How We Live, Work, and Think,
Eamon Dolan/Houghton Mifflin, 2013.