
Le Big Data est-il nécessaire pour le Machine Learning ?
Introduction
Les termes « Big data » et « Machine Learning » sont souvent utilisés ensemble, car, dans l’informatique moderne, ils sont étroitement liés. Le Machine Learning, pour bien performer, nécessite de grandes quantités de données d’entraînement, d’autant plus lorsque des algorithmes de Deep Learning sont utilisés. C’est là que le Big Data entre généralement en jeu, même si nous verrons que le Big Data ne désigne pas seulement une grande quantité de données. Quels sont alors précisément les liens entre le Big Data et Machine Learning ? Le Machine Learning peut-il se passer du Big Data ? On vous en dit plus !

Big Data et Machine Learning : de quoi parle-t-on ?
Avant toute chose, définissons ces concepts qui désignent deux réalités distinctes.
Le Big Data, c’est quoi ?
Définition
Le Big Data, ce sont des données très volumineuses, difficiles à stocker et qui ne peuvent pas être traitées manuellement avec les systèmes traditionnels de base de données. Le terme de Big Data regroupe généralement un ensemble de données structurées (comme des bases SQL) et non structurées (comme des images).
Le Big Data ne désigne donc pas simplement une grosse base de données. En effet, certaines bases sont très grosses, mais sont facilement stockables et traitables sur certains outils, comme Jupiter Notebook. Il est aujourd’hui possible de collecter des quantités de données importantes grâce notamment au Cloud, qui regroupe des informations auprès d’utilisateurs du monde entier.
Le paradigme des 5V
Derrière le concept de Big Data, se cache l’idée que des données au format varié sont désormais stockées et traitées dans des volumes toujours plus grands, et à une vitesse qui ne cesse d’augmenter. On parle alors souvent de cinq éléments clés à appréhender et à optimiser pour bien utiliser le Big Data, les 5 V :
- le volume, représentant la quantité de données ;
- la vélocité, correspondant à la vitesse pour générer et déplacer les données ;
- la variété, soit la diversité des types de données, des sources ;
- la véracité, c’est-à-dire le niveau de confiance envers les données collectées ;
- la valeur que peuvent apporter les données pour les organisations.
Le Machine Learning, c’est quoi ?
Le Machine Learning (ML), ou apprentissage automatique en français, désigne le processus permettant aux ordinateurs de développer la reconnaissance de schémas ou l’aptitude à apprendre continuellement sans avoir été programmés pour. Ils s’appuient pour cela sur des algorithmes très évolutifs.
Il est souvent utilisé pour faire des prédictions à partir d’observations, et à faire de l’automatisation. C’est un outil de Business Intelligence très utilisé par les entreprises pour maîtriser leurs coûts, améliorer leurs stratégies marketing, faire de la détection d’anomalie, de la maintenance prédictive…
Comment le Machine Learning s’appuie-t-il sur le Big Data ?
L’enjeu de la taille des données
Les algorithmes de ML sont souvent entraînés sur de grands ensembles de données afin de faire des prédictions précises. Utiliser davantage de données permet de limiter le phénomène d’overfitting, ou surapprentissage. L’overfitting est un modèle qui s’est trop spécialisé aux données d’entraînement, et se généralise mal sur de nouvelles données. Plus on lui donne des données, plus on lui permet de capter des schémas flexibles dans les données pour prendre en charge davantage de conditions, ce qui améliore la justesse des prédictions.
Ce que le Big Data apporte au Machine Learning
Une taille quasi illimitée : les V de Volume et de Vélocité
Le Big Data fournit la quantité de données d’entraînement nécessaire à un algorithme d’apprentissage automatique. Ces grands volumes permettent d’améliorer la précision des algorithmes en fournissant des informations supplémentaires sur les données.
Par exemple, on stocke généralement stockées de très grandes quantités de données historiques, cruciales pour la bonne prédiction. Ainsi,
- les données historiques d’un cours de bourse, par exemple, permettent de prédire l’évolution d’une action,
- ou celles sur le comportement historique des consommateurs permettent de prédire la réaction à un nouveau produit.
Des données de différents types : le V de Variété
L’un des 5 V du Big Data est la variété, et par cela on entend notamment la variété des types de données : structurées (comme les bases de données relationnelles, de type SQL), semi-structurées ou non structurées (comme les images, ou encore les données issues de capteurs).
Ces différents types peuvent être exploités ensemble au sein d’algorithmes de Machine Learning, là où des structures en réseau peinent davantage à stocker des données aux formats si hétérogènes.
Les V de valeur et véracité
Une exigence de qualité accompagne les données de Big Data. Or, les données de qualité sont vitales aux algorithmes de ML. Les valeurs manquantes ou erronées abaissent la performance du modèle, car elles lui font apprendre des schémas incomplets ou faux, qu’il voudra ensuite reproduire.
De plus, les données du Big Data visent en priorité à apporter de la valeur aux organisations. On construit alors des modèles sur des données pertinentes, aptes à apporter de réels business insights.
Ce que les plateformes de Big Data apportent au Machine Learning
Le Big Data a pu se développer grâce à l’essor de l’architecture en Cloud, au détriment des architectures en réseau qui ne supportent plus les exigences croissantes liées aux techniques d’analyse avancées et au Machine Learning.
Les bénéfices de l’architecture en Cloud
Cette organisation du Big Data en Cloud a bénéficié au ML sur plusieurs niveaux. Les environnements distribués des systèmes de Cloud ont par exemple permis d’améliorer la performance des modèles, en évitant les goulots d’étranglement et les silos de données.
En second lieu, les plateformes Cloud prennent en charge le traitement automatisé des données. Grâce à cette automatisation et l’apport des Data Scientists, la précision et l’efficacité des systèmes de données ont augmenté très rapidement. Enfin, le Big Data repose sur de hautes performances de calcul. Le matériel et les logiciels optimisés, le traitement automatisé, la nouvelle organisation des données, et la mise à l’échelle immédiate ont permis de voir se développer exponentiellement l’apprentissage automatique.
Une réelle symbiose
En définitive, le Cloud permet de faire émerger des systèmes de traitement de données de plus en plus vastes, complexes et rapides, sur lesquels reposent les algorithmes de Machine Learning.
C’est donc une réelle symbiose entre ces deux systèmes : le Machine Learning nécessitant toujours plus de puissance de calcul et de données a favorisé l’essor du Cloud et du Big Data, et ceux-ci ont en contrepartie permis des progrès significatifs pour les algorithmes.
Peut-on se passer du Big Data pour faire du Machine Learning ?
Du Machine Learning sans Big Data
Si nous avons vu qu’une certaine quantité de données est généralement nécessaire à la bonne performance des algorithmes, il importe de distinguer Big Data et grande taille de données.
Le Big Data permet, certes, de capter un grand volume de données, rapidement et avec une bonne fiabilité, mais celui-ci n’est pas intrinsèquement nécessaire au ML. On peut alors simplement travailler sur un important dataset, qui ne correspond pas aux paradigmes du Big Data, et qui n’est pas stocké sur le Cloud.
Il est même possible de faire de l’apprentissage automatique avec un dataset de relative petite taille. Ainsi, le site de compétition de ML Kaggle, propose très souvent des dataset assez petits. Par exemple, son célèbre challenge Titanic s’appuie sur un jeu de données comprenant seulement 2224 lignes, nombre de passagers du célèbre paquebot.
Des cas particuliers
Certains algorithmes de ML nécessitent, par essence, peu de données. C’est par exemple le cas de l’apprentissage actif, qui repose sur un ensemble de données étiquetées réduit, ou encore de l’apprentissage incrémental (ou online), qui apprend progressivement avec des parties des données.
Les modèles d’apprentissage par renforcement n’ont également pas forcément besoin d’un cadre de Big Data, puisqu’ils s’appuient sur des essais/erreurs pour apprendre.Au contraire, le développement récent d’algorithmes très puissants de Deep Learning nécessite la plupart de temps de se reposer sur le Big Data. Ces algorithmes s’appuient la majorité du temps sur d’énormes volumes de données qui sont souvent non structurées, et donc plus facilement stockées sur les plateformes de Big Data.
Conclusion
Big Data et Machine Learning ne sont alors pas des concepts concurrents, mais très souvent complémentaires. Une optimisation réussie des cinq « V » du Big Data contribue à rendre les modèles d’apprentissage automatique plus précis et plus puissants.
Les approches Big Data améliorent les performances du ML en fournissant aux équipes d’analyse les quantités de données pertinentes et de haute qualité nécessaires à l’élaboration de ces modèles.
Notons cependant que les données Big Data sont souvent difficiles à analyser et à comprendre, et sont coûteuses à stocker et à gérer. Sans l’infrastructure de stockage appropriée, le Big Data peut devenir très compliqué, d’autant plus qu’il n’est pas toujours nécessaire pour les algorithmes de Machine Learning !
Chez ALLONIA nous sommes conscients de ces enjeux et c’est pourquoi nous vous proposons des solutions clés en main pour vous aider à optimiser vos projets d’intelligence artificielle.
ALLONIA est une plateforme d’IA, 100 % ouverte, sécurisée et collaborative, basée sur des techniques de Federated Learning. ALLONIA permet de déployer les projets Data en quelques clics et de faciliter le partage des données et des modèles entre les équipes internes, ainsi qu’avec les partenaires et les clients.