Datascience pour les managers

Partie 1
Chapitre 8 sur 8
Partie 1 – Comprendre la data science

Choisir une solution de Machine learning

Panorama des solutions de data science et de machine learning

Résultat de recherche d'images pour "big data landscape 2019"

cliquez sur ce lien pour agrandir l’image

Quelques outils

L’intelligence artificielle est une technologie toujours plus convoitée par les entreprises de tous les secteurs. Malheureusement, sans les experts qualifiés, il est souvent difficile d’apprivoiser l’IA.

Par chance, il existe de nombreuses solutions dites ” self-service “ conçues pour les utilisateurs qui ne bénéficient pas de compétences techniques. Découvrez les outils de Machine Learning pour lesquels vous n’avez pas besoin d’être Data Scientist.

IBM Watson

Watson est un programme informatique d’intelligence artificielle conçu par IBM dans le but de répondre à des questions formulées en langage naturel. Il s’intègre dans un programme de développement plus vaste, le DeepQA research project.

BigML

BigML est un service de Machine Learning basé sur le Cloud. Il peut être utilisé pour la prise de décision data-driven dans les applications, et ne requiert pas d’expertise technique. Ainsi, cette solution peut être utilisée à la fois par les Data Scientists et les autres employés de l’entreprise.

En 2018, BigML s’est enrichie d’une nouvelle fonctionnalité intitulée ” Organisations “. Celle-ci permet aux entreprises d’adopter le Machine Learning à travers toute leur organisation. Ainsi, le tableau de bord du logiciel peut désormais faire office d’espace de travail collaboratif au sein duquel tous les employés peuvent accéder, modifier et visualiser les projets et les ressources.

H20 Driverless AI

La plateforme de Machine Learning automatisée H20 Driverless AI permet de profiter de fonctionnalités de Data Visualisation, de feature engineering, d’interprétabilité des modèles et de déploiement à faible latence.

Cette plateforme peut être utilisée sans compétences techniques avancées en Data Science, et peut donc être utilisée aussi bien par les Data Scientists que par d’autres employés tels que les Domain Scientists ou les Data Engineers.

Un ensemble de données brutes sera automatiquement analysé par Driverless AI afin d’en dégager les patterns les plus intéressantes. Le feature engineering est ensuite appliqué automatiquement pour une précision en hausse, et les paramètres des modèles configurés automatiquement. Le meilleur modèle sera également choisi de façon automatique. Enfin, les explications concernant les résultats dégagés par le modèle seront expliquées de façon simple et compréhensible.

DataRPM

La plateforme de Data Science cognitive DataRPM est disponible sur le Cloud ou sur site. Elle permet aux entreprises de développer des produits data-enabled.

Son approche basée sur le Machine Learning permet de connecter les données internes des utilisateurs à des sources de données externes. Des algorithmes de Machine Learning sont ensuite exécutés pour dégager des insights et permettre aux entreprises d’atteindre leurs objectifs.

DataRobot

La plateforme de Machine Learning DataRobot permet à l’utilisateur de créer facilement et rapidement des modèles prédictifs totalement transparents. Il n’est pas nécessaire de disposer de compétences en coding ou en machine learning, et il suffit de disposer de données.

Avec DataRobot, il est très facile de créer et de déployer des modèles de Machine Learning bien plus rapidement qu’avec des méthodes de Data Science traditionnelles. Près de 80% des tâches qui incombent d’habitude aux Data Scientists sont ici automatisées.

Google Cloud AutoML

La suite de produits de Machine Learning AutoML de Google Cloud permet aux développeurs de créer des modèles de Machine Learning de haute qualité sans avoir besoin d’expertise en la matière.

Parmi les différents produits proposés, on compte AutoML Vision pour la reconnaissance d’images, AutoML Natural Language pour le traitement naturel du langage, et enfin AutoML Translation pour la détection et la traduction entre différents langages.

Tableau des solutions de machine learning

Service / Provider Category Focus Areas
Azure ML Studio Business Intelligence point-n-click graphs
Magellan Blocks Business Intelligence point-n-click graphs
KNIME Business Intelligence point-n-click graphs
SAP Predictive Analytics Business Intelligence point-n-click, automated analytics on SAP HANA data
Alteryx Business Intelligence point-n-click, dashboards
DataRobot Business Intelligence point-n-click, dashboards
JASK ASOC Platform Business Intelligence point-n-click, dashboards
Dataiku Business Intelligence point-n-click, dashboards, hosted notebooks
Ayasdi Business Intelligence point-n-click, dashboards, topological data analysis
RapidMiner Business Intelligence point-n-click, data collection
Meeshkan Business Intelligence point-n-click, data streams to predictions
Teradata Analytics Platform Business Intelligence point-n-click, hosted notebooks
BigML Business Intelligence point-n-click, model visualizations
SAS Platform Business Intelligence point-n-click, model visualizations
Angross Business Intelligence point-n-click, numeric big data e.g. banking
H2O.ai Business Intelligence proprietary code, big data, spark integration
Pachyderm Data Management container-based, data pipelines, collaboration
MapR Data Management hadoop-based, performance, customization
Cloudera Data Management hadoop-based, point-n-click
Hortonworks Data Management hadoop-based, Windows
Sentenai Data Management real-time data, hosted notebooks
Immuta Data Management sharing your data outside
Databricks Data Management spark-based, DIY
MAANA Digitalization point-n-click, industry productivity
Uptake Digitalization point-n-click, industry uptime
Contiamo Digitalization point-n-click, process automation
Spell Infrastructure deep learning
Google ML Engine Infrastructure deep learning (TensorFlow), DIY
Bitfusion Infrastructure deep learning, DIY
Seldon Infrastructure deployment, kubernetes, DIY or hosted
Yhat Infrastructure deployment, model versioning
cnvrg.io Lifecycle Management deep learning, collaboration
Valohai Lifecycle Management deep learning, collaboration, optimization, deployment
FloydHub Lifecycle Management deep learning, exploration, collaboration
Onepanel Lifecycle Management deep learning, exploration, collaboration
RiseML Lifecycle Management deep learning, kubernetes, optimization
Neptune Lifecycle Management deep learning, visualization, hosted notebooks
Clusterone Lifecycle Management distributed learning, kubernetes, collaboration
SherlockML Lifecycle Management exploration, collaboration, deployment
Bonsai Lifecycle Management reinforcement learning
MissingLink Lifecycle Management sharing datasets, public projects
Azure Notebooks Notebook Hosting exploration
IBM Watson Studio Notebook Hosting exploration
Domino Data Lab Notebook Hosting exploration, collaboration, modeling
Anaconda Enterprise Notebook Hosting exploration, collaboration, open source
Gigantum Notebook Hosting exploration, collaboration, self-hosted
AWS SageMaker Notebook Hosting exploration, deployment
Kaggle Kernes Notebook Hosting exploration, sharing notebooks, sharing datasets
Comet Record-keeping visualization, record-keeping

 

Table des matières

Partie 1 – Comprendre la data science

Partie 2 – Appliquer la data science en marketing

Partie 3 – Déployer un projet de data science

Partie 4 – Utiliser l’intelligence artificielle (machine learning)

Partie 5 – Utiliser des techniques d’apprentissage supervisé

Partie 6 – Utiliser des techniques d’apprentissage non supervisé

Partie 7 – Pour aller plus loin en datascience