Comment cette startup basée à Delhi construit une machine à remonter le temps pour l’IA – Analytics India Magazine

Avec l’adoption rapide de l’IA dans toutes les entreprises, le besoin de données étiquetées a considérablement augmenté au cours des dernières années. Cependant, de nombreuses entreprises utilisent encore l’annotation manuelle, même à ce jour. Cela conduit à un biais humain, affectant la précision du modèle. Des études montrent que 85 % des projets d’apprentissage automatique (ML) et d’intelligence artificielle (IA) échouent ou ne progressent pas au-delà du produit minimal viable (MVP) en raison de la qualité et de la quantité des données étiquetées.

C’est là qu’intervient DataNeuron, basé à New Delhi et Palo Alto. La société aide à accélérer et à automatiser l’étiquetage humain en boucle pour le développement de solutions d’IA. Il automatise l’étiquetage des données, la création de modèles et la gestion de bout en bout du cycle de vie du ML. En d’autres termes, il construit une machine à remonter le temps pour l’IA.

IA responsable. Savez-vous ce que c’est ?>>

Fondé en mai 2021, DataNeuron a été lancé par Bharath Rao (également fondateur de Precily AI), aux côtés de Nishant Chhetri, Rohit Goyal, Anil Advani et Rohit Adlakha. Bientôt, la société rejoint Sheetal D en tant que co-fondateur. Il est actuellement soutenu par la société de capital-risque en phase de démarrage Windrose Capital et le cabinet d’avocats mondial en technologie Inventus Law.

Cependant, DataNeuron n’est pas seul dans cet espace. Les autres acteurs mondiaux incluent Snorkel, Scale AI, IBM Watson et Appen.

L’équipe DataNeuron a déclaré que les plates-formes d’annotation de données existantes offrent aujourd’hui un ensemble limité de fonctionnalités pour l’annotation de données, telles que la reconnaissance d’entités nommées, la transcription ML, etc. De plus, les entreprises ne disposent pas d’une plate-forme sécurisée pour l’échange de données/la création de modèles.

C’est là que DataNeuron se différencie des autres acteurs du marché.

Certains des points saillants comprennent :

  • DataNeuron fournit une annotation/étiquetage entièrement automatisé avec une validation minimale basée sur des heuristiques et des paramètres d’étiquette.
  • La plate-forme n’a besoin que d’une liste principale au lieu d’autres plates-formes, ce qui nécessite que plusieurs fonctions d’étiquetage des apprenants faibles soient définies par l’utilisateur.
  • Annotation incrémentale et évolutive. Cela signifie qu’il modifie la liste maîtresse en temps réel, également connu sous le nom de support de liste maîtresse dynamique.
  • Il s’agit d’une plate-forme de gestion du cycle de vie du ML de bout en bout avec AutoML, prédiction sans code et optimisation.
  • Il permet la prédiction des données sans écrire de code, et les suggestions AI/Masterlist améliorent les performances du modèle.
  • La plate-forme prend en charge l’annotation stratégique en capturant plus d’informations dans une quantité moindre de données avec un apprentissage actif.

Voici un aperçu de sa plateforme :

Masterlist de DataNeuron (Source : DataNeuron/Microsoft Azure Marketplace)

Pile technologique DataNeuron

Rao a déclaré à Analytics India Magazine qu’ils disposaient de plusieurs piles technologiques fonctionnant dans DataNeuron. Pour l’interaction utilisateur et le flux de travail, sa plate-forme est construite sur le cadre MERN. Pour les besoins d’infrastructure, la plateforme est déployée sur Microsoft Azure. Les données sont stockées sur le stockage cloud sécurisé Azure.

« Nous avons divers algorithmes, des algorithmes de filtrage non supervisés aux algorithmes de filtrage basés sur le contexte, construits pour automatiser l’ensemble du pipeline d’annotation de données »,

– Bharath Rao, fondateur et PDG de DataNeuron.

Découvrez les détails complets du fonctionnement de DataNeuron ici.

Le pipeline DataNeuron (Source : DataNeuron)

La technologie derrière DataNeuron

Rao a déclaré que DataNeuron utilise un apprentissage auto-supervisé et a fait une percée significative avec sa plate-forme d’apprentissage automatisé (ALP), qui automatise l’étiquetage des données et élimine l’annotation humaine dans la boucle.

DataNeuron ALP fournit des données étiquetées basées sur un algorithme d’ensemble en analysant la Masterlist et les paramètres d’étiquette pertinents. Fait intéressant, sa plate-forme ne nécessite aucune formation préalable ni règle. « Nous avons un » apprentissage actif « pour recycler le modèle à partir des validations et réduire l’interaction avec l’utilisateur », a déclaré Rao.

En outre, il a affirmé que leur plate-forme avait enregistré une réduction de 97 % dans un certain nombre de paragraphes validés par rapport à l’étiquetage manuel en boucle. « Nous avons testé sur plusieurs domaines et ensembles de données : ALP a atteint une précision comparable (dans une marge d’environ 1 2%) aux solutions de pointe avec seulement 2 % des données étiquetées par rapport aux données humaines. -l’étiquetage en boucle », a déclaré Rao.

Voir également

Alors que DataNeuron devrait augmenter son efficacité en apportant 90 % ; précision de la machine de premier passage par rapport à l’effort manuel, l’équipe a déclaré avoir réduit le personnel du projet de 70 à 90 % et un retour sur investissement de 200 à 400 %.

Expansion des yeux

Selon Grand View Research, le marché mondial des outils d’annotation de données devrait croître à un TCAC de 27,1% de 2021 à 2028. En 2020, cependant, la taille du marché était évaluée à 494 millions de dollars. La croissance du secteur est tirée par l’adoption massive d’outils d’annotation de données dans les secteurs de l’automobile, de la vente au détail et de la santé.

DataNeuron cherche à cibler des clients des domaines ITeS, de la science des données, des industries basées sur la connaissance, des sciences de la vie et des domaines fiscaux et juridiques. Il est désormais disponible sur Microsoft Azure Marketplace. « Nous acquérons actuellement des clients par le biais de contacts directs, de partenaires, de dirigeants et de conseillers », a déclaré Rao. Cependant, il prévoit de lancer des campagnes publicitaires ciblées en 2022.

Route à venir

« Nous travaillons actuellement à l’auto-validation pour réduire à l’avenir la validation humaine en boucle basée sur la précision/la confiance », a déclaré Rao.

Il a déclaré qu’ils lançaient également une liste maîtresse avancée pour prendre en charge l’étiquetage subjectif des ensembles de données (où une distribution de classe claire est manquante), le NER personnalisé, la gestion des versions de modèle pour prendre en charge les ensembles de données qui nécessitent des changements constants pour prendre en charge les cycles d’apprentissage incrémentiels, et enfin, la validation multi-utilisateurs ( vote pondéré).

DataNeuron pense que l’objectif de l’apprentissage automatique passera des algorithmes aux données de grande valeur et explicables. « Nous poursuivons nos recherches sur l’intelligence artificielle générale (AGI) pour permettre une automatisation à 100 % de l’étiquetage des données nécessaire pour faire évoluer les algorithmes d’apprentissage supervisé », a déclaré Rao.

En outre, il a déclaré que leur objectif était d’intensifier le développement de modèles d’IA en fournissant de meilleures données, une explicabilité de l’IA et en réduisant le biais d’opinion causé par l’étiquetage humain en boucle. « Nous voulons également étendre les capacités de DataNeuron au-delà de la PNL, avec des applications possibles dans la vision par ordinateur, l’audio et l’étiquetage d’images », a déclaré Rao, partageant la feuille de route.

Abonnez-vous à notre newsletter

Recevez les dernières mises à jour et offres pertinentes en partageant votre e-mail.

Rejoignez notre groupe Telegram. Faites partie d’une communauté engageante

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *