Du monde universitaire à l’acquisition – le voyage de la startup de vision par ordinateur GrokStyle

  • La vision par ordinateur est devenue l’un des principes fondamentaux de l’IA
  • Il est maintenant utilisé dans l’industrie des gammes de produits, RPA, e-commerce et reconnaissance faciale
  • TechHQ s’entretient avec un professeur d’informatique et le créateur de GrokStyle, une startup de vision par ordinateur acquise par Facebook Marketplace

Aujourd’hui, nous construisons des systèmes d’intelligence artificielle capables de comprendre les composants visuels du monde qui nous entoure. C’est de la vision par ordinateur, et bien qu’il ait commencé comme projet d’été du MIT il y a plus de cinquante ans, il joue maintenant un rôle central dans les systèmes robotiques avancés et la technologie d’automatisation.

Explosant au cours de la dernière décennie, la vision par ordinateur est devenue un domaine de développement et de croissance incroyablement chaud parmi les chercheurs en IA, devenant l’un des principaux principes de la technologie aux côtés de l’apprentissage automatique et du traitement du langage naturel.

Les cas d’utilisation de la vision par ordinateur sont à la fois incroyablement excitants et expansifs; la technologie est utilisée pour vérifier les marchandises compromises sur les lignes de production; il peut fonctionner de concert avec Robotic Process Automation pour filtrer les informations à partir de grands volumes de texte manuscrit; il sert de «lobe occipital» des véhicules autonomes; et dans sa manifestation peut-être la plus actuelle, c’est la technologie utilisée dans les technologies avancées de reconnaissance faciale dont l’utilisation par les forces de l’ordre a suscité de sérieuses inquiétudes pour beaucoup.

Reconnaissance fine

Peu de personnes connaissent mieux le sujet de la vision par ordinateur que Kavita Bala, professeure et directrice du département des sciences informatiques de Cornell et co-créatrice de GrokStyle, un système de reconnaissance de produits récemment acquis par Facebook qui peut identifier des attributs sur des milliards de photographies. dans des dizaines de catégories, y compris la mode et la décoration intérieure.

Utilisée par Facebook Marketplace aujourd’hui, la technologie intégrée à GrokStyle est issue de la recherche universitaire sur la reconnaissance visuelle à grain fin. Alors que la vision par ordinateur peut être entraînée à reconnaître qu’il y a une table, une chaise et un canapé dans la pièce, la reconnaissance à grain fin va plus en détail sur la marque d’un objet. Il peut indiquer aux utilisateurs «que c’est la chaise Eames ou la table IKEA Mammut ou une marque et un type de lampe particuliers qui sont visibles sur l’image», a expliqué Bala.

Kavita Bala est la présidente du département d’informatique de l’Université Cornell. Elle a cofondé GrokStyle et en est la scientifique principale. Source: Cornell Engineering

Bala et son équipe ont réalisé que les applications d’une telle reconnaissance d’image avancée pouvaient répondre à la demande d’informations granulaires et précises d’objets souvent vus dans le commerce de détail et en ligne. En fin de compte, cela pourrait à la fois faire appel à la façon dont les consommateurs achètent en ligne aujourd’hui, sur divers sites et médias sociaux, et jouer un rôle transformateur dans le développement du commerce électronique et du marketing – c’est certainement ainsi que Facebook l’a vu.

Le système Facebook, maintenant connu sous le nom de GrokNet, s’appuie sur la technologie GrokStyle et suggère automatiquement des attributs tels que les couleurs et les matériaux lorsque les vendeurs téléchargent des photos de produits à vendre, selon le géant des réseaux sociaux. Propulsant Facebook Marketplace aujourd’hui à l’aide d’une combinaison d’apprentissage en profondeur et d’une vaste base de données d’images, il identifie les articles en prédisant les attributs de couleur, de style et de matériau, et en associant les photos téléchargées aux images de catalogue propres.

Le résultat est un système deux fois plus précis que les systèmes antérieurs de Facebook pour reconnaître les produits, a déclaré la société, et la couverture de sa catégorie Maison et Jardin est passée de 33% à 90%. Formé sur un ensemble de données diversifié, il fonctionne même pour les éléments qui peuvent sembler différents selon la partie du monde dans laquelle vous vous trouvez.

« Facebook, comme vous pouvez l’imaginer, possède une immense quantité de données visuelles parce que les gens téléchargent des images, qu’il s’agisse d’Instagram, de publications régulières sur Facebook ou de Facebook Marketplace […] ils voulaient une technologie qui serait en mesure de faire la reconnaissance dans le contexte de cette immense quantité de données dont ils disposent », a expliqué Bala.

Avant l’acquisition de GrokStyle par Facebook pour Marketplace, Bala avait longtemps envisagé le potentiel de la vision par ordinateur pour transformer l’expérience d’achat en ligne.

« Il y a des gens qui posent des questions comme, » Gee, je vois une photo de quelqu’un qui porte un sac à main, je me demande de quel sac à main il s’agit? « Ou ils sont sur un site de rénovation et aimeraient voir ce qu’est ce comptoir, »A dit Bala; « Nous avons réalisé qu’il y avait un réel besoin d’une solution à ce problème. »

La technologie de reconnaissance à granularité fine peut fournir aux consommateurs des informations sur les produits à la demande: «Si vous disposiez d’une reconnaissance à granularité fine sur votre téléphone ou sur votre ordinateur portable, vous obtenez effectivement des connaissances de niveau expert à portée de main pour comprendre les images.»

Sur la base de ses recherches en cours sur la façon dont les applications de la vision par ordinateur dans un environnement de vente au détail et de l’accueil chaleureux de leur article publié en 2015, l’équipe de Bala a lancé GrokStyle un an plus tard et a décroché un fabricant de meubles suédois innovant IKEA – une marque connue pour pousser l’enveloppe avec la technologie et l’expérience utilisateur – comme l’un de leurs premiers partenaires.

Bala a déclaré à TechHQ, l’un des défis auxquels sont confrontés les acheteurs d’IKEA est la difficulté à visualiser à quoi ressemblerait un meuble spécifique dans leur maison: «En tant qu’être humain, vous pouvez imaginer que si vous entrez dans une pièce, vous pouvez très rapidement reconnaître si vous voyez une table ou une chaise « , a déclaré Bala, » Mais à moins que vous ne soyez un expert en mobilier, vous ne serez pas en mesure de reconnaître la marque exacte du meuble ou le type de meuble qu’il est, en particulier pour les catégories exotiques. .  »

Lorsque vous parcourez des meubles en ligne, les clients sont également confrontés à un défi en envisageant l’espace et en comprenant comment un meuble peut occuper une pièce dans la vie réelle.

Reconnaissant les difficultés rencontrées par les acheteurs, IKEA a lancé une application de réalité augmentée (AR) où les gens peuvent visualiser les meubles en place, tout en intégrant la reconnaissance d’image de GrokStyle signifiait que l’application pouvait reconnaître les articles dans une pièce et suggérer des articles complémentaires du catalogue du détaillant de meubles.

«La réalité augmentée est une expérience particulièrement intéressante dans le contexte du mobilier, du shopping et de la décoration intérieure. Et donc, le déploiement avec IKEA avait beaucoup de sens pour nous, et en fait, ils pensaient que nous le faisions aussi pour eux. »

La recherche et le développement, et la vente ultérieure de GrokStyle démontre l’appétit de l’industrie pour les technologies qui peuvent améliorer l’expérience utilisateur et, finalement, stimuler l’engagement dans des applications nouvelles ou augmentées – l’optimisation de l’expérience d’achat et de vente de Facebook Marketplace n’est qu’un exemple du potentiel de la vision par ordinateur et il reste encore beaucoup à faire.

Le voyage réussi de la recherche académique à l’acquisition par l’une des plus grandes entreprises technologiques du monde représente un exploit majeur en soi, et ce n’est pas si courant: «C’est un voyage très intéressant, en fait, le travail académique lorsque vous commencez, vous résolvez le problème, mais vous ne regardez pas toute la complexité du gâchis du monde réel », nous a dit Bala.

«Aller de là jusqu’à un produit qui est réellement utilisé à l’échelle du marché avec les milliards d’images qui existent est un voyage. Cela nécessite beaucoup d’innovation, beaucoup de traitement et de dispute avec des choses que vous n’attendez pas tout à fait, telles que des revendications de confidentialité sur différentes données ou des éléments exotiques que vous pourriez ne pas résoudre en faisant la majeure partie d’un article académique.

« Passer d’une solution académique à quelque chose que vous déployez à grande échelle est un voyage très excitant – et oui, je pense que c’est assez rare à voir. »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *