Segmentation d'instances de vÃªtements et mÃ©triques d'Ã©valuation

Introduction

Pour l'industrie textile et de la mode, les images de vÃªtements ont une forte valeur Ã tous les niveaux du cycle de vie d'un produit. On les trouve par exemple, lors de la conception comme source d'inspiration, lors de sÃ©ances d'essayage comme support de validation ou encore lors de la mise sur le marchÃ© comme rÃ©fÃ©rence visuelle. Il est donc nÃ©cessaire de faciliter leur accÃ¨s et leur recherche parmi un grand nombre d'images candidates. Cela repose le plus souvent sur l'apposition manuelle de mots clefs afin de les indexer. L'automatisation de cette Ã©tape fastidieuse permettrait ainsi une Ã©conomie considÃ©rable de temps et permettrait aux diffÃ©rents acteurs de se concentrer sur des tÃ¢ches au cÅur de leurs mÃ©tiers.

MÃ©thodologie

En apprentissage supervisÃ©, cette problÃ©matique se rÃ©duit Ã une classification. Des travaux se sont tournÃ©s vers l'attribution d'une classe Ã une image entiÃ¨re par le biais de rÃ©seaux de neurones Ã convolution [1]. Cependant, cette approche donne de meilleurs rÃ©sultats si un seul vÃªtement est prÃ©sent. Afin de retrouver les classes de plusieurs vÃªtements prÃ©sents, la classification peut s'opÃ©rer sur des sous-images n'en contenant qu'un seul [2] ( i.e. dÃ©tection), ou sur chacun des pixels de l'image [3] ( i.e. segmentation sÃ©mantique). En couplant ces deux approches ( i.e. segmentation d'instances), on obtient des masques qui contiennent les pixels d'un unique vÃªtement [4]. Ceci permet d'ajouter la distinction des instances d'une classe et une localisation plus fine Ã la dÃ©tection. De plus, ces masques peuvent servir Ã la caractÃ©risation des vÃªtements par d'autres mÃ©thodologies. Pour l'industrie, la segmentation d'instances est une Ã©tape cruciale pour l'indexation de contenu.
Parmi les corpus d'images de vÃªtements disponibles, peu incorporent les masques nÃ©cessaires Ã la segmentation d'instances ( e.g. Modanet [5], iMaterialist [6]). Le corpus DeepFashion2 [7] est actuellement celui qui propose le plus grand nombre d'images et d'annotations avec masques.
Il est primordial de dÃ©finir un protocole de validation et de test. Souvent, moins d'efforts sont fournis sur cette tÃ¢che que sur la dÃ©finition de nouvelles mÃ©thodes de segmentation [8]. Or, l'Ã©valuation a pour but de confronter un modÃ¨le au cas d'usage auquel il est supposÃ© rÃ©pondre. Le modÃ¨le peut alors Ãªtre sanctionnÃ© par le biais de mÃ©triques. L'Ã©valuation est critique Ã tous les niveaux du cycle de vie d'un modÃ¨le. Elle est critique, dans un premier temps, comme contrÃ´le lors de l'entraÃ®nement, puis dans un deuxiÃ¨me temps, lors de la sÃ©lection du ou des modÃ¨les rÃ©pondant au mieux Ã la tÃ¢che, et enfin comme dÃ©tection de dÃ©rive en production.

OriginalitÃ© / perspective

Lors de la constitution du corpus DeepFashion2, Mask R-CNN [9] a Ã©tÃ© Ã©valuÃ© sur la segmentation d'instances. Les premiers travaux se sont donc tournÃ©s vers l'Ã©valuation des mÃ©thodes de segmentation d'instances de l'Ã©tat-de-l âart issues de Mask R-CNN appliquÃ©es Ã notre cas d'usage.
En segmentation d'instances la mAP est souvent utilisÃ©e comme mÃ©trique d'Ã©valuation. Cette mÃ©trique issue du domaine de la recherche de document a subi plusieurs itÃ©rations et Ã©volutions. Ces Ã©volutions sont liÃ©es aux Ã©valuations proposÃ©es par les corpus de l'Ã©tat de l'art : Pascal VOC [10] et MS-COCO [11].
Les mÃ©triques utilisÃ©es pour la segmentation sÃ©mantique peuvent aussi servir pour Ã©valuer la segmentation d'instances. Il existe une grande quantitÃ© de mÃ©triques et de nombreuses propositions d'ontologie les organisant ( e.g. [12]). Cependant, il n'existe pas une mÃ©trique rÃ©pondant Ã tous les contextes. Il est donc recommandable d'en sÃ©lectionner plusieurs Ã©valuant diffÃ©rents critÃ¨res [13]. On peut distinguer trois axes d'Ã©valuation nÃ©cessaires Ã notre cas d'usage : - une Ã©valuation globale des masques nous informant grossiÃ¨rement sur la qualitÃ© des masques et reposant sur des mÃ©triques d'ensemble, - une Ã©valuation des contours s'appuyant sur des mÃ©triques plus sensibles Ã localisation fine Ã proximitÃ© des contours, - une Ã©valuation du contenu renseignant de la perte ou de l'ajout d'information par rapport aux masques de vÃ©ritÃ© terrain. Le but de cette derniÃ¨re est d'Ã©valuer a priori la faisabilitÃ© de la caractÃ©risation.
Il sera aussi utile d'Ã©valuer les mÃ©thodes dites en Â« une passe Â» (e.g. Yolact [14]). Cette Ã©valuation pourra se faire au niveau systÃ¨me, en sanctionnant leur capacitÃ© Ã fournir des masques permettant la caractÃ©risation des vÃªtements. Enfin, l'Ã©valuation devra s'enrichir des mÃ©triques dÃ©crites selon les axes dâÃ©valuation globale, de contour, de contenu. Ces Ã©tapes accomplies, les travaux pourront se tourner vers la caractÃ©risation des vÃªtements. Dans un premier temps, les travaux se recentreront sur l'extraction de motifs tissu et l'extraction de couleur.

[1] P. Gutierrez et al., Â« Deep learning for automated tagging of fashion images Â», prÃ©sentÃ© Ã Europ. Conf. on Comp. Vis., 2018.
[2] B. Lao et K. Jagadeesh, Â« Convolutional neural networks for fashion classification and object detection Â», prÃ©sentÃ© Ã Chinese Conf. on Comp. Vis., 2015.
[3] W. Ji et al., Â« Semantic Locality-Aware Deformable Network for Clothing Segmentation Â», prÃ©sentÃ© Ã Int. J. Conf. on Artif. Int., 2018.
[4] W. Jouanneau, A. Bugeau, M. Palyart, N. Papadakis, et L. Vezard, Â« Ãtude comparative de mÃ©thodologies issues de Mask R-CNN?: Application au Corpus DeepFashion2 Â», in Reconnaissance des Formes, Image, Apprentissage et Perception, Vannes, France, juin 2020, p. 1?3, ConsultÃ© le: dÃ©c. 21, 2020. [En ligne]. Disponible sur: https://hal.archives-ouvertes.fr/hal-02649010.
[5] S. Zheng, F. Yang, M. H. Kiapour, et R. Piramuthu, Â« ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations Â», in Proceedings of the 26th ACM international conference on Multimedia, New York, NY, USA, oct. 2018, p. 1670â1678, doi: 10.1145/3240508.3240652.
[6] S. Guo et al., Â« The iMaterialist Fashion Attribute Dataset Â», prÃ©sentÃ© Ã IEEE/CVF International Conf. on Comp. Vis. Workshops, 2019.
[7] Y. Ge, R. Zhang, X. Wang, X. Tang, et P. Luo, Â« Deepfashion2: A versatile benchmark for detection, pose estimation, segmentation and re-identification of clothing images Â», prÃ©sentÃ© Ã IEEE Conf. on Comp. Vis. and Pat. Recogn., 2019.
[8] Y. J. Zhang, Â« A survey on evaluation methods for image segmentation Â», Pattern Recognit., vol. 29, no 8, p. 1335â1346, 1996.
[9] K. He, G. Gkioxari, P. DollÃ¡r, et R. Girshick, Â« Mask R-CNN Â», in 2017 IEEE International Conference on Computer Vision (ICCV), 2017, p. 2980?2988, doi: 10.1109/ICCV.2017.322.
[10] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, et A. Zisserman, Â« The Pascal Visual Object Classes (VOC) Challenge Â», Int. J. Comput. Vis., vol. 88, no 2, p. 303â338, juin 2010.
[11] T.-Y. Lin et al., Â« Microsoft COCO: Common Objects in Context Â», in Computer Vision â ECCV 2014, Springer International Publishing, 2014, p. 740â755.
[12] A. A. Taha et A. Hanbury, Â« Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool Â», BMC Med. Imaging, vol. 15, no 1, p. 29, 2015. [13] P. Arbelaez, M. Maire, C. Fowlkes, et J. Malik, Â« Contour detection and hierarchical image segmentation Â», IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no 5, p. 898â916, 2010.
[14] D. Bolya, C. Zhou, F. Xiao, et Y. J. Lee, Â« YOLACT: Real-Time Instance Segmentation Â», in 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), oct. 2019, p. 9156?9165, doi: 10.1109/ICCV.2019.00925.

Télécharger les slides

Revoir le live :

Warren Jouanneau

Doctorant

www.lectra.com

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}