«

»

La notion de similitude vue comme une mesure de distance

D’après les propos de Fabien Gandon

Comment décider de la similitude ou non de deux objets ? C’est une question bien difficile, peut-être tout simplement mal posée. Mais, une très belle idée a alors émergé : celle de répondre autrement à cette question. Et de se demander « combien ». De combien peut-être est la similitude, la similarité, ou non de deux objets ? En essayant de répondre de manière quantitative et non qualitative à cette question, quelque chose change : on peut alors introduire la notion mathématique de distance, on parle de métrique, ou de dissimilarité.

C’est une idée très profonde, qui revient à comprendre dans quel espace (métrique) se situent ces objets, autrement dit quelles dimensions les relient. Dans un tel espace chaque objet correspond à un point, et la notion de distance permet de spécifier très précisément de combien deux objets sont similaires ou non.

Prenons un exemple simple: deux couleurs sont-elles similaires ? Voilà une question bien subjective. Mais si on étudie l’œil humain, on apprend qu’il y a trois récepteurs de couleurs, sensibles au rouge et au vert et dans une moindre mesure au bleu. Donc changer un peu l’intensité du bleu entre deux couleurs préservera plus leur similitude que de changer celle du rouge ou vert. On voit alors l’intérêt de considérer chaque couleur comme un point dans un espace de couleur, en fait à trois dimensions, tel que la distance dans cet espace correspond à la perception de cette similitude. Le bleu y aura une taille plus réduite. Tenant compte de cette réalité biologique la psychophysique permet de conduire très rigoureusement de telles mesures.

Mais . . pourrions-nous mesurer la similitude entre des données bien plus compliquées qu’une couleur ? Il se trouve que les sciences du numérique disposent des outils permettant de traiter rigoureusement des données aussi différentes que les espèces du règne animal ou les amis de votre réseau social usuel.

Pour ce qui est des espèces animales, on parle de taxinomie. Un animal est représenté par des données concernant ses caractéristiques physiologiques et maintenant génétiques. Des techniques d’origines assez anciennes permettent alors de regrouper, par similitude, les différentes sortes d’animaux ( voir la classification automatique). La représentation est un arbre où chaque branche correspond aux ramifications en race, espèce, genre, famille, ordre, etc. Le calcul se fait de manière aussi rigoureuse que les données expérimentales peuvent le permettre à ce jour. Et c’est la notion de distance qui permet de quantifier cette classification et de construire celle qui structure le mieux les sortes d’animaux en regroupant ceux de plus grande similitude et en différenciant ceux qui diffèrent le plus. Ce sont, du reste, des résultats qui confirment que l’espèce humaine n’est formée que d’une seule avec quelques variations ethniques négligeables.

Pour aller plus loin, une très belle idée a alors émergé, et le formalisme le plus sophistiqué pour représenter le reflet numérique d’objets concrets ou abstraits à partir de données quantitatives ou qualitatives est la notion d’ontologie. Très simplement chaque objet ou concept est défini par ses propriétés et par ses relations avec les autres objets ou concepts. Chaque concept ainsi défini est un point dans un espace et ce sont les relations entre ces concepts qui vont définir les similitudes ou distances entre eux. Une ontologie devient alors un objet informatique et mathématique. Elle peut notamment fournir un graphe reliant les types d’objets qu’elle définit et ce graphe peut devenir l’espace d’une métrique. L’une des plus anciennes propositions est celle de la distance de Rada et al.[1] qui considère le plus court chemin taxonomique entre deux catégories dans l’arbre hiérarchique. Plus ce chemin est long et plus les types seront loin. Incidemment dans une taxonomie en arbre ce chemin passe toujours par leur plus petit ancêtre commun qui spécifie justement ce qu’ils ont en commun. Ainsi un vélo sera plus proche d’une moto (ayant comme plus petit ancêtre commun la catégorie « véhicule deux roues ») que d’un avion, mais le même vélo sera plus proche d’un avion (ayant en commun la catégorie véhicule) que d’un livre.

De même dans le graphe d’un réseau social, si on cherche quelqu’un de « proche » on peut mesurer un telle distance en cherchant parmi ses amis, puis les amis de ses amis, et en se disant que le degré de confiance est d’autant plus élevé que le nombre d’intermédiaires est plus petit. C’est aussi cette représentation en sociogrames de nos réseaux d’accointance qui a posé un certain nombre d’expériences pour vérifier nos distances sociales dont la théorie des six degrés de séparation maximum entre deux personnes sur terre.
Bref la distance se définit ici par le chemin le plus court dans le graphe du réseau social dont les arrêtes correspondent à « être ami ». Ne fait-on pas un peu la même chose dans la vie sociale présentielle, en « présentant » une personne à une autre pour chercher quelqu’un de confiance ? Et bien, si nous réfléchissons un peu, nous verrons que la réponse est négative, car ce n’est pas du tout le même contexte ! Non seulement on ne peut pas faire l’amalgame entre une relation virtuelle et réelle mais de plus la confiance que l’on accorde à quelqu’un est en générale qualifiée: on fait confiance pour garder un enfant, pour réparer une voiture, pour opérer un rein, … bref on fait confiance pour quelque chose, cette confiance n’est pas forcément naïvement transitive et sa propagation peut suivre bien des mécanismes [2]. Aussi utiles que soient ses outils, il faut donc les manipuler avec précaution.

On peut consulter également :
L’arbre de Porphyre

Genus–differentia definition

[1] Rada, R., Mili, H., Bicknell, E., Blettner, M.: Development and application of a metric on semantic nets. IEEE Transactions on Systems, Man, and Cybernetics 19 (1989) 17–30

[2] Ramanathan V. Guha, Ravi Kumar, Prabhakar Raghavan, Andrew Tomkins: Propagation of trust and distrust. WWW 2004: 403-41

Lien Permanent pour cet article : https://fuscia.info/la-notion-de-similitude-vue-comme-une-mesure-de-distance/