You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Le score soit aussi facile à interpréter par quelqu'un et de préférence un pourcentage.
Il y a deux options: faire un scoring en node ou faire un scoring avec le langage de script elasticsearch.
Je n'avais jamais exploré cette voie pour matchID on avait à la fois la parallélisation déjà utilisée dans matchID, et surtout pandas qui offre la vectorisation des fonctions mathématiques, et quelques fonctions en C. Déjà avec matchID le scoring lorsqu'il était avancé (réinstanciant notamment pas mal de levenshtein) pouvait prendre 25 à 50% du temps de calcul.
Là tu as le choix entre le langage scripté node ou le langage scripté ES qui assume lui-même au sein de son coeur java la parallélisation. Je pense que c'est moins évident comme choix, et qu'il faut tester.
en gros score = f(Pa, Pb) (personne de dataset a et dataset b).
mais plus précisément
f ~ f_noms(Na,Nb) x f_lieu(La,Lb) x f_date (Da,Db) x f_sexe (Sa,Sb)
où les f sont normalisés à 1.
Pour les noms l'idée est de faire le rapprochement a niveau tokens et au niveau caractère. Je n'avais pas pris le phonétique, mais je pense qu'il faudrait l'ajouter.
Pour les lieux, ça dépend du niveau de description: libellé de commune vs code commune etc.
Du coup là nouveau score custom
rectification commune (label, dep) => commune (en fuzzy sur label)
score à 1 si 1 point commun dans l'historique de commune
score basé sur ~ inverse distance géographique
pour le reste c'est plus trivial
On rajoutait aussi une passe sur le nombre de candidats (Pa , Pb1, Pb2 etc) pour les cas à la mammadou diallo
Le score soit aussi facile à interpréter par quelqu'un et de préférence un pourcentage.
Il y a deux options: faire un scoring en node ou faire un scoring avec le langage de script elasticsearch.
https://github.com/matchID-project/backend/blob/dev/conf/recipes/matching.yml
avec par exemple
The text was updated successfully, but these errors were encountered: