Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BDD externe] Ecrire le script permettant de convertir une page infos CDTN en vecteur #11

Closed
Tracked by #2
rprebot opened this issue Nov 6, 2024 · 1 comment · Fixed by #16
Closed
Tracked by #2
Assignees
Labels

Comments

@rprebot
Copy link
Contributor

rprebot commented Nov 6, 2024

Objectif

Implémenter toute la chaîne de traitement:

  • parsing des données utiles
  • chunking et embedding via Albert en incluant le minimum de meta data (i.e le titre de la page info-services)
  • stockage dans une collection Albert

Meta données minimales attendues dans le chunk

  • le nom de la page
  • l'URL de la source (si existante)

Critère de test

Réaliser des query simples et obtenir le résultat (liste de N chunks et scoring)

@rprebot rprebot changed the title [BDD externe] Ecrire le script permettant de convertir une pas infos CDTN en vecteur [BDD externe] Ecrire le script permettant de convertir une page infos CDTN en vecteur Nov 6, 2024
@rprebot rprebot added the DOR label Nov 6, 2024
@rprebot
Copy link
Contributor Author

rprebot commented Nov 27, 2024

est ce qu'on a bien l'URL dans les metadonnées ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging a pull request may close this issue.

2 participants