Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Annotation sémantique / Bio schéma #530

Open
orovellotti opened this issue Apr 23, 2024 · 6 comments
Open

Annotation sémantique / Bio schéma #530

orovellotti opened this issue Apr 23, 2024 · 6 comments

Comments

@orovellotti
Copy link

orovellotti commented Apr 23, 2024

Il serait pertinent d'annoter les page espèces de GeoNature atlas avec des annotation sémantique de type Schema.org et bioschema.org

Un exemple ici sur le site de l'inpn avec du Json-LD dans la page
image
https://inpn.mnhn.fr/espece/cd_nom/53604

Le site bioschemas listes les sites compatible Bioschemas, si l'atlas n'est pas répertorié, il est possible de faire une pull request pour que notre instance soit ajoutée.

Il est aussi possible de remplir un formulaire pour donner les détails du déploiement ici :
https://bioschemas.org/developer/liveDeploys#nav-profile

Nous pourrions ainsi maintenir un catalogue d'instances de GeoNature / Atlas

Le scrapper BMUSE permet ensuite de scrapper diffèrent sites et construire un knowledge graph
https://github.com/HW-SWeL/BMUSE

@orovellotti
Copy link
Author

orovellotti commented Apr 23, 2024

Ici un projet similaire en BioInfo

"an umbrella consortium for central management of protein disorder related tools and databases"

image

@frmichel
Copy link

Et dans la foulée, on pourrait relancer l'activité biodiversité à Bioschemas en proposant la création de nouveaux profiles :

  • traits de vie (e.g. en lien avec des travaux du MNHN sur l'utilisation de PlinianCore)
  • occurrences
  • ...

@orovellotti
Copy link
Author

orovellotti commented May 6, 2024

Quand on demande a GPT des données précise sur le département du 13 il ne peut pas répondre.
https://chatgpt.com/share/f6daaf37-5cf2-45d1-9429-c31de9b66607?oai-dm=1

On pourrait imaginer d'enrichir un LLM avec ces données suturées pour en faire un générateur de rapport d'ABC :)

@camillemonchicourt
Copy link
Member

Je pense qu'il vaudrait mieux privilégier se brancher sur une base de données globale et agrégée, comme l'INPN ou le GBIF, plutôt que d'aller chercher de manière éparpillée et partielle sur plein de petits GeoNature-atlas de structures diverses.
Et plutôt faire en sorte de fluidifier la remontée des données depuis les producteurs vers ces bases de données agrégatrices.

@orovellotti
Copy link
Author

orovellotti commented May 6, 2024

Effectivement pour les données lier à la taxonomie il y a une approche centralisée (inpn, mnhn) mais internet est un monde ouvert et il existe un très grand nombre de sites possédant des données de biodiversité( (hors service public et hors France, hors SINP).

Pour ne cite que quelques source (oiseau.net, ecobalade, ou encore IUCN, Birdlife, movebank ...

Les modèles comme GPT sont généralement entraînés sur des ensembles de données massifs comprenant des milliards de mots provenant de milliers à millions de documents web.

Pour info le site de l'inpn contiens déjà des annotations en Json-LD grâce a @frmichel et olivier G

Mais effectivement la problématique de moissonnage et de centralisation mérite d'être réfléchie peut être dans une autre issue.

@omaralaziz
Copy link

Le knowledge graph résultant pourrait servir à créer une base de données vectorielle qui alimenterait une IA générative.
Ca permettrais de créer un chatbot qui pourra utiliser les données scrapées du knowledge graph pour répondre aux questions de l'utilisateur.
Cette technique est connue sous le nom de RAG (Retrieval augmented generation) :
https://datascientest.com/retrieval-augmented-generation-tout-savoir

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants