Skip to content

A corpus of French archaeological reports of the Inrap annotated with INCEpTION for Natural Language Processing. / Un corpus en français de rapports d'opération archéologique de l'Inrap annotés sur INCEpTION dans le cadre du traitement automatique des langues.

Notifications You must be signed in to change notification settings

InrapFr/NLP_for_French_Archaeological_Reports_ARIADNEplus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 

Repository files navigation

NLP for French Archaeological Reports - ARIADNEplus


This corpus was created within the Task 16.8 of the ARIADNEplus project1. It was annotated with INCEpTION (Ubiquitous Knowledge Processing Lab, TU Darmstadt) and consists so far of six French archaeological reports of the Inrap (circa 500 pages for 133,414 tokens and 5078 entities).


Six types of entities were annotated and linked to the Pactols Knowledge Base for the moment:

Name Description Number of occurrences
CHRONO Used for temporal references ("Antiquity", "XIIth century", "200 BC", etc.). 1082
CONTEXTE Used for archaeological features ("pit", "ditch", "wall", "hearth", etc.). 2399
INTERVALLE Used for time spans ("from the Neolithic to the late Antiquity", "VIIth-IXth centuries", "between 50 and 70 AD", etc.). This entity type was not linked to Pactols. 225
MAT Used for materials ("bronze", "dolerite", "ceramic", etc.). 123
MOB Used for physical finds ("bones", "pottery shards", "roof tile", etc.). 1170
TECH_STYLE Used for mentions of techniques and styles of fabrication or construction ("carved", "glazed", "polished", etc.). 79

Relations were also created between entities in an experimental way: hasForChronology (aPourChrono), hasForContext (aPourContexte), hasForTimespan (aPourIntervalle), hasForMaterial (aPourMat), hasForTechOrStyle (aPourTechOuStyle).


The data is available in two formats: CoNLL 2002 and WebAnnoTSV v.3.3.

The annotation guidelines (written in French) can also be found at the root of the repository.


Terms of use : https://www.inrap.fr/catalogue-dolia-15609


Le TAL pour les rapports français d'opération archéologique - ARIADNEplus


Ce corpus a été créé au sein de la tâche 16.8 du projet ARIADNEplus2. Il fut annoté avec INCEpTION (Ubiquitous Knowledge Processing Lab, TU Darmstadt) et se compose actuellement de six rapports d'opération archéologique de l'Inrap rédigés en français (environ 500 pages pour 133 414 tokens et 5078 entités).


Six types d'entités ont été annotées et reliées à la base de connaissances Pactols pour le moment :

Nom Description Nombre d'occurrences
CHRONO Utilisé pour les références chronologiques ("Antiquité", "XIIe siècle", "200 av. J.-C.", etc.). 1082
CONTEXTE Utilisé pour les faits archéologiques ("fosse", "fossé", "mur", "foyer", etc.). 2399
INTERVALLE Utilisé pour les intervalles chronologiques ("du Néolithique à la fin de l'Antiquité", "VIIe-IXe siècles", "entre 50 et 70 de notre ère", etc.). Ce type d'entité ne fut pas relié à Pactols. 225
MAT Utilisé pour les matériaux ("bronze", "dolérite", "céramique", etc.). 123
MOB Utilisé pour le mobilier ("os", "tessons de céramique", "tuile", etc.). 1170
TECH_STYLE Utilisé pour les mentions de techniques et styles de fabrication ou construction ("taillé", "glaçuré", "poli", etc.). 79

Des relations furent également créées de manière expérimentale entre les entités : aPourChrono, aPourContexte, aPourIntervalle, aPourMat, aPourTechOuStyle.


Les données sont disponibles sous deux formats : CoNLL 2002 et WebAnnoTSV v.3.3.

Le guide d'annotation (écrit en français) peut également être trouvé à la racine du dépôt.


Conditions d'utilisation : https://www.inrap.fr/catalogue-dolia-15609


Footnotes

  1. ARIADNEplus is a Horizon 2020 project funded by the European Commission under Grant Agreement n. 823914. The views and opinions expressed in this publication are the sole responsibility of the author and do not necessarily reflect the views of the European Commission.

  2. ARIADNEplus est un projet Horizon 2020 financé par la Commission européenne dans le cadre de la convention de subvention n° 823914. Les points de vue et opinions exprimés dans cette publication relèvent de la seule responsabilité de l'auteur et ne reflètent pas nécessairement ceux de la Commission européenne.

About

A corpus of French archaeological reports of the Inrap annotated with INCEpTION for Natural Language Processing. / Un corpus en français de rapports d'opération archéologique de l'Inrap annotés sur INCEpTION dans le cadre du traitement automatique des langues.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published