Skip to content

Commit

Permalink
Merge branch 'lflage-gazzetta-ufficiale'
Browse files Browse the repository at this point in the history
  • Loading branch information
malteos committed Jul 18, 2024
2 parents aa54c48 + d94442b commit ee00a32
Show file tree
Hide file tree
Showing 2 changed files with 40 additions and 1 deletion.
3 changes: 2 additions & 1 deletion src/llm_datasets/datasets/dataset_registry.py
Original file line number Diff line number Diff line change
Expand Up @@ -89,7 +89,8 @@
".hr.croatian_news_engri.CroatianNewsENGRIDataset",
# it
".it.itwac.ITWacDataset",
".it.paisa.PaisaCorpus"
".it.paisa.PaisaCorpus",
".it.gazzetta_ufficiale.GazzettaUfficiale",
# mt
".mt.korpus_malti.KorpusMaltiDataset",
# nl
Expand Down
38 changes: 38 additions & 0 deletions src/llm_datasets/datasets/it/gazzetta_ufficiale.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
from llm_datasets.datasets.base import Availability, License
from llm_datasets.datasets.hf_dataset import HFDataset


class GazzettaUfficiale(HFDataset):
DATASET_ID = "gazzetta_ufficiale"
TITLE = "Gazzeta Ufficiale"
HOMEPAGE = "https://huggingface.co/datasets/mii-llm/gazzetta-ufficiale"
# LICENSE = # not specified on HF page
AVAILABILITY = Availability.DIRECT_DOWNLOAD
LANGUAGES = ["it"]
DESCRIPTION = """La Gazzetta Ufficiale della Repubblica Italiana, quale fonte ufficiale di conoscenza
delle norme in vigore in Italia e strumento di diffusione, informazione e ufficializzazione di
testi legislativi, atti pubblici e privati, è edita dall’Istituto Poligrafico e Zecca dello
Stato e pubblicata in collaborazione con il Ministero della Giustizia, il quale provvede alla direzione e redazione della stessa.
L'Istituto Poligrafico e Zecca dello Stato S.p.A. promuove la più ampia fruibilità della Gazzetta
Ufficiale della Repubblica Italiana in formato digitale.
Si segnala che l'unico testo definitivo è quello pubblicato sulla Gazzetta Ufficiale a mezzo stampa,
che prevale in caso di discordanza. La riproduzione dei testi forniti nel formato elettronico è consentita purché venga menzionata la fonte, il carattere non autentico e gratuito.
"""
LICENSE = License("mit", commercial_use=True, research_use=True, distribution=True)
HF_DATASET_ID = "mii-llm/gazzetta-ufficiale"
HF_DATASET_CONFIGS = ["default"]
HF_DATASET_SPLIT = "train"
keep_columns = True

def get_text_from_item(self, item) -> str:
"""Subscribing the original method since this dataset
has multiple columns.
Iterates over the row columns and concatenates the columns content
item: <dict:{column_name: content}>
"""
txt = ""
txt_colums = ["text", "field1", "field2", "about"]
for column in txt_colums:
txt += item[column]
return txt

0 comments on commit ee00a32

Please sign in to comment.