Building a Reproducible Mining Pipeline for óðal/aþal lexical complex in Diplomatarium Islandicum and Norwegian Medieval Latin Texts

Métadonnées

Arvid Narimani (2026)

ORCID : https://orcid.org/0009-0001-1001-4065

Dernière version : https://doi.org/10.5281/zenodo.18114393

Version citée : v1 — https://doi.org/10.5281/zenodo.18114393

Licence :

CC BY 4.0

Résumé (FR)

Ce rapport décrit la conception et la validation d’un flux de travail reproductible pour repérer, dans un corpus documentaire médiéval stocké localement, un complexe lexical centré sur óðal/aþal. Le corpus rassemble des chartes du Diplomatarium Islandicum et des textes norvégiens en latin médiéval (Bibliothèque nationale de Norvège), ingérés depuis plusieurs formats (.txt, TEI P5 .xml, .xhtml). La récupération lexicale repose sur un appariement explicite et versionné en mode strict (sans expansion orthographique implicite), avec une traversée déterministe et une déduplication (préférence pour .xml lorsque plusieurs représentations existent). Un contrôle du bruit en deux étapes (avant et après appariement) supprime les artefacts de type index, avec comptage des suppressions pour auditabilité. Les sorties structurées (TSV/JSONL/manifest) conservent provenance, classe de règle et couche d’extraction, afin de fournir une base exploitable pour l’analyse philologique et linguistique.

Abstract (EN)

This report documents the design, execution, and validation of a reproducible workflow for mining a locally stored medieval documentary corpus for the óðal/aþal lexical complex. The corpus combines Diplomatarium Islandicum charter material with Norwegian Medieval Latin texts, ingested from heterogeneous serializations (.txt, TEI P5 .xml, and .xhtml). Lexical recovery uses an explicit, versioned cluster matcher in strict mode, with deterministic traversal and de-duplication (preferring .xml when multiple representations exist) and parameterized TEI extraction. A two-stage noise-control regime removes index-like material both pre-match and post-match, with removal counts recorded for auditability. The documented run processed 15,777 documents, produced 2,000 raw matches, excluded 685 index-like hits, and retained 1,315 attestations, with per-hit provenance and extraction-layer information preserved.

Référence bibliographique

Narimani, Arvid (2026). Building a Reproducible Mining Pipeline for óðal/aþal lexical complex in Diplomatarium Islandicum and Norwegian Medieval Latin Texts. Zenodo (v1). https://doi.org/10.5281/zenodo.18114393.

Texte intégral (PDF)