Building a Reproducible Mining Pipeline for the Scandinavian Runic-text Database (SRD) via Runor (RAÄ) and the SRD REST API

Métadonnées

Arvid Narimani (2025)

ORCID : https://orcid.org/0009-0001-1001-4065

Dernière version : https://doi.org/10.5281/zenodo.18037067

Version citée : v1 — https://doi.org/10.5281/zenodo.18037067

Licence : CC BY 4.0

Résumé (FR)

Ce rapport méthodologique décrit la construction et la validation d’un flux de travail reproductible, piloté par API, pour extraire des attestations d’un complexe lexical centré sur óðal (et variantes historiques) dans la Scandinavian Runic-text Database (SRD), via l’interface Runor (RAÄ) et un service REST « éditionné ». L’approche privilégie l’accès par API plutôt que le scraping, afin de garantir des identifiants stables, un paramétrage explicite des éditions et des résultats auditables. Le protocole résout l’édition active (GET /editions), énumère les identifiants d’inscriptions (GET /signa), récupère les notices (GET /inscriptions/{uuid}?edition_id=…) et effectue la recherche lexicale sur la couche textuelle pertinente (runic_texts[*].interpretations[*].text). Le rapport documente aussi des contraintes importantes (paramètre d’édition obligatoire, écarts spécification/comportement, limites de GET /search) et présente une exécution de validation qui retrouve des attestations canoniques en conservant une provenance explicite (UUID, édition, couche d’extraction).

Abstract (EN)

This methodological report documents the construction and validation of a reproducible, API-driven workflow for mining the Scandinavian Runic-text Database (SRD), accessed via Runor (RAÄ), for a defined lexical complex centered on óðal and historically variable related forms. The approach motivates an API-first strategy over browser scraping in order to preserve stable identifiers, explicit editioning, structured fields, and auditable outputs. The workflow resolves the active SRD edition (GET /editions), enumerates inscription UUIDs (GET /signa), retrieves inscription records (GET /inscriptions/{uuid}?edition_id=…), and performs local lexical matching on runic_texts[*].interpretations[*].text. The report records reproducibility-relevant behaviors (mandatory edition parameters, specification/behavior mismatches, and the limits of GET /search) and includes a controlled validation run that rediscovers canonical attestations while preserving explicit provenance (UUIDs, edition context, and extraction layer). This deposit provides documentation only (PDF) and does not redistribute SRD/Runor source data.

Référence bibliographique

Narimani, Arvid (2025). Building a Reproducible Mining Pipeline for the Scandinavian Runic-text Database (SRD) via Runor (RAÄ) and the SRD REST API. Zenodo (v1). Dernière version : https://doi.org/10.5281/zenodo.18037067. Version citée : https://doi.org/10.5281/zenodo.18037067.

Texte intégral (PDF)