DIN-Normenausschuss Terminologie (NAT)
DIN 19461
Sprachressourcen und Sprachtechnologie - Abgeleitete Textformate (ATF)
Language resources and language technology - Derived text formats (DTF)
Einführungsbeitrag
Abgeleitete Textformate sind abstrahierte Darstellungen eines Originaltextes, die urheberrechtlich geschützte Inhalte entfernen, aber relevante Informationen für Text und Data Mining (TDM) bewahren. Beispiele sind Wortlisten oder N-Gramme. Sie ermöglichen rechtssichere Forschung, Transparenz und Nachnutzbarkeit. Ein Anwendungsbereich Abgeleiteter Textformate liegt in der Entwicklung und Verbesserung von Large Language Models (LLMs). Dieses Dokument stellt allgemeine Grundsätze für abgeleitete Textformate an sich sowie für ihre Erstellung und Bereitstellung auf. Basierend darauf können dann Analyseverfahren auf die abgeleiteten Textformate angepasst werden. Durch die Nutzung dieses Dokuments können somit die Grenzen der Analyseverfahren, zum Beispiel bei der Analyse von geschützten Werken, benannt und beschrieben werden. Diese Grundsätze haben zum Ziel, die Nutzung von Textsammlungen insbesondere bei geschützten Werken rechtlich sicherer und nachhaltiger zu gestalten, die Zusammenarbeit zu erleichtern, Vertrauen zu schaffen und neue Möglichkeiten für die Nutzung moderner Analysemethoden zu eröffnen. Dieses Dokument wurde vom Arbeitsausschuss NA 105-00-06 AA "Sprachressourcen und Sprachtechnologie" im DIN-Normenausschuss Terminologie (NAT) erarbeitet.