NA 105

DIN-Normenausschuss Terminologie (NAT)

Norm-Entwurf [VORBESTELLBAR]

DIN 19461
Sprachressourcen und Sprachtechnologie - Abgeleitete Textformate (ATF)

Titel (englisch)

Language resources and language technology - Derived text formats (DTF)

Einführungsbeitrag

Abgeleitete Textformate sind abstrahierte Darstellungen eines Originaltextes, die urheberrechtlich geschützte Inhalte entfernen, aber relevante Informationen für Text und Data Mining (TDM) bewahren. Beispiele sind Wortlisten oder N-Gramme. Sie ermöglichen rechtssichere Forschung, Transparenz und Nachnutzbarkeit. Ein Anwendungsbereich Abgeleiteter Textformate liegt in der Entwicklung und Verbesserung von Large Language Models (LLMs). Dieses Dokument stellt allgemeine Grundsätze für abgeleitete Textformate an sich sowie für ihre Erstellung und Bereitstellung auf. Basierend darauf können dann Analyseverfahren auf die abgeleiteten Textformate angepasst werden. Durch die Nutzung dieses Dokuments können somit die Grenzen der Analyseverfahren, zum Beispiel bei der Analyse von geschützten Werken, benannt und beschrieben werden. Diese Grundsätze haben zum Ziel, die Nutzung von Textsammlungen insbesondere bei geschützten Werken rechtlich sicherer und nachhaltiger zu gestalten, die Zusammenarbeit zu erleichtern, Vertrauen zu schaffen und neue Möglichkeiten für die Nutzung moderner Analysemethoden zu eröffnen. Dieses Dokument wurde vom Arbeitsausschuss NA 105-00-06 AA "Sprachressourcen und Sprachtechnologie" im DIN-Normenausschuss Terminologie (NAT) erarbeitet.

Zuständiges nationales Arbeitsgremium

NA 105-00-06 AA - Sprachressourcen und Sprachtechnologie  

Ausgabe 2026-06
Erscheinung 2026-05-01
Frist zur Stellungnahme 2026-05-01
bis
2026-07-01
Originalsprache Deutsch
Preis ab 112,80 €
Inhaltsverzeichnis

Ihr Kontakt

Annette Preissner

Am DIN-Platz, Burggrafenstr. 6
10787 Berlin

Tel.: +49 30 2601-2012
Fax: +49 30 2601-42012

Zum Kontaktformular