Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.
CITATION STYLE
Gago Jover, F., & Pueyo Mena, F. J. (2018). “Old Spanish Textual Archive”, diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical. Scriptum Digital, 7, 25–35. https://doi.org/10.5565/rev/scriptum.88
Mendeley helps you to discover research relevant for your work.