El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural. En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.
CITATION STYLE
Peralta Vásconez, J. J., Narváez Ortiz, C. A., Orellana Cordero, M. P., Patiño León, P. A., & Cedillo Orellana, P. (2021). Evaluación del reconocimiento de voz entre los servicios de Google y Amazon aplicado al Sistema Integrado de Seguridad ECU 911. Revista Tecnológica - ESPOL, 33(2), 147–158. https://doi.org/10.37815/rte.v33n2.840
Mendeley helps you to discover research relevant for your work.