Punto de referencia

Punto de referencia de precisión de voz a texto: octubre de 2021

[ACTUALIZACIÓN DEL 23 DE ENERO DE 22: Tras entrenarse con datos adicionales, el reconocedor Voicegain ahora alcanza un WER promedio del 11,89% (una mejora del 0,35%) y un WER medio del 10,82% (una mejora del 0,21%) en este punto de referencia.

Voicegain ahora es mejor que Google Enhanced en 44 archivos (antes 39).

Voicegain es ahora el reconocedor más preciso en 12 de los archivos (anteriormente 10).

Tenemos datos adicionales sobre los que nos capacitaremos pronto y luego proporcionaremos un conjunto completamente nuevo de resultados y comparaciones.]

Han pasado más de 4 meses desde que publicamos nuestra última precisión de reconocimiento de voz punto de referencia. En aquel entonces, los resultados eran los siguientes (del más preciso al menos preciso): Amazon y Microsoft (cerca del segundo lugar), luego Google Enhanced y Voicegain (también cerca del cuarto lugar) y, muy por detrás, IBM Watson y Google Standard.

Desde entonces, hemos modificado la arquitectura de nuestro modelo y lo hemos entrenado con más datos. Esto resultó en un aumento adicional en la precisión de nuestro modelo. En lo que respecta al resto de reconocedores, Microsoft fue el que más mejoró la precisión de su modelo, mientras que la precisión de otros se mantuvo más o menos igual.

Metodología

Hemos repetido la prueba con una metodología similar a la anterior: utilizamos 44 archivos del Conjunto de datos de Jason Kincaid y 20 archivos publicado por rev.ai y eliminó todos los archivos en los que el mejor reconocedor no pudo alcanzar una tasa de errores de palabras (WER) inferior al 25%. Nota: anteriormente, utilizábamos el 20% como umbral, pero esta vez hemos decidido conservar más archivos con una precisión baja para ilustrar las diferencias en ese tipo de archivos entre los reconocedores.

Solo tres archivos eran tan difíciles que ninguno de los reconocedores podía alcanzar el 25% de WER. Los dos archivos borrados eran entrevistas radiofónicas con una grabación de mala calidad.

Voicegain ahora es mejor que Google Enhanced

Como puedes ver en el gráfico de resultados anterior, Voicegain ahora es mejor que Google Enhanced, tanto en promedio como en promedio de WER. Al observar los archivos individuales, los resultados también muestran que la precisión de Voicegain es, en la mayoría de los casos, mejor que la de Google:

  • Voicegain fue mejor que Google Enhanced en 39 archivos
  • Google Enhanced fue mejor en 20 archivos
  • Estaban empatados en dos expedientes.

Otros resultados

Observaciones clave sobre otros resultados:

  • Si tenemos en cuenta el WER promedio y la mediana, Voicegain parece empatado, con Amazon con un valor medio mejor en un 0,07%, pero el valor promedio peor en un 0,76%.
  • Si tenemos en cuenta el WER promedio y la mediana, el reconocedor de Microsoft es mejor que el de Amazon, con un promedio mejor del 0,49% y una mediana mejor del 0,69%.
  • Cuando miras los archivos de audio individuales, los mejores reconocedores de puntuación fueron:
  • Amazon: fue el mejor en 29 archivos
  • Microsoft: fue mejor en 20 archivos
  • Voicegain: fue mejor en 10 archivos
  • Google Enhanced: fue mejor en 2 archivos

Como puede ver, el campo está muy cerca y se obtienen resultados diferentes en diferentes archivos (el promedio y la mediana no muestran el panorama completo). Como siempre, te invitamos a revisa nuestras aplicaciones, regístrate y compruebe nuestra precisión con sus datos.

La precisión lista para usar no lo es todo

Cuando tiene que seleccionar el software de reconocimiento de voz/ASR, hay otros factores que van más allá de la precisión del reconocimiento lista para usar. Estos factores son, por ejemplo:

  • Posibilidad de personalizar el modelo acústico - El modelo Voicegain puede entrenarse con sus datos de audio; tenemos demostrada mejora en la precisión del 7 al 10%. De hecho, para uno de nuestros clientes con datos de entrenamiento adecuados y un audio de buena calidad, logramos un WER del 0,5% (precisión del 99,5%)
  • Facilidad de integración - Muchos proveedores de conversión de voz a texto ofrecen API limitadas, especialmente para los desarrolladores que crean aplicaciones que requieren interactuar con plataformas de telefonía o centros de contacto locales.
  • Precio - Voicegain cuesta entre un 60 y un 75% menos en comparación con otros proveedores de software de voz a texto/ASR, y ofrece una precisión casi comparable. Esto hace que sea asequible transcribir y analizar voz en grandes volúmenes.
  • Soporte para implementación local o perimetral - Los proveedores de servicios de voz a texto en la nube ofrecen un soporte limitado para implementar su software de voz a texto en los centros de datos de los clientes o en las nubes privadas de otros proveedores. Por otro lado, Voicegain se puede instalar en cualquier clúster de Kubernetes, ya sea gestionado por un gran proveedor de nube o por el cliente.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

Ganancia de voz: La IA de voz bajo tu control

Ganancia de voz: Cree aplicaciones de IA de voz con nuestras API de NLU de voz a texto y LLM. Graba y transcribe reuniones, llamadas a centros de atención al cliente, vídeos, etc. Obtén resúmenes, opiniones y mucho más basados en LLM. Cree bots de voz conversacionales que se integren con su plataforma CCaaS local o en la nube. Comience hoy mismo.

Descubre cómo funciona Voicegain — obtén una demostración de Voicegain hoy mismo.

Inscríbase hoy mismo en una aplicación
* No se requiere tarjeta de crédito.

Empresarial

¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?

Póngase en contacto con nosotros →
Voicegain - Speech-to-Text
Under Your Control