Speech-to-Text API | Speech-to-Text Platform

Consulte nuestro blog para obtener información, puntos de referencia, códigos de muestra y más

Blog Voicegain

Desarrolladores

Voicegain Speech-to-Text se integra con Twilio Media Streams

Por

Jacek Jarmulak

•

lectura mínima

Voicegain lanzó una extensión para Voicegain API /asr/recognize que apoya Twilio Transmisiones multimedia vía TwiML <Connect><Stream>. Con este lanzamiento, los desarrolladores que utilizan la voz programable de Twilio obtienen una preciso, asequible, y un ASR fácil de usar para crear Voice Bots /Speech-IVRs.

Actualización: Voicegain también anunció que su transcripción de vocabulario extenso (/asr/transcribe API) se integra con Twilio Media Streams. Los desarrolladores pueden usarlo para activar por voz un bot de chat desarrollado en cualquier plataforma de bots o desarrollar una aplicación de asistencia para agentes en tiempo real.

Características principales de la compatibilidad con Twilio Media Streams

La compatibilidad con Voicegain Twilio Media Streams ofrece a los desarrolladores las siguientes funciones:

Soporte gramatical para bots e IVR: Los desarrolladores ahora pueden escribir bots de voz o IVR que usen gramáticas. El uso de gramáticas puede mejorar la precisión del reconocimiento y simplificar el desarrollo de bots restringiendo el motor de conversión de voz a texto. Además, muchos IVR tradicionales de VoiceXML se crean utilizando gramáticas. <Gather>Hasta ahora, Twilio Twiml no admitía el uso de gramáticas de voz, ya que el comando solo admite la captura de texto. Esto dificultaba la creación de bots sencillos o la migración de las aplicaciones de IVR de VoiceXML existentes a la plataforma Twilio. La asignación del texto al significado semántico tenía que hacerse por separado, además de que un reconocedor de vocabulario extenso era más probable que devolviera reconocimientos falsos. Voicegain resuelve estos problemas al admitir ambos GRXML y JSGF gramáticas de voz en el nivel básico del motor de conversión de voz a texto (ASR). Esto ofrece una mayor precisión en comparación con un ASR que utiliza un modelo lingüístico de vocabulario extenso para reconocer el texto y, a continuación, aplica la gramática al texto reconocido.
Ahorro del 90% en los costos de licencias de ASR: Una gran ventaja para los desarrolladores de la plataforma de voz programable Twilio ha sido su precio asequible. Sin embargo, eso no era necesariamente cierto en el caso de las opciones de ASR existentes, ya <Gather>que tienen un precio de 8 céntimos por minuto (con un mínimo de 15 segundos). Con Voicegain, el ASR/STT precio es de 1,25 céntimos/minuto medido en incrementos de 1 segundo. Si incluyes el incremento de facturación, los desarrolladores obtenga un ahorro de costos del 90%.
Mejor soporte de tiempo de espera: Voicegain admite tiempos de espera configurables sin entrada, tiempo de espera completo y tiempo de espera incompleto. Gracias a que la gramática está integrada en el reconocedor, Voicegain ASR es capaz de ofrecer una respuesta precisa y completa cuando se agota el tiempo de espera, algo que no es posible con un <Gather>comando, ya que la única forma de saber si la persona que llama ha dejado de hablar es haciendo una pausa lo suficientemente larga.
Simplifica reproducción dinámica de mensajes<Stream>. -- Para que su uso sea lo más <Connect><Stream>fácil posible, admitimos pasar instrucciones al invocar. Las instrucciones se pueden proporcionar como texto o como URL. Si se proporciona como texto, Voicegain utilizará TTS o realizará una concatenación dinámica de las indicaciones pregrabadas. Como parte del portal web de Voicegain, se proporciona un administrador de mensajes para tales mensajes pregrabados. Configurable irrumpir es compatible con las indicaciones.
Afina y prueba las gramáticas. -- El portal web Voicegain incluye una herramienta para revisar y ajustar la gramática. La herramienta también admite pruebas de regresión. Con esta funcionalidad, nunca tendrá que implementar gramáticas sin saber qué tan bien funcionarán después de los cambios.

Cómo funciona Twilio Media Streams con Voicegain

‍

‍

TWiML <Stream>requiere una URL de websocket. Esta URL se puede obtener invocando la API Voicegain /asr/recognize/async. Al invocar esta API, se debe proporcionar la gramática que se utilizará en el reconocimiento. La URL del websocket se devolverá en la respuesta.

‍

Además de la URL wss, los parámetros personalizados del <Connect><Stream>comando se utilizan para transmitir información sobre la línea de pregunta que Voicegain reproducirá a la persona que llama. Puede ser un texto o una URL a un servicio que proporcionará el audio.

Una vez que <Connect><Stream>se ha invocado, la plataforma Voicegain se hace cargo de ella:

Reproduce el mensaje a través del canal posterior de <Stream>
Tan pronto como la persona que llama comience a hablar, la reproducción del mensaje se detiene (si aún se estaba reproduciendo) exactamente igual que en <Gather>
Las palabras habladas se reconocen mediante la gramática. Luego, el resultado del reconocimiento se proporciona como una devolución de llamada desde la plataforma Voicegain. En caso de que no se introduzca ninguna información o no coincida, también se realizará una devolución de llamada adecuada.
<Stream>la conexión se detiene y la aplicación TWiML continuará con el siguiente comando.

Por cierto, también admitimos la entrada DTMF como alternativa a la entrada de voz.

[ACTUALIZACIÓN: puedes ver más detalles sobre cómo usar Voicegain con Twilio Media Streams en esta nueva Entrada de blog.]

Otras funciones de la plataforma Voicegain

1. Soporte Edge local: Si bien las API de Voicegain están disponibles como un servicio de PaaS en la nube, Voicegain también admite la implementación local o perimetral. Voicegain se puede implementar como un servicio en contenedores en un clúster de Kubernetes de un solo nodo o en un clúster de Kubernetes de alta disponibilidad de varios nodos (en el hardware de la GPU o en la VPC).

2. Personalización del modelo acústico: Esto permite lograr una precisión muy alta más allá de lo que es posible sin los reconocedores listos para usar. La herramienta de ajuste gramatical y regresión mencionada anteriormente se puede utilizar para recopilar datos de entrenamiento para la personalización del modelo acústico.

Próximamente más funciones

En nuestra hoja de ruta a corto plazo para los usuarios de Twilio, tenemos varias funciones más:

Avanzado Detección de contestador automático (AMD): se invocará mediante el <Connect><Stream>reconocimiento de voz y proporcionará una detección muy precisa del contestador automático.
Modelo de lenguaje de amplio vocabulario para capturar solo las palabras habladas (no se utilizan gramáticas) e integrarlo con cualquier motor de NLU de su elección. <Gather>Creemos que será atractivo debido al menor costo en comparación con.
Asistencia de agentes en tiempo real - estamos combinando nuestro reconocimiento de voz en tiempo real con el análisis de voz para ofrecer una API que permitirá crear aplicaciones de supervisión y asistencia a los agentes en tiempo real.

Puedes inscribirte en prueba nuestro plataforma. Ofrecemos 600 minutos de uso mensual gratuito de la plataforma. Si tienes preguntas sobre la integración con Twilio, envíanos una nota a support@voicegain.ai.

Twilio, TwiML y Twilio Programmable Voice son marcas comerciales registradas de Twilio, Inc.

‍

Leer más →

Punto de referencia

Voicegain presenta un SLA de precisión relativa de voz a texto

Por

Arun Santhebennur

•

lectura mínima

Desde junio de 2020, Voicegain ha publicado puntos de referencia sobre la precisión de su conversión de voz a texto en comparación con los motores ASRS/voz de conversión de texto de gran tecnología, como Amazon, Google, IBM y Microsoft.

El conjunto de datos de referencia para esta comparación ha sido un conjunto de datos de terceros publicado por una entidad independiente e incluye una amplia variedad de datos de audio: audiolibros, vídeos de YouTube, podcasts, conversaciones telefónicas, reuniones de zoom y más.

Aquí hay un enlace a algunos de los puntos de referencia que hemos publicado.

1. Enlace Punto de referencia de precisión hasta junio de 2020

2. Enlace Punto de referencia de precisión hasta septiembre de 2020

3. Enlace Punto de referencia de precisión hasta junio de 2021

4. Enlace Punto de referencia de precisión hasta octubre de 2021

5. Enlace Punto de referencia de precisión hasta junio de 2022

A través de este proceso, hemos obtenido información sobre lo que se necesita para ofrecer una alta precisión para un caso de uso específico.

Ahora presentamos una primicia en la industria precisión relativa de voz a texto punto de referencia para nuestros clientes. Por «relativa», la precisión de Voicegain (medida según el porcentaje de errores de palabras) se comparará con la de un gran actor tecnológico con el que el cliente nos esté comparando. Voicegain proporcionará un acuerdo de nivel de servicio con una precisión prácticamente igual a la de este gran actor tecnológico.

Seguimos el siguiente proceso de 4 pasos para calcular el SLA de precisión relativa

1. Identifique el conjunto de datos de referencia del

En colaboración con el cliente, Voicegain selecciona un conjunto de datos de audio de referencia que sea representativo de los datos reales que el cliente debe procesar. Por lo general, se trata de una selección aleatoria del audio del cliente. También recomendamos que los clientes conserven su propio conjunto de datos de referencia independiente, que no compartan con Voicegain, para validar nuestros resultados.

2. Generar referencia dorada

Voicegain se asocia con empresas de etiquetado manual de IA líderes del sector para generar una transcripción precisa del 99% generada por humanos de este conjunto de datos de referencia. Nos referimos a esto como la referencia dorada.

3. Ejecute una comparación de precisión relativa

En este conjunto de datos de referencia, Voicegain proporcionará scripts que permitan a los clientes realizar una comparación del índice de errores de palabras (WER) entre la plataforma Voicegain y cualquiera de los principales proveedores de ASR del sector con los que el cliente nos compare.

4. Calcule los KPI para un SLA de precisión relativa

‍Actualmente, Voicegain calcula los siguientes dos (2) KPI

a. Tasa media de errores de palabras: Este es el WER medio en todos los archivos de audio del conjunto de datos de referencia para ambos ASR.‍

b. Tasa de error de palabras en el cuarto cuartil: Después de organizar los archivos de audio en el conjunto de datos de referencia en orden creciente de WER con Big Tech ASR, calculamos y comparamos el WER promedio del cuarto cuartil tanto para Voicegain como para Big Tech ASR.

Por lo tanto, garantizamos contractualmente que la precisión de Voicegain para los 2 KPI anteriores en relación con el otro ASR se encuentre dentro de un umbral aceptable para el cliente.

¿Con qué frecuencia se mide este SLA de precisión?

Voicegain mide este SLA de precisión dos veces durante el primer año del contrato y una vez al año a partir del segundo año.

¿Qué sucede si Voicegain no cumple con el SLA?

Si Voicegain no cumple con los términos del SLA de precisión relativa, entrenaremos el modelo acústico subyacente para que cumpla con el SLA de precisión. Asumiremos los gastos relacionados con el etiquetado y la formación. Voicegain garantizará que cumplirá con el SLA de precisión en un plazo de 90 días a partir de la fecha de la medición.

¡Haz una prueba de manejo con Voicegain!

1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.

2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis

3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.

‍

Leer más →

Casey

AI Voice Agent Platform

Transcribe

API de conversión de voz a texto

89%

8

5

Más de 10