Las API de conversión de voz a texto (STT) permiten a los desarrolladores incorporar la transcripción automática en cualquier aplicación compatible con voz. Las API se basan en modelos ASR de aprendizaje profundo altamente precisos y fáciles de entrenar, y admitimos casos de uso por lotes y de streaming.
Invoca nuestras API de STT con nuestro servicio en la nube altamente escalable o implementa una versión en contenedores de Voicegain en tu VPC o centro de datos. Nuestras API pueden convertir archivos de audio/vídeo por lotes o una transmisión multimedia en tiempo real en texto, y admitimos más de 40 formatos de audio.
En un amplio índice de referencia, nuestra precisión del 89% está a la altura de las mejores
Hable con nosotros en inglés, español, alemán, portugués, coreano (más en breve)
Probado en instancias informáticas de Google, AWS, Azure, IBM y Oracle
Se integra con Twilio, Genesys, FreeSwitch y otras plataformas CCaaS y CPaaS
Voicegain lanzó una extensión para Voicegain API /asr/recognize que apoya Twilio Transmisiones multimedia vía TwiML <Connect><Stream>. Con este lanzamiento, los desarrolladores que utilizan la voz programable de Twilio obtienen una preciso, asequible, y un ASR fácil de usar para crear Voice Bots /Speech-IVRs.
Actualización: Voicegain también anunció que su transcripción de vocabulario extenso (/asr/transcribe API) se integra con Twilio Media Streams. Los desarrolladores pueden usarlo para activar por voz un bot de chat desarrollado en cualquier plataforma de bots o desarrollar una aplicación de asistencia para agentes en tiempo real.
La compatibilidad con Voicegain Twilio Media Streams ofrece a los desarrolladores las siguientes funciones:
TWiML <Stream>requiere una URL de websocket. Esta URL se puede obtener invocando la API Voicegain /asr/recognize/async. Al invocar esta API, se debe proporcionar la gramática que se utilizará en el reconocimiento. La URL del websocket se devolverá en la respuesta.
Además de la URL wss, los parámetros personalizados del <Connect><Stream>comando se utilizan para transmitir información sobre la línea de pregunta que Voicegain reproducirá a la persona que llama. Puede ser un texto o una URL a un servicio que proporcionará el audio.
Una vez que <Connect><Stream>se ha invocado, la plataforma Voicegain se hace cargo de ella:
Por cierto, también admitimos la entrada DTMF como alternativa a la entrada de voz.
[ACTUALIZACIÓN: puedes ver más detalles sobre cómo usar Voicegain con Twilio Media Streams en esta nueva Entrada de blog.]
1. Soporte Edge local: Si bien las API de Voicegain están disponibles como un servicio de PaaS en la nube, Voicegain también admite la implementación local o perimetral. Voicegain se puede implementar como un servicio en contenedores en un clúster de Kubernetes de un solo nodo o en un clúster de Kubernetes de alta disponibilidad de varios nodos (en el hardware de la GPU o en la VPC).
2. Personalización del modelo acústico: Esto permite lograr una precisión muy alta más allá de lo que es posible sin los reconocedores listos para usar. La herramienta de ajuste gramatical y regresión mencionada anteriormente se puede utilizar para recopilar datos de entrenamiento para la personalización del modelo acústico.
En nuestra hoja de ruta a corto plazo para los usuarios de Twilio, tenemos varias funciones más:
Puedes inscribirte en prueba nuestro plataforma. Ofrecemos 600 minutos de uso mensual gratuito de la plataforma. Si tienes preguntas sobre la integración con Twilio, envíanos una nota a support@voicegain.ai.
Twilio, TwiML y Twilio Programmable Voice son marcas comerciales registradas de Twilio, Inc.
Desde junio de 2020, Voicegain ha publicado puntos de referencia sobre la precisión de su conversión de voz a texto en comparación con los motores ASRS/voz de conversión de texto de gran tecnología, como Amazon, Google, IBM y Microsoft.
El conjunto de datos de referencia para esta comparación ha sido un conjunto de datos de terceros publicado por una entidad independiente e incluye una amplia variedad de datos de audio: audiolibros, vídeos de YouTube, podcasts, conversaciones telefónicas, reuniones de zoom y más.
Aquí hay un enlace a algunos de los puntos de referencia que hemos publicado.
1. Enlace Punto de referencia de precisión hasta junio de 2020
2. Enlace Punto de referencia de precisión hasta septiembre de 2020
3. Enlace Punto de referencia de precisión hasta junio de 2021
4. Enlace Punto de referencia de precisión hasta octubre de 2021
5. Enlace Punto de referencia de precisión hasta junio de 2022
A través de este proceso, hemos obtenido información sobre lo que se necesita para ofrecer una alta precisión para un caso de uso específico.
Ahora presentamos una primicia en la industria precisión relativa de voz a texto punto de referencia para nuestros clientes. Por «relativa», la precisión de Voicegain (medida según el porcentaje de errores de palabras) se comparará con la de un gran actor tecnológico con el que el cliente nos esté comparando. Voicegain proporcionará un acuerdo de nivel de servicio con una precisión prácticamente igual a la de este gran actor tecnológico.
Seguimos el siguiente proceso de 4 pasos para calcular el SLA de precisión relativa
En colaboración con el cliente, Voicegain selecciona un conjunto de datos de audio de referencia que sea representativo de los datos reales que el cliente debe procesar. Por lo general, se trata de una selección aleatoria del audio del cliente. También recomendamos que los clientes conserven su propio conjunto de datos de referencia independiente, que no compartan con Voicegain, para validar nuestros resultados.
Voicegain se asocia con empresas de etiquetado manual de IA líderes del sector para generar una transcripción precisa del 99% generada por humanos de este conjunto de datos de referencia. Nos referimos a esto como la referencia dorada.
En este conjunto de datos de referencia, Voicegain proporcionará scripts que permitan a los clientes realizar una comparación del índice de errores de palabras (WER) entre la plataforma Voicegain y cualquiera de los principales proveedores de ASR del sector con los que el cliente nos compare.
Actualmente, Voicegain calcula los siguientes dos (2) KPI
a. Tasa media de errores de palabras: Este es el WER medio en todos los archivos de audio del conjunto de datos de referencia para ambos ASR.
b. Tasa de error de palabras en el cuarto cuartil: Después de organizar los archivos de audio en el conjunto de datos de referencia en orden creciente de WER con Big Tech ASR, calculamos y comparamos el WER promedio del cuarto cuartil tanto para Voicegain como para Big Tech ASR.
Por lo tanto, garantizamos contractualmente que la precisión de Voicegain para los 2 KPI anteriores en relación con el otro ASR se encuentre dentro de un umbral aceptable para el cliente.
Voicegain mide este SLA de precisión dos veces durante el primer año del contrato y una vez al año a partir del segundo año.
Si Voicegain no cumple con los términos del SLA de precisión relativa, entrenaremos el modelo acústico subyacente para que cumpla con el SLA de precisión. Asumiremos los gastos relacionados con el etiquetado y la formación. Voicegain garantizará que cumplirá con el SLA de precisión en un plazo de 90 días a partir de la fecha de la medición.
1. Haga clic aquí para obtener instrucciones sobre cómo acceder a nuestro sitio de demostración en vivo.
2. Si estás creando una aplicación de voz genial y quieres probar nuestras API, haz clic aquí para crear una cuenta de desarrollador y recibir 50$ en créditos gratis
3. Si quieres usar Voicegain como tu propio asistente de transcripción con IA para las reuniones, haz clic aquí.
¿Está interesado en personalizar el ASR o implementar Voicegain en su infraestructura?