Ir al contenido principal

Tres plataformas para convertir voz en texto que puedes comenzar a utilizar en el entorno corporativo



Cuando se trata de convertir audio en texto, existen cientos de servicios y proveedores que puedes utilizar para realizar esta tarea. Entre ellos, puedes optar por servicios de implementación ad-hoc (un servidor en tu centro de datos) como los que ofrecen Verint y Genesys o puedes elegir un modelo “pago por uso” que esté basado en plataformas cloud.

La realidad del mundo corporativo es que muchas compañías ya contratan los servicios de un proveedor global de este tipo de plataformas, como Amazon, IBM o Google. Además, están contratando allí algunos servicios como alquiler de servidores, almacenamiento compartido, bases de datos y hasta posiblemente servicios de inteligencia artificial y analítica de datos. Si este es tu caso, desde estas plataformas tienes la posibilidad de utilizar las APIs de speech-to-text, o sea, las interfases que te permiten realizar la tarea de convertir el audio en texto.

Los tres factores a considerar para lograr resultados exitosos en este proceso son:

1) La conexión con el servicio

El proceso de convertir audio en texto utilizando las APIs de estos proveedores cloud es una tarea para programadores o al menos para personas que sepan utilizar llamadas de POST y GET en entornos de servicios web. Esto significa que deberás contar con la asistencia de personal experto que te ayude a conectar con el servicio a través de la creación de un proceso automatizado que cargue los audios que desees analizar y los envíe a los servicios de transcripción.

2) El control de calidad de la transcripción

Una vez que has obtenido un número significativo de transcripciones, puedes verificar qué tan precisas son con respecto a los textos originales. Para obtener dichos textos originales, es necesario escuchar los audios y escribir el texto mediante recursos humanos. A los efectos de esta comparación se utiliza un índice llamado WER o “word error rate” que mide el ratio de error de palabras considerando como palabras erróneas aquellas que se han confundido, eliminado o las agregado en el texto. El cálculo de WER se hace con una algoritmo simple que permite obtener estos ratios de manera inmediata. Una comparación WER podría verse de la siguiente forma:

PLAT    WER   Ins.  Del.  Subst.

# GOO 45.76%   7.4 7.00  31.36

# AWS 43.05%  5.4 8.10 29.49

# IBM 45.08%   7.1 5.70 32.20

La precisión se obtiene restando 100% menos el WER de cada opción.




3) El mejoramiento del modelo de transcripción

Una vez observado el índice WER en las diferentes APIs, la siguiente etapa consiste en utilizar los métodos que cada proveedor ofrece para perfeccionar estas transcripciones.

Adaptación de la voz de Google

En el caso de Google, el proceso disponible se denomina “Speech Adaptation” o adaptación de la voz. Es un proceso que se implementa también a través de su API de speech-to-text. La adaptación de voz permite hacer una sintonización fina de palabras y frases en base al contexto mediante ponderadores y máscaras de texto prefabricadas que, al combinarlas con las transcripciones, producen un resultado mejorado. Este proceso no es un proceso de aprendizaje de la máquina o “machine learning”, por lo tanto lleva mucho tiempo desarrollar estas mejoras para cada dominio de conversación al que pertenecen nuestras llamadas.

Modelos de Lenguaje a medida

Por otra parte, las APIs de speech-to-text de Amazon e IBM ofrecen la posibilidad de crear “Modelos de Lenguaje a Medida” o Customized Language Models a través de entrenamiento de las máquinas. Estos procesos sí están basados en el aprendizaje de la máquina o machine learning y nos permiten mejorar la precisión de manera más rápida. Sin embargo, el producto final dependerá mucho de la calidad de la transcripción inicial que a su vez está condicionada por el formato de grabación del audio, el nivel de ruido en las conversaciones y el modelo del lenguaje desde el que partimos. Por ejemplo, un modelo de inglés británico puede estar mucho más desarrollado y entrenado que un modelo de portugés brasilero o uno de español ecuatoriano.

¡Eso es! Conectar, controlar la calidad y mejorar las transcripciones es el camino que te llevará a un nivel de precisión satisfactorio que represente de manera muy aproximada lo que está sucediendo en las llamadas de tu compañía.

¿Entonces, cómo seguimos? Lo que sigue se llama NLP o procesamiento del lenguaje natural a través del cual podrás comenzar la verdadera aventura de descubrir las conversaciones claves entre tus clientes y agentes de atención, pero eso será tema de otro artículo.

________________________________________________________________________

Speech y Text Analytics es una tecnolgía que mejora significativamente el ROI de tu negocio.

Fan Monitoring te ofrece la forma más flexible y fácil de integrar soluciones de Speech y Text Analytics basadas en inteligencia artificial a tus procesos en el centro de contacto.

¡Contáctanos hoy!

Photo by NordWood Themes on Unsplash


Comentarios