Ir al contenido principal

Tres plataformas para convertir voz en texto que puedes comenzar a utilizar en el entorno corporativo



Cuando se trata de convertir audio en texto, existen cientos de servicios y proveedores que puedes utilizar para realizar esta tarea. Entre ellos, puedes optar por servicios de implementaci√≥n ad-hoc (un servidor en tu centro de datos) como los que ofrecen Verint y Genesys o puedes elegir un modelo “pago por uso” que est√© basado en plataformas cloud.

La realidad del mundo corporativo es que muchas compa√Ī√≠as ya contratan los servicios de un proveedor global de este tipo de plataformas, como Amazon, IBM o Google. Adem√°s, est√°n contratando all√≠ algunos servicios como alquiler de servidores, almacenamiento compartido, bases de datos y hasta posiblemente servicios de inteligencia artificial y anal√≠tica de datos. Si este es tu caso, desde estas plataformas tienes la posibilidad de utilizar las APIs de speech-to-text, o sea, las interfases que te permiten realizar la tarea de convertir el audio en texto.

Los tres factores a considerar para lograr resultados exitosos en este proceso son:

1) La conexión con el servicio

El proceso de convertir audio en texto utilizando las APIs de estos proveedores cloud es una tarea para programadores o al menos para personas que sepan utilizar llamadas de POST y GET en entornos de servicios web. Esto significa que deberás contar con la asistencia de personal experto que te ayude a conectar con el servicio a través de la creación de un proceso automatizado que cargue los audios que desees analizar y los envíe a los servicios de transcripción.

2) El control de calidad de la transcripción

Una vez que has obtenido un n√ļmero significativo de transcripciones, puedes verificar qu√© tan precisas son con respecto a los textos originales. Para obtener dichos textos originales, es necesario escuchar los audios y escribir el texto mediante recursos humanos. A los efectos de esta comparaci√≥n se utiliza un √≠ndice llamado WER o “word error rate” que mide el ratio de error de palabras considerando como palabras err√≥neas aquellas que se han confundido, eliminado o las agregado en el texto. El c√°lculo de WER se hace con una algoritmo simple que permite obtener estos ratios de manera inmediata. Una comparaci√≥n WER podr√≠a verse de la siguiente forma:

PLAT    WER   Ins.  Del.  Subst.

# GOO 45.76%   7.4 7.00  31.36

# AWS 43.05%  5.4 8.10 29.49

# IBM 45.08%   7.1 5.70 32.20

La precisión se obtiene restando 100% menos el WER de cada opción.




3) El mejoramiento del modelo de transcripción

Una vez observado el índice WER en las diferentes APIs, la siguiente etapa consiste en utilizar los métodos que cada proveedor ofrece para perfeccionar estas transcripciones.

Adaptación de la voz de Google

En el caso de Google, el proceso disponible se denomina “Speech Adaptation” o adaptaci√≥n de la voz. Es un proceso que se implementa tambi√©n a trav√©s de su API de speech-to-text. La adaptaci√≥n de voz permite hacer una sintonizaci√≥n fina de palabras y frases en base al contexto mediante ponderadores y m√°scaras de texto prefabricadas que, al combinarlas con las transcripciones, producen un resultado mejorado. Este proceso no es un proceso de aprendizaje de la m√°quina o “machine learning”, por lo tanto lleva mucho tiempo desarrollar estas mejoras para cada dominio de conversaci√≥n al que pertenecen nuestras llamadas.

Modelos de Lenguaje a medida

Por otra parte, las APIs de speech-to-text de Amazon e IBM ofrecen la posibilidad de crear “Modelos de Lenguaje a Medida” o Customized Language Models a trav√©s de entrenamiento de las m√°quinas. Estos procesos s√≠ est√°n basados en el aprendizaje de la m√°quina o machine learning y nos permiten mejorar la precisi√≥n de manera m√°s r√°pida. Sin embargo, el producto final depender√° mucho de la calidad de la transcripci√≥n inicial que a su vez est√° condicionada por el formato de grabaci√≥n del audio, el nivel de ruido en las conversaciones y el modelo del lenguaje desde el que partimos. Por ejemplo, un modelo de ingl√©s brit√°nico puede estar mucho m√°s desarrollado y entrenado que un modelo de portug√©s brasilero o uno de espa√Īol ecuatoriano.

¡Eso es! Conectar, controlar la calidad y mejorar las transcripciones es el camino que te llevar√° a un nivel de precisi√≥n satisfactorio que represente de manera muy aproximada lo que est√° sucediendo en las llamadas de tu compa√Ī√≠a.

¿Entonces, c√≥mo seguimos? Lo que sigue se llama NLP o procesamiento del lenguaje natural a trav√©s del cual podr√°s comenzar la verdadera aventura de descubrir las conversaciones claves entre tus clientes y agentes de atenci√≥n, pero eso ser√° tema de otro art√≠culo.

________________________________________________________________________

Speech y Text Analytics es una tecnolgía que mejora significativamente el ROI de tu negocio.

Fan Monitoring te ofrece la forma m√°s flexible y f√°cil de integrar soluciones de Speech y Text Analytics basadas en inteligencia artificial a tus procesos en el centro de contacto.

¡Cont√°ctanos hoy!

Photo by NordWood Themes on Unsplash


Comentarios