AWS Amazon Polly, el simulador de voz del presente

La inteligencia artificial y aprendizaje natural aplicado al reconocimiento del habla están experimentado un gran auge, debido, principalmente, a los asistentes virtuales basados en voz como Amazon Alexa. Unos años antes conocimos Amazon Echo, todo un éxito de ventas en Estados Unidos y Reino Unido. Podríamos decir que la totalidad de empresas tecnológicas como Google y Facebook están desplegando soluciones para que la voz tenga un papel fundamental como forma de relacionarnos con las computadoras. Desde hace muchos años, Amazon utiliza aprendizaje automático (machine learning) para muchos de sus servicios más críticos, como inventarios o detección de fraude. Por último, queremos mencionar a Amazon Polly, presentado como un servicio en la nube de inteligencia artificial.

La consultora Gartner predice que este año 2018, el 30% de las interacciones se realizarán a través de conversaciones. El auge de la voz como interfaz ya es una realidad en las aplicaciones de mensajería instantánea como Messenger, Whatsapp y Telegram. Esto forzará a adaptarse hacia interfaces «conversacionales» donde se prescinda de elementos gráficos en favor de conversaciones personalizadas.

¿Qué es Amazon Polly?

Amazon Polly es un servicio en la nube que convierte texto en habla (45 formas). Se trata de un lanzamiento relacionado con la Inteligencia Artificial, utiliza ciencia de aprendizaje profundo avanzado para sintetizar que dicha habla se asemeje totalmente a una voz humana.

¿Para qué se puede utilizar Amazon Polly?

Puede utilizar Amazon Polly para desarrollar aplicaciones que aumenten la participación y mejoren la accesibilidad. Amazon Polly admite diferentes idiomas e incluye una serie de voces realistas, lo que le permite crear aplicaciones que pueden usarse en distintas ubicaciones y emplear los simuladores de voz adecuada para sus clientes.

¿Qué precios tiene?

Con Amazon Polly, solo paga por el texto que se sintetiza. También puede almacenar en caché el habla generada con Amazon Polly y reproducirla sin ningún costo adicional. Un ejemplo: imaginemos un correo electrónico, 3100 caracteres aproximadamente, su costo sería de 0,02 euros.

¿Cuáles son los casos de uso comunes?

Entre los casos de uso comunes de Amazon Polly, se incluyen las aplicaciones móviles, como lectores de noticias, juegos, plataformas de recursos de aprendizaje electrónicos, aplicaciones de accesibilidad para personas con discapacidad y el segmento de Internet de las cosas (IoT). Permitirá a muchas apps o web poder aproximarse a la triple AAA en accesibilidad.

¿Incompatibilidades?

Amazon Polly no está certificado para usarse con cargas de trabajo reguladas, como el Estándar de seguridad de datos (DSS) del sector de tarjetas de pago (PCI), la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA) de 1996 o FedRAMP.

¿Qué posibilidades tiene para los desarrolladores?

Esta solución permite a los desarrolladores inyectar sonidos y capacidades de habla a aplicaciones ya existentes basadas en texto: por ejemplo, aplicaciones de noticias, libros, y similares, ya sea para personas con capacidades diferentes o para favorecer la interacción del usuario con este modelo de apps. Asímismo, puede ser utilizada para concevir nuevas apps o incrustarlas a objetos para que cubran la misma función.

Alguno de los beneficios de usar Amazon Polly son:

a) Gran calidad: Amazon Polly utiliza la mejor tecnología de conversión de texto a voz (TTS) para sintetizar el lenguaje natural con una pronunciación muy precisa (incluida la expansión de abreviaturas y acrónimos, la interpretación de fechas y horas y la desambiguación homográfica).

b) Baja latencia: Amazon Polly garantiza tiempos de respuesta rápidos, lo que la convierte en una opción viable para casos de uso de baja latencia, como los sistemas de diálogo.

c) Compatibilidad con un amplio conjunto de idiomas y voces: Amazon Polly admite docenas de voces y varios idiomas, la mayoría de los cuales disponen de voces masculinas y femeninas.

d) Rentable – El modelo de pago por uso de Amazon Polly significa que no hay existen costos de instalación. Puede comenzar con pocos recursos e ir aumentándolos a medida que crece la aplicación.

e) Solución basada en la nube: las soluciones de conversión de texto a voz instaladas en los dispositivos necesitan importantes recursos informáticos y una gran potencia de CPU, así como gran cantidad de RAM y de espacio en disco. Esto puede generar elevados costos de desarrollo y un mayor consumo de potencia en dispositivos como tablets, smartphones, etc. Por el contrario, cuando el simulador de voz actua en la nube, los requisitos de recursos locales se reducen drásticamente. Esto permite usar todos los lenguajes y voces disponibles con la mejor calidad posible. Además, las mejoras del fragmento hablado están disponibles de forma instantánea para todos los usuarios finales y no requieren nuevas actualizaciones de los dispositivos.

Para resolver más dudas de Amazon Polly.

** Parte de la información reunida en este artículo ha sido recogida de webs de Amazon.

 

Ir al contenido