Conecta con nosotros

Noticias

NVIDIA ha desarrollado un algoritmo que dota de «humanidad» a la voz generada por ordenador

Publicado el

NVIDIA

La inteligencia artificial se ha convertido en uno de los grandes pilares tecnológicos de esta década, de eso no hay ninguna duda, y en NVIDIA tienen claro cómo aprovecharla, tanto a nivel de hardware como de software, no en vano el gigante verde ha conseguido avances tan importantes como los núcleos tensor, los kits Jetson, el ecosistema de desarrollo centrado alrededor de ellos y, como no, la tecnología DLSS, que ha marcado un antes y un después en el mundo de los videojuegos.

Durante la conferencia anual InterSpeech, NVIDIA ha confirmado el desarrollo de un nuevo algoritmo que mejora notablemente el trabajo de la voz generada por ordenador, ya que consigue darle un toque mucho más humano gracias a la entonación. Como sabrán muchos de nuestros lectores, la entonación es, precisamente, uno de los factores más importantes a la hora de hablar, ya que nos permite modular la voz para transmitir sensaciones y llegar mejor al oyente.

Aunque la voz generada por ordenador ha mejorado mucho con el paso de los años (atrás quedaron esas voces robóticas y poco atractivas que sonaban totalmente artificiales y que, en el mejor de los casos, daban risa), lo cierto es que la «humanización» de esta todavía mantenía como un imposible, como que se nos escapaba «entre las manos». Es cierto que todavía no podemos hablar de una humanización plena, pero NVIDIA ha logrado dar otro pasito en la dirección correcta gracias a su nuevo algoritmo.

Para dar forma a su nuevo algoritmo, NVIDIA ha utilizado redes genéricas de confrontación, y en general la investigación resulta similar a la que realizó NVIDIA para producir rostros humanos, y otros objetos aleatorios, a partir de datos de rostros existentes. El resultado es, como podemos ver en el vídeo, realmente bueno, ya que es posible «guiar» a la voz basada en inteligencia artificial, y hacer que esta se parezca de verdad a la fuente original.

La idea fantástica, ya que de la misma manera que nosotros aprendemos a hablar y a entonar, podemos enseñar al algoritmo a hacer lo propio con palabras específicas, humanizando la voz gracias a la entonación, al énfasis perfectamente matizado y al uso de una voz más alta o más suave en momentos concretos. Esta voz puede reproducir letras, pero también es capaz de cantar y puede ayudar a las personas que tienen problemas de comunicación, lo que obviamente le confiere un valor importante.

Editor de la publicación on-line líder en audiencia dentro de la información tecnológica para profesionales. Al día de todas las tecnologías que pueden marcar tendencia en la industria.

Lo más leído