A medida que Google avanza hacia una inteligencia artificial que se asemeja cada vez más a la naturaleza, el Alter de Hiroshi Ishiguro se inclina a aceptar lo no humano.
Toru Yamanaka/AFP/Getty Images
La inteligencia artificial de Google puede crear sus propias imágenes surrealistas y hasta vencer al humano campeón del antiguo juego de Go. Y ahora, puede imitar de manera muy realista el habla humana, incluyendo los sonidos no hablados que emiten la boca y el sistema respiratorio cuando una persona habla. El sistema se llama WaveNet, que consiste de una red neuronal que genera ondas de audio, y es realmente realista (valga la aliteración).
Sí tenemos generadores de texto al habla, y son muy útiles, especialmente para aquellos que padecen de ceguera. Sin embargo, estos generadores están constituidos por grabaciones de una persona diciendo y articulando una variedad de sonidos, y luego realizando distintas combinaciones de esos sonidos para concordar con el texto. Esto se conoce como síntesis concatenativa y, como te imaginarás, suena muy artificial. La síntesis paramétrica de voz genera audio con el uso de vocodificadores y sintetizadores que analizan y reproducen el habla; sin embargo, también suenan poco naturales y robóticos.
WaveNet es una inteligencia artificial, lo que significa que puede aprender. Los investigadores lo nutrieron de ejemplos del habla humana. Esto le permite a WaveNet modelar las ondas (más de 16,000 muestras por segundo) y generar un modelo predictivo que produce sonidos que vienen de los sonidos emitidos anteriormente.
El resultado es tan realista que suena como una persona, aun y especialmente cuando WaveNet tuvo que generar sus propios sonidos.
WaveNet haciendo ruidos sin sentido.
0 comments:
Publicar un comentario