dadabots e a música do futuro

Enquanto os limites éticos entre reviver artistas mortos em deepfakes de comercial de margarina ou hologramas de turnês superfaturadas permanecem sem solução, pesquisadores exploram as possibilidades criativas das novas tecnologias de geração de áudio

stêvz
#chupamangazine
19 min readAug 7, 2023

--

space is the place

Seguindo as transmissões de rádio de John Shepherd para o espaço sideral e o lançamento das sondas Voyager 1 e 2, em 1977 — que carregavam uma mixtape de Carl Sagan em disco de ouro intitulada "Sons da Terra" — ; quando a Voyager 3 foi lançada pela NASA, em vez de algum formato estático de áudio previamente gravado ela carregava uma rede neural programada para gerar música infinitamente para os ouvidos extraterrestres.

A famosa capa do disco dourado da NASA, com diagrama de instruções.

É claro que não houve Voyager 3, é tudo parte do storytelling, mas a música infinita gerada por inteligência artificial pode ser encontrada agora mesmo em nosso planeta, no canal de Youtube dos DADABOTS — nome do projeto encabeçado por CJ Carr e Zack Zukowski, dois músicos e tecnólogos que se conheceram enquanto eram alunos na faculdade de Berklee e treinam redes neurais recorrentes (RNN) para exportar sequências musicais nos mais variados estilos. A dupla tornou-se conhecida ainda em 2017, ao lançar discos de Neural Math Metal e Neural Skate Punk no Bandcamp, mas superou-se com o stream ao vivo "Relentless Doppelganger", que transmite 24 horas por dia de Death Metal técnico gerado nas catacumbas de um algoritmo insano.

O vídeo original já teve que ser removido (provavelmente devido ao limite de tempo da plataforma), mas a versão atual continua transmitindo ininterruptamente desde setembro de 2019.

Desde então, vieram um punhado de outras sessões de descarrego digital (atualmente são 5 transmissões ao vivo ininterruptas), com solos de baixo infinitos, no-soul-AI-funk e Math Core. Além dos álbuns com trechos selecionados pelos seus curadores humanos. Para entender um pouco mais sobre essa loucura, reproduzimos, a seguir, uma versão traduzida das "perguntas frequentes" disponibilizadas em formato de entrevista no site dos DADABOTS.

O que é DADABOTS?

Não temos certeza do que é DADABOTS.

Somos um cruzamento entre uma banda, uma equipe de hackathon e um laboratório de pesquisa efêmero. Somos músicos seduzidos pela matemática.

Fazemos a ciência, projetamos o software, fazemos a música. Tudo em um só projeto. Não precisa de mais ninguém. Exceto que sim, porque estamos nos ombros de gigantes e porque o objetivo é colaborar com mais artistas.

E, no futuro, se os músicos perderem seus empregos, seremos um bode expiatório. Risos. Por favor, não nos queimem na fogueira. Lutaremos pelo lado certo da história… Juramos…

Como vocês começaram a trabalhar no DADABOTS?

No primeiro dia em que nos conhecemos, em 2012, CJ disse: “Zack, sinto que te conheço a vida inteira”. Formamos uma equipe de hackathon chamada DADABOTS. Isto foi no Music Hack Day no MIT.

Ficamos intrigados com a inutilidade de máquinas que geram arte de baixa qualidade.

Anunciamos que iríamos nos propor a “destruir o Soundcloud” criando um exército de bots de remix, rastreando o Soundcloud em busca de músicas para remixar, postando centenas de músicas por hora. Eles continuaram nos banindo. Continuamos trabalhando em torno disso. Foi divertido.

O que os inspirou a programar uma IA para criar/replicar música?

Vimos o potencial das redes neurais profundas quando a transferência de estilo de imagem foi lançada. Foi incrível quando vimos fotografias se transformarem em pinturas a óleo impressionistas. Vínhamos pesquisando maneiras de modelar estilos musicais e gerar música com um timbre-alvo. Parecia que o aprendizado profundo (deep learning) poderia ser a ferramenta que procurávamos, uma vez que as Wavenets foram capazes de sintetizar vozes humanas em vários idiomas.

Como funciona a criação de sua música com o algoritmo NSynth?

Não usamos NSynth. NSynth gera amostras muito curtas de instrumentos monofônicos. Usamos SampleRNN para nossos álbuns no Bandcamp.

Como funciona a criação de música com o SampleRNN?

Começamos com o código de pesquisa SampleRNN original em theano. É uma rede LSTM hierárquica. LSTMs podem ser treinados para gerar sequências. Sequências de qualquer coisa. Pode ser texto. Pode ser o clima. Nós o treinamos nas formas de onda acústicas cruas dos álbuns de metal. Enquanto escuta, ele tenta adivinhar a próxima fração de milissegundo. Ele joga este jogo milhões de vezes em alguns dias. Após o treinamento, pedimos a ele que crie sua própria música, semelhante a como uma máquina de previsão do tempo pode ser solicitada a inventar séculos de padrões climáticos aparentemente plausíveis.

Ele alucina 10 horas de música desta forma. Isso é um pouco demais. Então construímos outra ferramenta para explorar o resultado e fazer alguma curadoria. Encontramos as partes de que gostamos e as organizamos em um álbum para consumo humano.

É um desafio treinar redes. Há todos esses hiperparâmetros para tentar. Quão grande a rede é? Qual é a taxa de aprendizado? Quantos níveis da hierarquia? Qual otimizador de descida de gradiente? Como ele faz a amostragem da distribuição? Se você errar, parece ruído branco, silêncio ou quase nada. É como fazer cerveja. Quanto fermento? Quanto açúcar? Você define os parâmetros desde o início e não sabe se o sabor será bom até muito mais tarde.

Treinamos centenas de redes até encontrarmos bons hiperparâmetros e os publicamos para uso mundial.

Por que vocês fizeram isso?

Travessura.

Vocês planejam usar este software para fins de varejo?

A síntese neural inevitavelmente fará parte dos softwares de áudio da próxima geração. Não há dúvida. No momento, o hardware é proibitivamente caro (usamos GPUs V100). Mas isso está mudando à medida que tornamos os algoritmos mais eficientes (paralelização inteligente, redução de peso, etc.). Eventualmente, as pessoas poderão pedir à sua DAW “por favor, gere 5 horas de chamados de animais zumbificados produzidos por um híbrido de Mike Patton e Jennifer Walshe”.

Vocês acham que a música gerada por redes neurais terá potencial para alcançar o sucesso mainstream?

Tornar-se mainstream tem sido importante para subculturas que eram sub-representadas e precisavam de voz. Adolescentes. Afro-americanos. Etc. Mas a cultura tecnológica já domina o mundo. Está engolindo toda a indústria da música. O que ela tem a ganhar fazendo música mainstream?

Existe alguma razão específica pela qual vocês estão se concentrando em gerar math rock e black metal, em vez de outros gêneros mais populares?

Por alguma razão, outras pessoas da música de IA estão tentando fazer mainstream. A música mainstream está morta. Sólida. Não viva. Rigidez cadavérica. Qualquer nova ideia musical que tenha foi colhida no underground. O underground sempre foi o lar dos verdadeiros exploradores, cartógrafos e cientistas da música. O mainstream encontra essas ideias e bate nelas como um cavalo morto até que se tornem desagradáveis. Por que um músico deveria se dedicar à música mainstream? Porque eles querem ser famosos enquanto estão vivos?

Math Rock e Black Metal são as músicas que amamos. Têm um lugar especial conosco. Enquanto muitas novas bandas de Black Metal soam como uma imitação do Black Metal do início dos anos 90, álbuns como “Ygg Hurr” de Krallice o levam a novos lugares que eu nunca havia sentido antes. A pesquisa é recente. Refazer sons antigos é como publicar artigos científicos sobre os mesmos experimentos antigos. Mantenha a música viva.

Quando foi que isso pareceu algo que vocês poderiam fazer como músicos independentes, ou que a música que vocês estavam fazendo valia a pena compartilhar publicamente no Bandcamp, etc.?

Estávamos em bandas, gostávamos de música extrema, queríamos fazer música para sempre, mas nos deparamos com o problema existencial de nossas inevitáveis mortes.

Momentos A-ha: no início, lemos o livro “Creating Music By Listening” de Tristan Jehan e usamos sua biblioteca EchoNest Remix para criar bots de Soundcloud.

Em 2015, vendo a arte de Gene Kogan… Saímos de nossos empregos e estudamos deep learning de forma autodidata. Em 2016, ouvindo SampleRNN e WaveNet…

Nosso primeiro experimento com SampleRNN foi uma imitação de Kurt Cobain. Ele gritou Jesus. Essa foi a primeira coisa que fez. Quando ouvimos isso, sabíamos que estávamos no caminho certo.

Treinamos centenas de redes, diferentes gêneros, diferentes arquiteturas, parâmetros… Finalmente descobrimos o que soava melhor para nós… neural death metal, neural mathrock, neural skatepunk, neural free jazz, neural beatbox…

Como foram essas sessões iniciais de ensino? Como vocês dividiram os deveres como produtores e programadores?

Bizarro.

A primeira experiência que fizemos foi com as acapellas de Kurt Cobain. Quando produziu sua primeira saída (output), esperávamos ouvir silêncio ou ruído por causa de um erro que cometemos, caso contrário, alguma aparência de canto. Mas não. A primeira coisa que fez foi gritar sobre Jesus. Olhamos um para o outro “WTF…?” Em um momento de descrença suspensa, parecia uma sessão de tecnomancia.

Nós dois fazemos tudo: escrever código, ler arXiv, produção musical, arte.

Qual é a diferença entre sua abordagem para gerar música e outros métodos de música gerada por computador, como entradas MIDI aleatórias?

Nós o treinamos completamente sem supervisão. Não há conhecimento de teoria musical. Não há MIDI. Não há nada. É apenas áudio bruto. É surpreendente que funcione, em primeiro lugar.

O que amamos no aprendizado não supervisionado é que ele dá dicas de como o cérebro auto-organiza os dados brutos dos sentidos.

O que os levou a trabalhar com áudio em vez desses outros tipos bastante populares de abordagens MIDI?

MIDI é apenas 2% do que há para se amar na música. Você não pode ter o Merzbow como MIDI. Nem a atmosfera de um disco de black metal. Não pode ter o timbre da guitarra do Jimi Hendrix, nem do sax do Coltrane, nem do MC Ride. MIDI puro é ersatz.

(/ɛR’zats/ • substantivo masculino • imitação, ger. artificial e inferior ao produto que substitui; sucedâneo)

A maioria dos hackers de música + machine learning está gerando MIDI porque é mais barato e mais fácil de controlar. O áudio bruto é indisciplinado e tornou-se tratável apenas recentemente.

No futuro, queremos gerar genomas. E línguas. E estados de espírito.

Por que é mais difícil?

O áudio bruto tem 44100 intervalos de tempo por segundo. Estas são sequências enooormes. Até 10.000 vezes maior que a partitura. Precisávamos de hardware pesado disponível apenas recentemente para nós, plebeus. Também precisávamos de algoritmos mais inteligentes. DeepMind e MILA abriram caminho publicando sua pesquisa sobre mecanismos neurais de conversão de texto em fala em 2016. Nós a executamos e a trouxemos para a música extrema.

Como dar à rede mais tempo para processar o material de origem afetaria o resultado?

A tendência é: primeiro ele aprende padrões de escala de tempo curtos (uma batida de caixa, o timbre de um grito), depois mais longos (um riff de guitarra desleixado) e depois mais longos (um tempo constante). Quanto mais ele treina, mais ele cria padrões de escala de tempo mais longos. Mas há retornos decrescentes. Além disso, quanto mais ele treina, mais ele memoriza, então alguns dos sons mais interessantes vêm quando ele está apenas meio treinado.

O slogan na página do Bandcamp é “nós escrevemos programas para desenvolver artistas artificiais”; qual é o plano para o algoritmo a longo prazo?

Mas nosso objetivo é o aumento humano.

Poucas pessoas escrevem música, mas quase todo mundo tem uma estética musical. Imagine uma ferramenta de produção musical onde você simplesmente a alimenta com influências musicais, como um Furby. Ela começa a gerar novas músicas. Você a esculpe de acordo com sua estética. Imagine ouvir a estética musical louca e esquisita de todo mundo saindo de seu Furby.

Na verdade, isso é apenas metamúsica — em vez de tocar a música, estamos tocando o músico.

Quais artistas você está considerando para levar esse processo adiante?

Achamos que músicos de vanguarda prolíficos como Mike Patton, que incansavelmente levam a música para onde ela não chegou, são os certos para o trabalho. E artistas como Drumcorps, Jennifer Walshe, Inzane Johnny, Igorrr, Venetian Snares, Zack Hill (Hella, Death Grips), Colin Marston, Mick Barr, Lightning Bolt, Oneohtrix Point Never, Daveed Diggs (clipping.), Yamantaka Eye ou qualquer um que tocou no The Stone — queremos dar a eles super-armas artísticas e ver o que sai de seus cérebros. Mas, na verdade, se pudermos torná-lo realmente acessível, haverá crianças levando-o a lugares que ninguém jamais sonhou.

Queremos ver Sander Dieleman (um dos inventores da wavenet, administrador do got-djent) fazer metal neural. Todos nós sabemos que ele faria um metal neural incrível.

Você sente que há necessidade de descolonizar o aprendizado de máquina?

Que tipo de mundo você tem quando as principais empresas de IA são mais poderosas do que a maioria dos países e são lideradas por uma pequena elite experiente de PhDs que decidem quais projetos valem a pena? É não-participativo.

Estávamos conversando com Samim sobre isso, concordamos que… além do código aberto, o que precisamos é de compreensão aberta. O Linux é de código aberto. O Tensorflow é de código aberto. A pesquisa é publicada gratuitamente no arXiv. Mesmo assim, como facilitamos o caminho para a compreensão?

Acho que música/arte é uma ótima maneira de qualquer pessoa começar a brincar com IA. Queremos ver mais jovens iniciando bandas de IA.

Há muito terror envolvido no trabalho de IA, você acha que a arte assistida por IA pode acabar com esses medos ou a “música criada por robôs” ainda assusta algumas pessoas?

Sim e sim. Por exemplo, acabamos de fazer uma colaboração com o campeão de beatbox do Reino Unido, Reeps ONE. Para Reeps, ouvir sua essência destilada e replicada por uma máquina foi recebido inicialmente com medo. É assustador ouvir sua própria voz assim. (E se perguntar o que é possível com notícias falsas). Esse medo se transformou em entusiasmo quando ele viu seu bot doppelganger mais como um colaborador. O bot produz padrões de beatbox estranhos que ele nunca havia feito antes, inspirando-o a levar sua arte ainda mais longe.

Os criadores humanos precisam temer por seus empregos?

Se projetada pensando nas pessoas, a IA é uma ferramenta criativa. Mas a maior possibilidade de automação total significa que alguns profissionais criativos serão substituídos. Especialmente qualquer trabalho facilmente comoditizado. É por isso que dizemos “automatize seu trabalho, mas não diga ao seu chefe”. Seja quem comanda a máquina.

Quão significativo é para o seu trabalho auxiliar e/ou substituir os criadores de música?

100% de assistência.

Temos várias novas colaborações em andamento. Bandas como Lightning Bolt, Artificial Brain, Krallice e muito mais. Depois de ouvir tanta música puramente gerada por computador, neste ponto é mais surpreendente para nós ouvir o que os humanos farão com ela.

Tudo o que o DADABOTS está fazendo é um grande esquema apenas para colaborar com bandas que amamos. É um truque e está funcionando. Não preste atenção.

Com empresas como Spotify, Apple e Google se aprofundando no jogo da música de IA, como você acha que um trabalho como o seu se encaixa na cosmologia?

Conversamos com muitas pessoas na cosmologia.

Muitos avanços estão saindo da academia (Université de Montréal, Queen Mary University, ISMIR, etc), em repositórios do github, nos blogs de estudantes de doutorado (Dmitry Ulyanov, etc) e em artigos publicados no arXiv. Os acadêmicos estão mais interessados ​​em publicar descobertas algorítmicas. Mas apenas algum cruzamento na produção musical.

O IBM Watson parece estar fazendo música apenas para comercializar seus outros produtos de IA (mas gostamos do que Janani fez com o Watson Beats e estamos ansiosos para ver o que Krishna fará a seguir).

A Amper está interessada em automatizar trilhas de filmes.

A maioria dos projetos de música-IA são baseados em MIDI / partituras. MIDI é bom para Bach ou trilha de filmes. A partitura é boa se você conseguir que humanos a toquem. Mas não se quisermos imitar a voz de alguém cantando, ou criar estilos musicais modernos, ou fazer uma banda fazer um cover da música de outra banda. DADABOTS trabalha com áudio bruto. O áudio bruto é significativamente mais desafiador.

A maioria dos grupos que trabalham com síntese neural de áudio bruto (Google DeepMind, Baidu) concentra-se principalmente na conversão de texto em fala. Mas Sander Dieleman, do DeepMind, é um grande metaleiro, dirige o Got-Djent, curte nosso álbum “Inorganimate”, então adoraríamos ouvir o que ele fará com a música neural.

O Google Magenta faz síntese de música neural com NSynth, embora ainda não tenha gerado músicas completas dessa maneira. Seus projetos são de código aberto e parecem ter um suporte muito bom. A Magenta tem feito algum contato com artistas (participamos de um deles), mas eles desejam concentrar seu tempo principalmente na pesquisa e não na música.

Doug Eck diz que eles querem ser como Les Paul, construindo a guitarra elétrica, para que um Jimi Hendrix possa aparecer e quebrar as regras da música. DADABOTS se encaixa perfeitamente nessa missão.

Mas somos diferentes da Magenta porque estamos focados principalmente na música e nas colaborações com artistas.

Os criadores independentes estão fazendo as coisas mais rápido, mas o que acontece quando grandes nomes começarem a apostar na música que criaram usando seus programas de aprendizado de máquina?

Grupos comerciais parecem ser incentivados a gerar canções pop por motivos de marketing; os acadêmicos parecem ser incentivados a produzir música clássica para permanecer dentro de uma tradição; mas o que é realmente empolgante é fazer música que nunca existiu antes. Isso provavelmente virá dos criadores independentes.

No entanto, os experimentos de aprendizado profundo com áudio bruto são caros, e os grupos comerciais têm mais recursos. Desde que grandes nomes publiquem suas pesquisas, os criadores independentes se beneficiam. Desde que as inovações fluam para o arXiv e o github, os criadores independentes se beneficiam. Os créditos de GPU doados também ajudam tremendamente os criadores independentes.

Havia alguma inspiração histórica que vocês estivessem procurando com o projeto, além do SampleRNN?

Interrompemos essas perguntas para tirar o chapéu para o culture jamming, o terrorismo poético, a arte do grafite e a sátira de Sacha Baron Cohen.

Em 1992, Mike Patton disse, enquanto comia um sanduíche: “os computadores deveriam dominar a música… os computadores são mais fodidos do que as pessoas… quanto mais bagunçada e mais distante a música ficar da música, mais saudável será para a música”. Nós concordamos.

Ao mesmo tempo, não deixe que a música do computador diminua sua habilidade musical. Marshall McLuhan escreveu certa vez: “toda extensão da humanidade, especialmente extensões tecnológicas, tem o efeito de amputar… os automóveis amputam a necessidade de uma cultura de caminhada altamente desenvolvida…” Nenhuma máquina te dará os amigos que você pode fazer porque esbarrou em uma roda espontânea de beatbox na rua às 2 da manhã.

Você pode descrever o processo de criação do Coditany of Timeness?

No começo, tivemos muita dificuldade em gerar um áudio que soasse bem. Ampliamos o tamanho e a complexidade de nossa rede até atingirmos os limites de nossa memória GPU. Então, encontramos um meio termo para desempenho e qualidade de som. Foi muita tentativa e erro. À medida que melhoramos nossos resultados, começamos a perceber que a qualidade atmosférica nebulosa do áudio gerado pelo SampleRNN se prestava muito bem ao estilo lo-fi black metal. Refizemos modelos baseados em alguns álbuns diferentes. Como não estávamos condicionando com base em seções musicais, não tínhamos controle sobre o conteúdo da saída. Alguns modelos se super-ajustavam para aprender os detalhes de uma parte, ignorando o restante da música no conjunto de dados. Isso nos levou a gradualmente descobrir o processo ideal após cerca de uma dúzia de tentativas.

Quanto tempo levou para chegar ao seu estado final?

Passamos meses experimentando com diferentes conjuntos de dados. Nosso modelo final treinou em pouco mais de três dias. Em seguida, tivemos que selecionar a saída escolhendo o melhor áudio. Se tudo funcionar como esperado, um álbum pode ser totalmente feito em cerca de quatro dias.

Para Coditany of Timeness especificamente, o que vocês acham que tornou este álbum particularmente bem-sucedido? Vocês simplesmente o rodaram mais vezes no programa? Quanto ele tinha aprendido até então?

Estávamos ajustando os hiperparâmetros há meses para fazer um modelo de fala criar música. Ele penou com a percussão. O CoT foi o primeiro experimento em que geramos com sucesso um pulso rítmico constante. Foi um momento “eureca”.

A segunda razão é que foi Zack que realmente fez a curadoria do fluxo do álbum. Ele ouviu as 10 horas de áudio de saída, encontrou seções que soavam como músicas completas e as organizou em uma ordem. Em registros anteriores, como Calculating Calculating Infinity, as canções eram aleatórias e repetitivas, o que, como disse um crítico, o tornava “audível, mas inaudível”.

Você precisou solicitar permissão do artista original?

Não pedimos permissão. O foco era a pesquisa científica e não estávamos vendendo nenhuma das músicas geradas. No entanto, entramos em contato com a banda depois de terminá-lo. Eles ficaram intrigados com o projeto e deram sugestões para nós.

Em um mundo ideal, pesquisadores e artistas colaborarão, mas isso não deve impedir as pessoas de experimentar com músicas conhecidas. Descobrimos que usar um conjunto de dados com o qual o público está familiarizado pode ajudar muito em sua capacidade de entender intuitivamente o que está acontecendo no processo.

Parece que essa abordagem tem como premissa uma espécie de lógica do remix, onde o novo trabalho está sempre conectado materialmente a trabalhos sonoros do passado. Talvez isso seja indicativo de muita IA/ML de forma mais geral, mas me pergunto se isso pode parecer uma limitação para a trajetória potencial do projeto? Vocês já se preocuparam em cair em um ciclo de feedback cultural?

Bom ponto! A maioria dos ML (machine learning) generativos trata de maximizar a semelhança com os dados de treinamento, também conhecido como imitação. O pessoal do ICCC se pergunta o que está além…

Mas por que a música evoluiu na natureza? Os pássaros otimizam suas canções para transar. Assim que conseguirmos que os sistemas de IA otimizem esse tipo de função perdida, será um avanço para a criatividade.

Por enquanto, nosso objetivo é fazer uma arte que esteja mais próxima da essência de uma banda do a sua própria música… fique muito aquém disso… e o resultado é uma piada.

SampleRNN foi usado para recriar música existente, então a questão da autoria realmente não surge. Em que ponto pode-se dizer que a IA criou algo verdadeiramente novo?

As linhas da propriedade intelectual ficam confusas quando várias fontes artísticas são trazidas para o conjunto de dados de treinamento e a saída gerada é uma mistura generalizada de cada uma. Isso é muito semelhante a como os humanos aprendem a ser originais em uma nova mídia. Primeiro aprendendo a imitar os mestres e depois hibridizando estilos.

Sua IA será capaz de gerar novas músicas por conta própria em algum momento? É apenas um caso de alimentá-la com dados suficientes para ensiná-la?

Precisaríamos adicionar mais funcionalidades para que ela escolhesse sua própria música para gerar. Ter acesso a mais tipos de música e uma forma de condicionar entre artistas ou estilos permitiria algo que se assemelha a um gosto musical auto-evolutivo.

Em que ponto a IA pode ser considerada um autor?

Não fazemos ideia. Talvez, para chamar a IA de autor, ela deva ser capaz de explorar livremente uma ampla variedade de estilos e ter uma maneira de melhorar, com base na reação ao seu próprio trabalho, por meio de informações sensoriais. Em outras palavras, a IA precisaria escolher qual música criar por conta própria. Isso pode ser baseado no feedback do público ou da crítica. Ou com base na maximização da novidade/curiosidade.

Quem poderia reivindicar os direitos autorais sobre a obra?

Não fazemos ideia. Provavelmente tem que ser caso a caso. Pode ser o proprietário do computador, se o código foi vendido para esse usuário ou empresa. Se o código for tornado público (código aberto), sua saída pode não ter direitos autorais.

Vocês acham que é bom ou ruim reconhecer uma IA como criadora?

Ruim.

A atribuição de crédito está OK. Assim como é bom reconhecer que algo foi “feito com o Ableton Live”.

Para além disso, a crença na autonomia é traiçoeira.

Não existe autonomia verdadeira. Todo mundo está interconectado. Tudo são sistemas dentro de sistemas. O reconhecimento disso leva a sociedades construídas sobre a justiça transformadora. A falha em reconhecer isso leva a mais prisões.

Aceitar legalmente um sistema de IA (forte ou estreito) como autônomo é renunciar à responsabilidade por seu comportamento. Isso será explorado. Você pensava que a personalização corporativa era ruim? A personalização da IA ​​será pior. Temo que os direitos autorais dos criadores de IA sejam como um pé na porta. As pessoas simplesmente não conseguem conter seu fetiche por ficção científica. Como dizem em Arquivo X… “eu quero acreditar”.

Vocês acham que chegará um ponto em que a inteligência artificial poderá incorporar palavras reais e frases coerentes na música gerada?

A partir de pelo menos 2016 isso já era possível. Alguém experimentou? A conversão de texto em fala realista de ponta a ponta é alcançável com o Tacotron 2 e outros. Aplicar a mesma ideia ao canto é possível. Existem conjuntos de dados de letras e músicas alinhados. Alguém já parou para treinar essa rede? É caro fazer isso. Você precisa de centenas de milhares de dólares em horas de GPU. Nos dê os recursos e faremos isso.

Como vocês acham que a inteligência artificial influenciará a música nos próximos anos?

Pense em cartografia — mapeando o espaço profundo entre todas as músicas, todos os artistas, todos os gêneros.

Pense em instrumentos super expressivos — pense em beatboxers criando sinfonias completas com suas bocas.

Pense em crianças autistas, etc, no contexto da musicoterapia, fazendo música expressiva, ganhando voz cultural.

O que vem a seguir para o projeto?

Queremos construir uma nave espacial para navegar no cosmos de todas as músicas possíveis. Misturar bandas. Misturar qualquer coisa com qualquer coisa. Descubrir música nunca antes imaginada. Tornar fácil para as crianças inventar um novo gênero e configurar bots que fazem música nesse gênero para sempre.

Não é zoado gerar música usando o som de músicos mortos ou a voz de cantores mortos?

Se você está chocado com isso, apenas pense em si mesmo no futuro, não mais chocado com isso.

Seus netos acharão normal e farão música dessa maneira. É como um pedal de efeitos. É como o pedal wah-wah de Jimi Hendrix. Hoje você pode entrar em um Guitar Center, ligar um pedal e ter o timbre de Hendrix. Amanhã você entrará e tocará o sintetizador neural RNN de gritos de Kurt Cobain.

Quanto mais rápido você superar isso, mais diversão você terá.

Por que a qualidade do áudio é péssima? Por que vocês não geram em alta fidelidade?

O desejo por alta fidelidade é o hedonismo sensorial sem fim de perseguir o dragão. Encoraja a centralização da mídia apenas para grupos com os maiores orçamentos. Esse tipo de mundo não é participativo e enfraquece a mídia DIY. Ao passo que as vozes mais importantes vêm daqueles que são desprivilegiados.

Como as coisas evoluíram do gerador de death metal para o de free jazz, e quais foram os novos desafios?

À medida que essas redes aprendem, seus pesos mudam. Cada iteração de pesos cria uma música ligeiramente diferente. Nem tudo é boa música. Algumas iterações soam irritantes, outras são entediantes. Com o "Outerhelios" (no início deste artigo), selecionamos uma variedade de iterações e alternamos aleatoriamente entre elas. Algumas soam como um massacre de elefantes bebês. Algumas têm essas paradas abruptas. Algumas fazem melodias próximas ao álbum original. Algumas fazem longos solos de bateria. Algumas soam como gansos zangados. A variedade da curadoria as torna melhores.

(Considerando que com nosso gerador de death metal não há curadoria, você ouve tudo o que ele faz. É uma sorte rara que tudo pareça bom de se ouvir.)

um banquinho e uma rede neural

A nossa reportagem tentou contato com os criadores do DADABOTS, mas não obteve resposta até a publicação desta matéria. Dentre as perguntas de praxe (O que andam fazendo agora? Quais os avanços mais recentes no campo da música generativa?), havíamos questionado se eles aceitam pedidos, como um canal de Axé Music e um de Bossa Nova — imagine invocar o espírito computadorizado de João Gilberto quando der na telha! Mas, pelo jeito, uma empreitada deste tipo vai ter que ficar a cargo da nossa indústria nacional. Toca Raul!

--

--