Na Universidade de Coimbra, uma equipa liderada por Rui Pedro Paiva está a ensinar máquinas a interpretar emoções na música. O projecto MERGE cruza inteligência artificial, áudio e linguagem natural para mapear canções num espaço emocional. Mais do que inovação tecnológica, trata-se de uma tentativa de aproximar algoritmos de algo profundamente humano: perceber o que a música “é”, antes mesmo do que nos faz sentir.
Na Universidade de Coimbra, a pergunta não é nova, mas a abordagem é radicalmente contemporânea: pode uma máquina compreender emoções na música? O projecto MERGE: “reconhecimento de emoções na música de próxima geração”, responde com um cauteloso “talvez”, sustentado por ciência, dados e alguma humildade perante a complexidade humana.
Coordenado por Rui Pedro Paiva, o projecto combina inteligência artificial, processamento de áudio e análise de linguagem natural para classificar automaticamente emoções nas canções. O objectivo é claro: “criar um sistema capaz de colocar cada tema num mapa emocional entre valência e intensidade”.
“Essa é a ambição”, afirma o investigador. “É ambicioso justamente porque há muita ambiguidade na interpretação de emoções na música e nas emoções em geral.”
Mas o ponto de partida do MERGE não é o que sentimos ao ouvir música. E essa distinção é central. “Quando falamos de emoção na música, podemos entender três níveis: a emoção expressa pelo artista, a emoção percebida pelo ouvinte e a emoção sentida. No projecto estamos focados na percepção: aquilo que a música ‘tem’ em si própria.”
Entre o que a música diz e o que a música faz
Essa escolha metodológica procura reduzir a variabilidade. Afinal, duas pessoas podem reagir de forma completamente distinta à mesma canção. “Com certeza”, reconhece Rui Paiva. “Mas o nosso projecto não aborda a emoção sentida pelas pessoas. Aborda um ponto mais objectivo: a emoção inerente à música.”
Um exemplo simples ajuda a perceber: “Uma música com batida intensa está tipicamente associada a emoções alegres ou tensas, não a algo relaxado ou melancólico.” Ainda assim, o investigador admite: “eu posso sentir emoções diferentes em resposta a esse estímulo musical. Estão relacionadas, mas não são a mesma coisa.”
O MERGE tenta, assim, encontrar um terreno comum entre a subjectividade e a estrutura. E fá-lo recorrendo a um modelo clássico da psicologia: o de James Russell. “Esse modelo propõe dois eixos: valência, que indica se a emoção é positiva ou negativa, e activação, que mede a intensidade”, explica. “Com isso, conseguimos um espaço onde identificamos quatro emoções básicas: alegria, relaxamento, tensão e melancolia.”
Relação entre som e letra
Um dos desafios mais interessantes do projecto está na relação entre som e letra. “Há músicas onde a melodia sugere uma coisa e a letra outra”, reconhece Rui Paiva, evocando o caso de canções dos The Beatles em que o contraste é evidente.
Ainda assim, o sistema tenta lidar com essa ambiguidade. “A componente acústica capta melhor a intensidade. A componente textual ajuda a perceber se a emoção é positiva ou negativa.”
E há um factor adicional: o contexto do ouvinte. “Se a pessoa não compreender a língua, vai apoiar-se mais no som. Se compreender, a letra tende a dominar.” No fundo, mesmo quando a máquina tenta ser objectiva, a experiência humana continua a infiltrar-se no processo.
Um mapa emocional para o streaming
O impacto potencial do MERGE vai além da investigação académica. Num tempo em que as plataformas digitais moldam o consumo musical, a possibilidade de procurar música por emoção pode alterar a relação com o som.
“A música é muitas vezes chamada a linguagem da emoção”, lembra Rui Paiva. “Pesquisar por emoção, em vez de artista ou género, pode ser uma ferramenta particularmente vantajosa.”
A aplicação prática já está em desenvolvimento. “Temos um protótipo que será disponibilizado online. Qualquer pessoa poderá testar, embora com limitações de direitos de autor, apenas excertos de 30 segundos.”
Limites, simplificações e futuro
Apesar do entusiasmo, o investigador não ignora as limitações. Reduzir emoções a dois eixos pode parecer simplista. “Sim, pode ser visto como uma simplificação excessiva”, admite. “Mas permite controlar a ambiguidade. Se usarmos centenas de categorias emocionais, o problema torna-se ainda mais complexo.”
E há também limites tecnológicos. “Neste momento, modelos de linguagem conseguem cerca de 50% de sucesso neste problema, enquanto nós atingimos 80% na nossa base de dados.” A razão? Falta de dados em larga escala e a dificuldade de anotação emocional. “É um processo muito trabalhoso e inevitavelmente subjectivo.”
Ainda assim, o horizonte é claro. “No momento em que existam bases de dados de grande dimensão, a inteligência artificial poderá aproximar-se mais da capacidade humana.”
Até lá, o projecto MERGE permanece num intermédio entre ciência e sensibilidade, entre algoritmo e emoção. Um espaço onde, talvez, as máquinas ainda não sintam, mas começam, lentamente, a compreender.