IA et musique

IA et musique

Récemment, je suis dessus tombé sur ce lien apparu dans mes flux RSS. Il s'agit d'un guide pour écrire des prompts sur Stable Audio. Stable Audio est le pendant musical de Stable Diffusion, un modèle open source de génération d'images, chez vous ou en cloud. Je me rappelle avoir testé Stable Audio il y a quelques mois de ça, sans arriver à un résultat probant et je me suis dit que c'était un peu un jouet pourri, sans plus.

C'était sans compter la courbe de progression exceptionnelle de cette technologie. L'article nous explique au calme qu'on peut lui commander, comme un DA / producteur, des morceaux entiers en écrivant un paragraphe ou des mots clés. Tranquillement, dans son fauteuil, on peut itérer des variations de sa commande (dans tous les sens du terme) à l'infini et obtenir un track complet.

A qui s'adresse donc ce genre d'outils ? D'un point de vue de compositeur, ce qui est quand même mon activité première, absolument rien ne va dans ce scénario. Raisonner d'un pur point de vue fonctionnel n'a jamais amené nulle part, à moins de s'appeler Morton Feldman, et encore, cette comparaison ne marche que très moyennement. Le fait d'utiliser le langage verbal pour faire des commandes indirectes tue intégralement le rôle de la composition musicale qui est celui de parler justement, un autre langage, et exprimer des notions différentes ou différemment. Pour le coup, il n'y a pas de contradiction avec le coeur du beatmaking en hip hop qui est la réappropriation, la composition avec peu de moyens, et en utilisant la matière des autres. L'IA garde la composante matérielle, mais vole intégralement la partie réappropriation.

Pourtant, du point de vue de gros nerd que je suis, cf. billisdead, je suis honteusement ramené à mes propres contradictions, moi qui pille sans stress des auteurs morts via les datasets qui font le fondement de modèles comme Stable Diffusion ou Flux et leurs centaines de dérivés. Au moins, je m'emploie de ne pas faire de namedroppping d'artistes encore en vie dans mes prompts, mais c'est un moindre mal. Ce qui m'attire dans cet outil, c'est la tech, l'autonomie, l'infini. Mais en revanche, il ne faut pas se mentir, la musique, même l'art en général, est un puits dans lequel on doit s'aventurer soi-même pour que l'activité fonctionne.

Alors à quoi bon utiliser l'IA si on ne sait pas réellement ce qu'on va chercher avec ? Pourquoi Stable Audio me pose un tel problème alors que sans sourciller j'utilise quotidiennement la version qui crée des images ? Je n'ai pas de réponse à ces questions.

Bref, je suis un peu inquiet : le bon moment pour une session composition.


English version (translated with an AI, haha) :

I recently came across this link in my RSS feeds, which is a guide for writing prompts for Stable Audio. Stable Audio is the musical counterpart to Stable Diffusion, an open-source image generation model that can be used on your own computer or in the cloud. I recall testing Stable Audio a few months ago and found it to be less than impressive, and I thought of it as a poorly functioning toy.

However, I underestimated the exceptional progression of this technology. The article explains that you can now order full-length songs from Stable Audio by writing a paragraph or using keywords. You can iterate endless variations of your command in a comfortable chair and obtain a complete track.

But who is this tool for? As a composer, I don't see any value in this scenario. Reasoning from a purely functional perspective never leads anywhere, except perhaps for Morton Feldman, and even that comparison is a stretch. The use of verbal language to make indirect commands eliminates the role of musical composition, which is to speak another language and express different concepts or ideas. However, this doesn't necessarily contradict the core of hip-hop beatmaking, which involves appropriation, composition with limited means, and using the material of others. The IA retains the material component but eliminates the appropriation aspect.

From a nerd's perspective, I am shamefully confronted with my own contradictions. As someone who "pills" dead authors via datasets that form the foundation of models like Stable Diffusion or Flux and their hundreds of derivatives, I make sure not to name-drop living artists in my prompts, but it's a small consolation. What attracts me to this tool is the technology, autonomy, and infinite possibilities. However, we can't deny that art, including music, requires a personal exploration of the depths.

So, why use AI if we don't know what we're looking for? Why does Stable Audio pose such a problem for me when I use the image-creating version daily without hesitation? I don't have an answer to these questions.

In short, I'm a bit worried: it might be time for a composition session.