a Veus
Un projecte de cor virtual de la UOC
Aquest projecte té per objectiu, doncs, crear una veu sintètica única generada per un model d’intel·ligència artificial entrenat amb les veus de les persones que formen part del cor de la UOC.
Procés:
a veus loc. adv. Amb polifonia, d’una manera polifònica.
DIEC2
Gravacions – Base de dades:
Per entrenar un model capaç de generar una veu sintètica es necessita una base de dades. El model aprèn les característiques sonores contingudes a la base, per això hem enregistrat les veus dels participants del cor cantant diverses cançons amb diferents tessitures, intencions i intensitats.
Per preparar aquesta base de dades també cal editar les gravacions i “netejar” tots els sons indesitjats, o que puguin afectar la base de dades.
Molts dels conjunts de dades que es fan servir massivament per entrenar models d’intel·ligència artificial tenen el problema que no sabem quina és la font (moltes vegades això no es fa públic), i si s’ha fet amb el consentiment de qui ha participat. Per això per aquest projecte és tan important tenir una base de dades pròpies encara que és una base de dades petita, a més que la sonoritat és realment de les persones que han participat, encara que això pugui generar més complexitats a l’hora d’entrenar el sistema.
La base de dades del projecte conté gravacions de sopranos, contralts, tenors i baixos que han cantat cançons en català i llatí.

Entrenament:
L’entrenament és el procés de presentar les dades a l’algoritme, pera que aprengui totes les característiques del so i les pugui convertir a allò que anomenem *Model*. Aquest és un procés que es fa enterament a l’ordinador i necessita temps de processament.
Les grans companyies d’intel·ligència artificial que ofereixen serveis en temps real fan servir molts recursos. A més, quan fem servir els models les nostres dades es recol·lecten i s’emmagatzemen al núvol on no és possible saber certament l’ús de la informació. En aquest projecte hem optat per un algoritme que s’entrena fora de línia, és a dir que tot el càlcul es realitza en un ordinador local, no es penja en cap servidor.
Model:
Un model és el resultat d’aquest entrenament, contingut en arxiu que conté totes les característiques de la nostra base de dades, però no té cap resultat sonor encara.
Aquest model és capaç de convertir el timbre de qualsevol veu en el timbre de les veus amb què l’hem entrenat. Però no pot produir nous sons per si mateix, no és capaç de pensar o de crear, necessita un input, o en altres paraules, una veu cantada que pugui replicar amb la sonoritat que ha après.
Per aquest projecte hem fet entrenaments amb cada veu per separat i un amb totes les veus juntes, Amb aquests models es poden fer diferents configuracions i experimentar activant-los amb diferents inputs:
- Model 1A: Sopranos - Llatí
- Model 1B: Sopranos - Català
- Model 2A: Contralts - Llatí
- Model 2B: Contralts - Català
- Model 3A: Veu masculina - Llatí
- Model 3B: Veu masculina - Català
- Model 4: Veus femenines
- Model 5: Veus masculines
- Model 6: Totes les veus juntes.
Proves:
12/2024 Veu de contralt + soprano.
Model:
03/2025 Test Gaudeamus Carles Prat
Model:
Arranjament del Gaudeamus Igitur:
El compositor Carles Prat ha sigut l’encarregat de fer l’arranjament del Gaudeamus per aquesta edició. És a dir que ha generat una partitura, amb 8 veus diferents. Aquesta partitura necessita ser llegida, interpretada per algú per a que el model la pugui transformar.
Hi ha altres eines que fan possible la transformació de partitures a so de manera sintètica, pero per aquest arranjament volem cantants que serveixin d’intèrprets per al model.
Versió web:
Una altra sortida del projecte és donar la possibilitat a la comunitat de la UOC i al públic general, d’activar els models amb la seva veu pròpia.