Synthesizer V Studio 2 Pro: AI-sång bortom det generiska
För låtskrivare och musikproducenter är det viktigt att ha tillgång till bra sångare. Någon måste ju sjunga på de demoinspelningar av låtar man visar upp för förlag, A&R och andra, och även om man arbetar direkt med en artist behöver man bra körsångare. Att i det läget ha tillgång till ett AI-verktyg som snabbt och enkelt genererar sångtagningar baserad på dina melodier och texter låter säkert som en dröm för många. Med sin Synthesizer V Studio 2 Pro försöker japanska Dreamtonics göra den drömmen sann.
AI tränad på licensierade röster
Synthesizer V Studio använder alltså AI för att skapa realistiska sångröster, där användaren har full kontroll över både text och melodi. Stämman kan spelas upp av ett internt ljud för förhandsvisning, som är funktionellt men kanske inte jättespännande. Men Dreamtonics erbjuder ett antal röstpaket som har getts namn som Felicia, Liam och Natalie. Med dessa får resultaten både större variation och en nästan skrämmande realism. Då man köper Synthesizer V Studio 2 Pro ingår tre röstpaket som får väljas fritt, fler kan alltså läggas till i efterhand.
Tekniken bottnar i stora ljudbibliotek av inspelade, licensierade professionella sångröster och en så kallad djup, neural och nätverksbaserad syntesmotor. Det är ibland svårt att faktiskt greppa att man jobbar med något artificiellt, inte minst när röstpaketen har getts personnamn. I skrivande stund finns stöd för engelska, kinesiska (både mandarin och kantonesiska), japanska, spanska och koreanska. Mjukvaran ska enligt tillverkaren själva vara frekvent använt inom både japansk och koreansk popmusik av det modernare snittet. Då inte nödvändigtvis som ren AI-sång utan ofta i kombination med livs levande artisters röster.
Ett annat givet användningsområde är att i demostadiet snabbt kunna testa sång och text-ideer, utan att behöva rigga om för inspelning. Själva arbetssättet är i princip samma som vid vanlig MIDI-editering men för att få bra stuns i det hela får man sätta sig in i lite grundläggande fonetik. Dock inte på någon super-akademisk nivå, så du kan vara lugn!
Nu har vi plöjt igenom lite grundläggande fakta om vad Synthesizer V Studio är; dags för lite koll på hur det funkar i praktiken.
Fristående och plugg
Programvaran finns både som fristående app och som plugg i formaten VST3, AU, AAX och ARA. Vi kommer i denna genomgång utgå från den fristående varianten då användningen i princip är identisk i plugg-lägena. Jag har med framgång fått allt att rulla på i Cubase Pro 14. På tal om inspelningsprogram påminner hanteringen av Synthesizer V mycket om ett tradtionellt sådant, med horisontella spår och en editor som andas gammal hederlig pianorulle.
Själva editeringen följer välbekant MIDI-upplägg.
Generera röster med MIDI
Vi börjar med att generera sång utan någon som helst ljudfil att utgå ifrån. Du kan själv spela in en melodi direkt i ditt arrangemang via en vanlig MIDI-klaviatur eller klicka in toner i editorn med musen. Själv tycker jag det är lite roligare att spela in något att utgå ifrån. Det finns så klart en metronom så att man håller sig någorlunda till temporutnätet och givetvis kvantisering för att fixa till i efterhand.
Som sagt kvalar det interna förhandsvisnings-ljudet knappas in som det snyggaste du hört när det kommer till ljuddesign – men det är liksom inte poängen. Så snart du gjort en inspelning kan du byta detta ljud och istället trigga någon av de röstpaket som du har installerat. Så länge du inte angivit någon text kommer denna helt enkelt sjunga “la-la-la”.
Och det är nu magin börjar. För att börja skriva in text är det bara att klicka på varje MIDI-event och helt sonika skriva. Du kan antingen klicka dig fram, ton för ton, men det går också att markera de toner som ska förses med ord och därefter klicka upp en textruta och skriva in ett längre stycke. Programmet kommer då fördela ut dessa på de toner som är med i den aktuella markeringen. Om du vill att ett ord ska följa med över flera olika toner finns också kommandon för att dela av och justera. Tillvägagångssättet i denna editor har inte högre inlärningströskel än när du ska lära dig nya MIDI-editierngskommandon när du hoppar mellan olika inspelningsprogram. Efter ett tag sitter det hela i ryggmärgen och man kan hamra på som rena stenografiproffset.
Frasering och finlir
Det första som genereras när jag fördelat ut orden på de olika tonerna är förmodligen inte exakt det jag tänkt mig. Det är här de mer avancerade funktionerna kommer väl till pass. Till att börja med har vi editerings-funktioner som är rätt lika de verktyg för tonhöjdskorrigering som vi hittar i exempelvis Melodyne eller Cubase Pitch Correct. Du kan enkelt dela upp eller klistra ihop olika toner samt även med ett pennverktyg fixa till glidningar och vibraton.
Som vän av oordning provade jag så klart om jag kunde få mina AI-sångare att sjunga riktigt riktigt falskt och det var inga som helst problem att få till. Du är alltså inte inlåst i en överharmonisk klang utan med lite vana och ork började mina syntes-röster rätt snart få mer inlevelse än mina egna sångtagningar. Nu säger det kanske också lite om hur rutinerad jag själv är när det kommer till sång men, ja, du fattar.
Förutom tajming och tonhöjdskurvor kommer vi även åt varje stavelse och kan enkelt anpassa uttal och dialekter. Till höger ser vi Notes- och Voice-menyerna, som ger örnkoll på frasering och uttryck.
Ännu djupare anpassningar av aktuell röst kan göras under Voice-menyn och här skiljer sig namnen på reglagen beroende på vilket röstpaket man för tillfället använder. Det rör sig dock alltid om olika parametrar för att ställa in karaktären, exempelvis hur mjukt eller kraftfullt AI-rösten ska köra på, hur hes, hur ren den ska vara och så vidare. Det fiffiga här är att Dreamtonics i första läget ger en en uppsättning makro-vred, som i sin tur kan ta en vidare till tre olika underliggande delar. Du kan alltså själv gräva dig vidare och få ännu djupare kontroll om du så behöver.
Det som anpassas under Voice-menyn gäller övergripande på hela det aktuella spåret. Men det roliga slutar inte här; det finns även möjligheter till individuella inställningar för varje ord, ja faktiskt varje stavelse om man vill/orkar saxa upp den aktuella tagningen i molekyler. Dessa verktyg hittar vi under Notes och det första vi kan ställa in där är om den aktuella rösen, på det aktuella stället, ska sjunga eller rappa. Nästa del är en Expression-matris där vi kan dra en punkt mellan fyra olika hörn: Vibrant, Refined, Rigid och Raw. Genom att manipulera balansen här kan vi blåsa mer liv i AI-rösterna, som i sitt utgångsläge kan vara uttryckslösa.
Nästa steg är AI Retakes där vi som namnet antyder kan göra alternativa tagningar med vår cyber-sångare. Här kan vi välja om Timing, Pitch, Timbre eller allt ska genereras om. En fin detalj här är att alla omtagningar därefter finns tillgängliga så att du kan kombinera dessa till en perfekt tagning. Därefter hittar vi dropdown för språk så, ja, du kan ändra språk på spåret och efter det har vi möjlighet att justera uttalet fonetiskt samt även dela upp aktuell ton i stavelser. Jag vill passa på att nämna att du även kan justera fonetiken löpande i själva MIDI-editorn.
Generera röster med ljudfiler
Förutom att utgå från MIDI går det också att använda ljudfiler som utgångspunkt, men tyvärr går det inte att sjunga rakt in på ett spår i själva Synthesizer V Studio. Det blir till att dra och släppa ljudfiler i gränssnittet för att komma runt det och detsamma gäller i plugg-läget. Nu ska vi emellertid inte göra för mycket av detta då de flesta nog använder detta verktyg som en del i musikproduktionen, tillsammans med andra instrument. Därmed är just integreringen i andra DAW-lösningar A och O, åtminstone för mig. Även här måste spåren dras in i pluggen, ARA-kopplingen är alltså inte lika tajt som hos exempelvis Melodyne.
Jag slås av hur bra det funkar när mina röstinspelningar analyseras. Förutom pitch analyseras även ord, förutsatt att du sjunger på något språk som programmet begriper. På vissa ställen blir det kanske galet men då är det bara att gå in och rätta manuellt. Och om mjukvaran inte klarar av att höra så kör den på “la-la-la”-temat, i väntan på att du skriver in texten på samma sätt som vi redan avhandlat.
På tal om språk så finns i programmet också möjlighet att både lägga till egna ord och anpassningar av uttal i egna ordböcker, helt logiskt sorterat under fliken Dictionary. Här kommer vi snabbt in på olika varianter av fonetik. På Dreamtonics webbsida finns riktigt bra förteckningar för alla som vill och vågar.
Vad är nytt i version 2?
Dreamtonics Synthesizer V Studio 2 erbjuder fler röster, betydligt snabbare rendering och bättre editerings-verktyg än föregångaren. Hela hanteringen känns mycket mer tillgänglig, med bättre möjligheter att skapa något eget och mindre generiskt. Expression pad och AI Retakes snabbar upp processen att skapa olika alternativ att kombinera eller välja mellan. Det blir mer musik och mindre matematik.
Många användningsområden
Det här med AI-sång var för mig något av sci-fi när jag tog mig an att titta närmare på Dreamtonics Synthesizer V Studio 2 Pro. Men, precis som när man en gång i tiden började kolla på det här med tonhöjdskorrigering eller första gången man hoppade från en enkel synt till en sampler blir det i slutändan den kreativa infallsvinkeln som definierar användningen, efter att man kommit över den första wow-upplevelsen.
Medan det så klart går att bygga upp hela sångarrangemang med endast artificiella röster landade jag i att rätt snart glida över till att använda programmet som ett komplement till de klassiska sångtagningarna. Lite som en kör-generator genom att helt sonika analysera leadsången, fixa till lite med uttal och frasering, rätta ord-missar och därefter pitcha om olika kopior till olika stäm-varianter.
OK, många inspelningsprogram erbjuder redan möjligheter att skapa stämmor på liknande sätt med att transponera, men med Synthesizer V Studio, med sina möjligheter att skapa alternativa tagningar, blir resultatet betydligt mer naturtroget. Så även de som är skeptiska till AI-genererad sång kan använda denna metod till att ta fram ett snyggare underlag för de som ska lägga körerna vid ett senare tillfälle.
Min slutkläm blir därmed: Våga prova denna futuristiska och samtidigt inspirerande infallsvinkel till sångproduktion!
Recommended Comments
Bli medlem (kostnadsfritt) eller logga in för att kommentera
Du behöver vara medlem för att delta i communityn
Bli medlem (kostnadsfritt)
Bli medlem kostnadsfritt i vår community genom att registrera dig. Det är enkelt och kostar inget!
Bli medlem nu (kostnadsfritt)Logga in
Har du redan en inloggning?
Logga in nuLogga in här.