Apple mi splnil přání

Sing

Možná to teď bude znít jako alibismus, ale opravdu jsem slavil, když Apple pro mě zcela nečekaně vydal v iOS 16.2 funkci s názvem Apple Music Sing, která dotykem jednoho tlačítka převede miliony písniček do téměř bezchybného karaoke. Hudbu miluju a zpívám si ještě radši, takže mít možnost kdykoli zeslabit hlas zpěváka bylo přesně to, co jsem si už roky tajně přál. A teď to tu je, a je to chytřejší, než může se na první pohled zdát.

Tato funkce je od poloviny prosince dostupná pro celou řadu zařízení s iOS, iPadOS a tvOS, ale má to jeden veliký háček… Tato zařízení musejí splňovat podmínky „přijímacího řízení“ v podobě alespoň čipu A13 Bionic, aby mohla funkci Apple Music Sing spustit. Aktualizace iOS 16.2 jako taková je tedy dostupná všem zařízením, která již teď jedou na iOS a iPadOS 16, ale funkce Sing bude zpřístupněna jen na vybraném hardwaru. Důvodů se může do diskuze nabízet hned několik, protože Apple samozřejmě svoje know-how neprozrazuje ani nekomentuje a hodně záleží na vašem vnitřním nastavení a přístupu k Apple, zda v tom budete spatřovat snahu opět ožebračit zákazníky nebo jednoduše technickou nezpůsobilost starého hardwaru provést zdánlivě tak jednoduchou úlohu, jako je odstranění hlasové stopy z nahrávky, ale pravda bude velmi pravděpodobně ta druhá možnost. Ačkoli nás to může překvapit, v reálném čase vypreparovat z hotové nahrávky pouze zpěv a nepoškodit přitom originální kvalitu instrumentální složky je výpočetně velmi složitá operace a Apple musí mít jistotu, že vaše zařízení má dostatečný výkon – konkrétně nového Neural Enginu. Ten je zřejmě přítomný právě až v čipech A13 Bionic a novějších. Jsem si jistý, že tato funkce byla už dávno v plánu, jen jsme ji jako v mnoha jiných případech jednoduše nemohli dostat dříve. Vývojáři museli nad jejím laděním strávit tisíce hodin.

Sing

Síla strojového učení

Můžeme si hned na začátku přiznat, že ekvivalent Apple Music Sing se zřejmě nikdy neobjeví na žádné konkurenční streamovací platformě, ledaže by vydavatelé hudebních nahrávek začali poskytovatelům těchto služeb dodávat instrumentální podklad a hlasovou stopu písniček zvlášť. Ty by si vaše koncové zařízení stahovalo odděleně, a buď by je skládalo dohromady pro klasický poslech, nebo by je v reálném čase různě mixovalo podle vašich představ. To by byl samozřejmě mnohem lepší způsob, jak odstranit zpěv z písničky, ale obávám se, že to se asi nikdy nestane, především u nahrávek živých vystoupení nebo digitalizovaných a masterovaných záznamů z gramofonu nebo jiných prastarých kousků typu show Deana Martina a Franka Sinatry. U těchto nahrávek asi nikdo oddělené kanály pro zpěv a kapelu nemá a je to právě počítač a umělá inteligence, která dovede podle frekvencí rozeznat hlas od nástrojů a následně měnit jejich hlasitost. Ano, Apple to totiž umí i u živáků a paradoxně to mnohdy funguje lépe než u některých krystalicky čistých studiových nahrávek v nejvyšší bezztrátové kvalitě.

Jak tedy Apple Music Sing funguje? Chápu to tak, že Apple uchopí nahrávku, u které už je dostupný text v reálném čase, a u této nahrávky prostřednictvím obrovského potenciálu strojového učení přítomného na vašem zařízení definuje, co je zpěv a co je kapela, aby je od sebe mohl s menší či větší mírou úspěšnosti oddělit. Text v reálném čase je taková ta vizuálně extrémně líbivá funkce, kterou už od Applu stihl kdekdo okopírovat, kde si necháte u písničky zobrazit text a vám se synchronně zobrazuje řádek po řádku, kde se v písničce zrovna nacházíte, abyste mohli interpreta pohodlně doprovázet. V písničce se dá klepnutím na konkrétní řádek i přetáčet tam a zpět. Novinkou teď je, že jakmile si necháte na příslušném zařízení po aktualizaci na iOS a iPadOS 16.2 u podporované skladby zobrazit synchronní text, objeví se po pravé straně nová ikonka malého mikrofonu (viz obrázky). To dokazuje, že Apple Music Sing skutečně funguje pouze u konkrétních skladeb, což jsou v mnoha případech jen vybrané kusy i v rámci jednoho alba, a musí tedy být zprovozněna pouze na zařízení díky nové aktualizaci bez jakékoliv nutnosti, aby Apple zasahoval do databáze skladeb a něco na nich měnil. Jsou to ty stejné nahrávky, které máte už roky přidané do vaší knihovny, váš Neural Engine teď akorát získal novou schopnost.

Vraťme se k ikonce mikrofonu. Když na ni klepnete, hudba se na moment vytratí a následně se přehrávání místo jakéhokoliv doposud zvoleného formátu (ať už posloucháte hudbu v bezztrátové kvalitě nebo v Dolby Atmos) vrátí v novém režimu Zpěv a z ikonky se při podržení stane klasický posuvný volič hlasitosti. Tento volič ale samozřejmě neovládá hlasitost přehrávání, nýbrž hlasitost zpěvu interpreta. Pokud ho nastavíte na maximum, režim Zpěv se vypne a přehrávání se přepne zpět do původního formátu, resp. kodeku, pokud ho nastavíte na minimum, zpěv by v ideálním případě vůbec neměl být slyšet. Tady však narážíme na dosavadní limity vestavěného strojového učení, protože některé nahrávky jsou nešikovně rušeny různými doprovodnými hlasy, vokály, sbory, ozvěnami a jinými elementy, které mohou AI zmást. Ani to ale úplně neplatí, protože např. písnička Let It Go z pohádky Ledové království je naprosto čistá nahrávka, která celá stojí na fenomenálním výkonu Idiny Menzel a měla by tedy úplně perfektně AI vyhovovat. Její hlas však má díky svému jedinečnému zabarvení zřejmě tak zvláštní frekvenci, že i při úplném zeslabení hlasu Idinu trochu uslyšíte, což může být mírně matoucí až rušivé a rozhodně to bude kazit kvalitu strojově vyprodukované instrumentální verze této skladby, pokud vám jde především o to. Jiné písničky, byť živá vystoupení nahraná před téměř třiceti lety jako koncert Falca na festivalu Donauinsel v roce 1993 nebo vystoupení Engelberta Humperdincka v roce 2005 nicméně znějí v režimu Zpěv paradoxně mnohem lépe a přirozeněji. Chtěl bych časem vidět, kolik energie při tom čip telefonu spotřebuje, protože tak jako tak vyprodukovat pseudokaraoke bez šumu a s tak nízkou mírou rušivých artefaktů musí být strašně náročné.

Sing

Neural Engine není jen Siri

Sílu strojového učení Apple v posledních letech hodně tlačil dopředu. Neustále zvyšoval počty operací, které dovede jeho čip provést za jednu vteřinu, násobil počet jader Neural Enginu a prostě slavil jeden úspěch za druhým, až na to, že jsme nikdo vlastně nevěděli, proč se to všechno děje. Nikde kromě Siri, která se ve skutečnosti nikam neposouvá, a šikovného rozpoznání objektů na fotkách, aniž byste museli sdílet svá data se vzdálenými servery, se brutální výkon AI v čipech Applu nijak neprojevoval. Náš skepticismus se ale možná zdá být zbytečným, protože všechno nahrává tomu, že právě funkce Sing je novým přírůstkem do rodiny funkcí, které je na zařízení díky AI možné mít. A je dobře, že s ní Apple přišel. Z několika internetových zdrojů jsem už slyšel mnoho chvály, někteří lidé dokonce říkají, že je to jedna z nejlepších novinek, s níž Apple vyrukoval za posledních několik let, a já bych s tím plně souhlasil. Sám jsem před několika týdny vydal článek o tom, jak přestává dávat smysl naše zařízení aktualizovat, protože nové systémy nepřinášejí nic přelomového, bez čeho by se nutně nedalo žít, a bum, Apple vzápětí vpálí takovou pecku, kterou nikdo jiný nemá. To je přesně jeho styl, Apple vždycky uměl překvapit ze zálohy, ať už pozitivně či negativně.

Vyvinout alternativu k Sing bude pro konkurenty těžké. Apple sice zaostává ve schopnostech svého AI, protože odmítá vaše data sdílet světu, ale např. právě Sing je dalším dokonalým příkladem toho, že má smysl integrovat a má smysl výkon nosit s sebou. Apple Music Sing je možné mít jedině díky tomu, že Apple hodně akcentuje výkon Neural Enginu, a zřejmě to nebude jediná funkce, kterou Apple do budoucna chystá. Můžeme se totiž podívat na data. Když v roce 2018 vyšel čip A12 Bionic s úplně novým 8jádrovým Neural Enginem, dovedl oproti NE v A11 (600 miliard operací za sekundu) provést až 5 bilionů operací za sekundu. To byl skok kupředu skoro o jeden řád, ale podle všeho to pořád není dost. Poslední podporovaný čip je až A13 z roku 2019. K němu nám Apple sice žádná konkrétní data nedal, ale jeho NE byl zřejmě zdokonalenou verzí toho v A12. O rok později pak vyšel čip A14 Bionic s novým 16jádrovým Neural Enginem, kde už to začalo být pořádně zajímavé. A14 dovedl provést neuvěřitelných 11 bilionů operací za sekundu, což je více než dvakrát tolik co jeho o dva roky starší předchůdce, s nímž byl A13 pravděpodobně srovnatelný. A15 byl opět bez komentáře a letošní čip A16 Bionic, který stojí na nové architektuře, má stále 16 jader NE, ale dovede provést až 17 bilionů operací za sekundu. Jak je vidět, nárůst výkonu Neural Enginu v čipech Applu je překotný, mnohem rychlejší než v případě výpočetního nebo grafického výkonu, takže by asi mělo být jasné, proč je Apple Music Sing omezeno pouze na tyto modely z posledních let. Nechci tady být ďáblův advokát a za každou cenu hledat důvody, proč Apple zase jedná správně, ale stačí mi si spojit běžně dostupné informace dohromady, pozorně poslouchat a nechtít všechno hned odsoudit a odpověď se ukáže sama.

Protože nic z toho, co jsem teď vylíčil, konkurence nedělá, bude Apple Music Sing v současné podobě ještě dlouho dostupné pouze na zařízeních Apple, pakliže se někdo nebude snažit to nějak softwarově obejít (což nefunguje), čímž však bude riskovat hodně posměchu, protože Apple už teď předvedl skvělou práci. Samozřejmě si ale funkce Sing ještě zaslouží pozornost ze strany vývojářů, protože je co vylepšit a učit AI, jak si se skladbami poradit. Také by se např. dalo přidat možnost oddělit navíc hlavního zpěváka od jeho doprovodu apod., ale to opravdu hodně předbíhám. Díky Apple Music Sing teď Apple každopádně získal další trumf, který by potenciálně mohl některé lidi přesvědčit ke koupi nového zařízení, nebo k přechodu od konkurenční platformy, pokud už iPhone mají, a hypoteticky i k odchodu od Androidu. Apple Music Sing vidím podobně jako DLSS u NVIDIE. Každý se o to bude pokoušet, ale jedině NVIDIA na to má ten správný recept a i když lidi budou nadávat na cenu, stejně o zákazníky nepřijde. Konkurenční výhoda je tu jasná.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *