Úvod

Myslíte si, že Grok3 bude „koncovým bodom“ predtrénovaných modelov?

Elon Musk a tím xAI oficiálne spustili najnovšiu verziu Groku s názvom Grok3 počas živého vysielania. Pred touto udalosťou značné množstvo súvisiacich informácií spolu s Muskovým nepretržitým propagačným humbukom zvýšilo globálne očakávania od Grok3 na nebývalú úroveň. Len pred týždňom Musk počas živého vysielania sebavedomo vyhlásil, keď komentoval DeepSeek R1: „xAI sa chystá spustiť lepší model umelej inteligencie.“ Z údajov prezentovaných naživo vyplýva, že Grok3 údajne prekonal všetky súčasné bežné modely v benchmarkoch pre matematiku, vedu a programovanie, pričom Musk dokonca tvrdil, že Grok3 sa bude používať na výpočtové úlohy súvisiace s misiami SpaceX na Mars a predpovedal „prelomy na úrovni Nobelovej ceny do troch rokov“. Momentálne sú to však len Muskove tvrdenia. Po spustení som otestoval najnovšiu beta verziu Grok3 a položil klasickú záludnú otázku pre veľké modely: „Ktorý je väčší, 9,11 alebo 9,9?“ Bohužiaľ, bez akýchkoľvek kvalifikácií alebo označení takzvaný najinteligentnejší Grok3 stále nedokázal na túto otázku správne odpovedať. Grok3 nedokázal presne identifikovať význam otázky.

Tento test rýchlo upútal značnú pozornosť mnohých priateľov a zhodou okolností rôzne podobné testy v zahraničí ukázali, že Grok3 má problémy so základnými fyzikálnymi/matematickými otázkami ako „Ktorá guľa spadne prvá zo šikmej veže v Pise?“. Preto bol vtipne označený za „génia, ktorý nie je ochotný odpovedať na jednoduché otázky“.

Grok3 je dobrý, ale nie je lepší ako R1 alebo o1-Pro.

Grok3 v praxi zaznamenal „zlyhania“ v mnohých testoch bežných znalostí. Počas uvedenia xAI Musk predviedol použitie Grok3 na analýzu tried postáv a efektov z hry Path of Exile 2, ktorú podľa svojich slov často hrá, ale väčšina odpovedí, ktoré Grok3 poskytol, bola nesprávna. Musk si počas živého vysielania tento zjavný problém nevšimol.

Táto chyba nielenže poskytla ďalší dôkaz pre zahraničných používateľov internetu, aby sa posmievali Muskovi za to, že „našiel náhradu“ v hrách, ale tiež vyvolala značné obavy týkajúce sa spoľahlivosti Grok3 v praktických aplikáciách. Pre takéhoto „génia“, bez ohľadu na jeho skutočné schopnosti, jeho spoľahlivosť v extrémne zložitých aplikačných scenároch, ako sú napríklad úlohy prieskumu Marsu, zostáva otázna.

V súčasnosti mnohí testeri, ktorí získali prístup k Grok3 pred niekoľkými týždňami, a tí, ktorí včera len pár hodín testovali možnosti modelu, poukazujú na spoločný záver: „Grok3 je dobrý, ale nie je lepší ako R1 alebo o1-Pro.“

Kritický pohľad na „narušenie Nvidie“

V oficiálne prezentovanej PPT prezentácii počas vydania sa ukázalo, že Grok3 je v Chatbot Aréne „ďaleko vpredu“, ale tento systém šikovne využil grafické techniky: vertikálna os na rebríčku zobrazovala iba výsledky v rozmedzí skóre 1400 – 1300, vďaka čomu sa pôvodný 1 % rozdiel vo výsledkoch testov v tejto prezentácii javí ako mimoriadne významný.

V skutočných výsledkoch hodnotenia modelov je Grok3 len o 1 – 2 % pred DeepSeek R1 a GPT-4.0, čo zodpovedá skúsenostiam mnohých používateľov v praktických testoch, ktoré nezistili „žiadny badateľný rozdiel“. Grok3 prekonáva svojich nástupcov iba o 1 – 2 %.

Hoci Grok3 dosiahol vyššie skóre ako všetky v súčasnosti verejne testované modely, mnohí to neberú vážne: koniec koncov, xAI bola v ére Grok2 kritizovaná za „manipuláciu so skóre“. Keďže rebríček penalizoval štýl dĺžky odpovedí, skóre sa výrazne znížilo, čo viedlo odborníkov z odvetvia k častej kritike javu „vysokého skóre, ale nízkej schopnosti“.

Či už prostredníctvom „manipulácie“ s rebríčkom alebo dizajnérskych trikov v ilustráciách, odhaľujú xAI a Muskovu posadnutosť myšlienkou „viesť skupinu“ v oblasti modelových schopností. Musk za tieto rozdiely zaplatil vysokú cenu: počas uvedenia na trh sa chválil použitím 200 000 GPU H100 (počas živého vysielania tvrdil, že použil „viac ako 100 000“) a dosiahol celkový čas trénovania 200 miliónov hodín. To viedlo niektorých k presvedčeniu, že to predstavuje ďalší významný prínos pre odvetvie GPU a že vplyv DeepSeeku na tento sektor považovali za „hlúpy“. Niektorí sa domnievajú, že budúcnosťou trénovania modelov bude samotná výpočtová sila.

Niektorí používatelia internetu však porovnali spotrebu 2000 grafických procesorov H800 počas dvoch mesiacov potrebných na vytvorenie DeepSeek V3 a vypočítali, že skutočná spotreba energie Grok3 pri tréningu je 263-krát vyššia ako u V3. Rozdiel medzi DeepSeek V3, ktorý získal 1402 bodov, a Grok3 je necelých 100 bodov. Po zverejnení týchto údajov si mnohí rýchlo uvedomili, že za titulom Grok3 ako „najsilnejšieho na svete“ sa skrýva jasný marginálny úžitkový efekt – logika väčších modelov generujúcich lepší výkon začala vykazovať klesajúce výnosy.

Aj napriek „vysokému skóre, ale nízkej schopnosti“ mal Grok2 k dispozícii obrovské množstvo vysokokvalitných údajov z platformy X (Twitter) na podporu používania. Pri trénovaní Grok3 však xAI prirodzene narazila na „strop“, ktorému OpenAI v súčasnosti čelí – nedostatok prémiových trénovacích údajov rýchlo odhalí okrajovú užitočnosť schopností modelu.

Vývojári Grok3 a Musk sú pravdepodobne prví, ktorí tieto fakty dôkladne pochopia a identifikujú, a preto Musk na sociálnych sieťach neustále uvádza, že verzia, ktorú používatelia momentálne používajú, je „stále len beta verzia“ a že „plná verzia bude vydaná v nasledujúcich mesiacoch“. Musk prevzal úlohu produktového manažéra Grok3 a navrhol používateľom, aby v sekcii komentárov poskytovali spätnú väzbu k rôznym problémom, s ktorými sa stretli. Možno je najsledovanejším produktovým manažérom na Zemi.

Výkon Grok3 však v priebehu jediného dňa nepochybne vyvolal poplach u tých, ktorí dúfajú, že sa na trénovanie silnejších veľkých modelov spoľahnú na „masívny výpočtový výkon“: na základe verejne dostupných informácií od spoločnosti Microsoft má OpenAI GPT-4 veľkosť parametrov 1,8 bilióna parametrov, čo je viac ako desaťnásobok veľkosti parametra GPT-3. Chýry naznačujú, že veľkosť parametra GPT-4.5 by mohla byť ešte väčšia.

S rastúcimi veľkosťami parametrov modelu prudko rastú aj náklady na trénovanie. S prítomnosťou Grok3 musia uchádzači ako GPT-4.5 a ďalší, ktorí chcú naďalej „spaľovať peniaze“ na dosiahnutie lepšieho výkonu modelu prostredníctvom veľkosti parametrov, zvážiť strop, ktorý je teraz jasne na dohľad, a premýšľať o tom, ako ho prekonať. V tejto chvíli Ilya Sutskever, bývalý hlavný vedec v OpenAI, v decembri minulého roka vyhlásil: „Predtrénovanie, ktoré poznáme, sa skončí,“ čo sa opäť objavilo v diskusiách a podnietilo snahy nájsť skutočnú cestu pre trénovanie veľkých modelov.

Iľjov názor spustil v tomto odvetví poplach. Presne predpovedal bezprostredné vyčerpanie dostupných nových údajov, čo povedie k situácii, v ktorej sa výkonnosť nebude môcť ďalej zlepšovať prostredníctvom získavania údajov, a prirovnal to k vyčerpaniu fosílnych palív. Naznačil, že „podobne ako ropa, aj obsah generovaný človekom na internete je obmedzeným zdrojom“. Podľa Sutskeverových predpovedí bude ďalšia generácia modelov po predbežnom zaškolení disponovať „skutočnou autonómiou“ a schopnosťami uvažovania „podobnými ľudskému mozgu“.

Na rozdiel od dnešných predtrénovaných modelov, ktoré sa primárne spoliehajú na porovnávanie obsahu (na základe predtým naučeného obsahu modelu), budúce systémy umelej inteligencie budú schopné učiť sa a vytvárať metodiky na riešenie problémov spôsobom podobným „mysleniu“ ľudského mozgu. Človek môže dosiahnuť základnú znalosť predmetu len so základnou odbornou literatúrou, zatiaľ čo rozsiahly model umelej inteligencie vyžaduje milióny dátových bodov na dosiahnutie len tej najzákladnejšej vstupnej účinnosti. Aj keď sa znenie mierne zmení, tieto základné otázky nemusia byť správne pochopené, čo ilustruje, že model sa skutočne nezlepšil v inteligencii: základné, ale neriešiteľné otázky spomenuté na začiatku článku predstavujú jasný príklad tohto javu.

Záver

Ak sa však Grok3 skutočne podarí odhaliť odvetviu, že „predtrénované modely sa blížia ku koncu“, okrem použitia hrubej sily by to malo pre túto oblasť významné dôsledky.

Možno po postupnom utíšení šialenstva okolo Grok3 budeme svedkami ďalších prípadov, ako je príklad Fei-Fei Liho o „ladení vysokovýkonných modelov na konkrétnom súbore údajov za púhych 50 dolárov“, čo nakoniec odhalí skutočnú cestu k AGI.