Testovanie „najchytrejší na svete“ Grok3

Skupina Aipu Waton (1)

Zavedenie

Myslíte si, že Grok3 bude „koncovým bodom“ vopred vyškolených modelov?

Elon Musk a tím XAI oficiálne spustili najnovšiu verziu Grok, Grok3, počas živého vysielania. Pred touto udalosťou významné množstvo súvisiacich informácií spojených s propagačným humbukom Musk 24/7 zvýšilo globálne očakávania týkajúce sa Grok3 na bezprecedentnú úroveň. Len pred týždňom Musk s istotou uviedol počas živého vysielania, zatiaľ čo komentoval Deepseek R1, „Xai sa chystá spustiť lepší model AI“. Z údajov prezentovaných naživo Grok3 údajne prekonal všetky súčasné modely hlavného prúdu v referenčných hodnotách pre matematiku, vedu a programovanie, pričom Musk dokonca tvrdí, že Grok3 sa bude používať na výpočtové úlohy týkajúce sa misií Mars SpaceX, ktoré predpovedajú „prelomy na úrovni Nobela do troch rokov“. V súčasnosti sú to však iba tvrdenia Musk. Po uvedení na trh som testoval najnovšiu verziu beta beta Grok3 a položil som klasickú trikovú otázku pre veľké modely: „Čo je väčšie, 9.11 alebo 9.9?“ Bohužiaľ, bez akýchkoľvek kvalifikácií alebo označení, takzvaný najchytrejší Grok3 stále nemohol na túto otázku odpovedať správne. Grok3 nedokázal presne identifikovať význam otázky.

 

Tento test rýchlo upozornil na mnohých priateľov a náhodou rôzne podobné testy v zahraničí ukázali, že Grok3 zápasia so základnou fyzikou/matematickou otázkou ako „ktorá lopta spadá ako prvá z naklonenej veže PISA?“ Preto bol humorne označený ako „génius, ktorý nie je ochotný odpovedať na jednoduché otázky“.

640

Grok3 je dobrý, ale nie je to lepšie ako R1 alebo O1-Pro.

Grok3 zažil „zlyhania“ v mnohých bežných testoch vedomostí v praxi. Počas podujatia XAI Musk demonštroval použitie Grok3 na analýzu tried znakov a účinkov z hry Hery of Exile 2, ktorú tvrdil, že hrá často, ale väčšina odpovedí poskytovaných spoločnosťou Grok3 bola nesprávna. Musk počas živého vysielania si tento zjavný problém nevšimol.

 

Táto chyba nielen poskytla ďalšie dôkazy pre zahraničných netizénov, aby sa zosmiešňovala Musk za „nájdenie náhradníka“ v hre, ale tiež vyvolala významné obavy týkajúce sa spoľahlivosti GROK3 v praktických aplikáciách. Pre takéto „génius“, bez ohľadu na svoje skutočné schopnosti, zostáva jeho spoľahlivosť v mimoriadne zložitých scenároch aplikácií, ako sú úlohy prieskumu Marsu, pochybnosti.

 

V súčasnosti veľa testerov, ktorí dostali prístup k Groke pred 3 týždňami, a tí, ktorí včera včera testovali modelové schopnosti na niekoľko hodín, všetci poukazujú na spoločný záver: „Grok3 je dobrý, ale nie je to lepšie ako R1 alebo O1-Pro.“

640 (1)

Kritický pohľad na „narušenie NVIDIA“

V oficiálne prezentovanom PPT počas vydania sa ukázalo, že GROK3 je „ďaleko vpred“ v aréne Chatbot, ale táto šikovne použitá grafické techniky: Vertikálna os na rebríčku uvedená iba vedie iba k rozsahu skóre 1400-1300, vďaka čomu sa v tejto prezentácii javí výnimočne významne významná.

640

V skutočných výsledkoch bodovania modelu je Grok3 iba 1-2% pred Deepseek R1 a GPT-4,0, čo zodpovedá skúsenostiam mnohých používateľov v praktických testoch, ktoré nezistili „žiadny výrazný rozdiel“. Grok3 presahuje svojich nástupcov iba o 1%-2%.

640

Aj keď Grok3 skóroval vyššie ako všetky v súčasnosti verejne testované modely, mnohí to neberú vážne: Koniec koncov, XAI bol predtým kritizovaný za „manipuláciu skóre“ v ERA Grok2. Ako rebríčka penalizovala štýl dĺžky odpovedí, skóre sa výrazne znížilo, čo viedlo zasvätení priemyslu k tomu, aby často kritizovali jav „vysokého bodovania, ale nízkej schopnosti“.

 

Či už prostredníctvom „manipulácie“ alebo dizajnérskych trikov v ilustráciách odhaľujú posadnutosť Xai a Musk pojmom „vedúce balenie“ v modelových schopnostiach. Musk za tieto marže zaplatil strmú cenu: Počas štartu sa pochválil používaním 200 000 GPU H100 (tvrdí „viac ako 100 000“ počas živého vysielania) a dosiahol celkový čas tréningu 200 miliónov hodín. To viedlo niektorí k presvedčeniu, že to predstavuje pre priemysel GPU ďalší významný prínos, a považovať vplyv spoločnosti Deepseek na tento sektor za „hlúpy“. Niektorí sa domnievajú, že číra výpočtová sila bude budúcnosťou modelového tréningu.

 

Niektorí Netizens však porovnávali spotrebu 2000 GPU H800 počas dvoch mesiacov, aby vytvorili Deepseek V3, pričom vypočítali, že skutočná spotreba energie GROK3 je 263 -násobok spotreby V3. Priepasť medzi Deepseek V3, ktorá získala 1402 bodov, a Grok3 je takmer 100 bodov. Po vydaní týchto údajov si mnohí rýchlo uvedomili, že za titulom Grok3 ako „najsilnejším“ na svete leží jasný okrajový úžitkový efekt - logika väčších modelov generujúcich silnejší výkon začala prejavovať zmenšujúce sa výnosy.

640 (2)

Dokonca aj s „vysokým bodovaním, ale nízkymi schopnosťami“ mal Grok2 obrovské množstvo vysoko kvalitných údajov prvej strany z platformy X (Twitter) na podporu využitia. Avšak pri výcviku Grok3 sa XAI prirodzene stretla s „stropom“, ktorému OpenAi v súčasnosti čelí - nedostatok prémiových výcvikových údajov rýchlo odhaľuje marginálnu užitočnosť schopností modelu.

 

Vývojári Grok3 a Musk sú pravdepodobne prvými, ktorí tieto fakty hlboko pochopia a identifikujú, a preto Musk na sociálnych médiách neustále spomínal, že používatelia verzie teraz zažívajú „stále iba beta“ a že „úplná verzia bude vydaná v nasledujúcich mesiacoch“. Musk prevzal úlohu produktového manažéra Grok3, čo naznačuje, že používateľom poskytuje spätnú väzbu o rôznych problémoch, ktoré sa vyskytujú v sekcii komentárov.

 

V priebehu dňa však výkon spoločnosti Grok3 nepochybne vzal alarmy pre tých, ktorí dúfajú, že sa spoliehajú na „masívny výpočtový sval“, aby vyškolili silnejšie veľké modely: na základe verejne dostupných informácií spoločnosti Microsoft, má spoločnosť OpenAI GPT-4 veľkosť parametrov 1,8 biliónov parametrov, viac ako desaťkrát z GPT-3. Povesti naznačujú, že veľkosť parametra GPT-4,5 môže byť ešte väčšia.

 

Keďže veľkosť parametrov modelu stúpa, náklady na školenie tiež prudko stúpajú. S prítomnosťou Grok3 musia uchádzači ako GPT-4,5 a ďalší, ktorí chcú pokračovať v „spaľovaní peňazí“, aby dosiahli lepšiu výkonnosť modelu prostredníctvom veľkosti parametrov, musia zvážiť strop, ktorý je teraz jasne v dohľade a uvažuje o tom, ako ho prekonať. V tejto chvíli Ilya Sutskever, bývalá vedecká vedkyňa spoločnosti OpenAI, predtým uviedla minulý rok v decembri: „Predbežné školenie, ktoré poznáme, sa skončí“, ktorý sa objavil v diskusiách, čo vyvoláva úsilie o nájdenie skutočnej cesty pre výcvik veľkých modelov.

640 (3)

Ilya hľadisko znel alarm v priemysle. Presne predvídal bezprostredné vyčerpanie prístupných nových údajov, čo vedie k situácii, keď sa výkon nemožno naďalej zlepšovať prostredníctvom získavania údajov, čím sa prirovnáva k vyčerpaniu fosílnych palív. Uviedol, že „podobne ako ropa, ľudský obsah na internete je obmedzeným zdrojom“. V predpovediach Sutskever bude mať ďalšia generácia modelov, post-preškolenie, má „skutočnú autonómiu“ a schopnosti uvažovania „podobné ľudskému mozgu“.

 

Na rozdiel od dnešných vopred vyškolených modelov, ktoré sa primárne spoliehajú na porovnávanie obsahu (na základe predtým naučeného modelu), budúce systémy AI sa budú môcť učiť a vytvoriť metodiky na riešenie problémov spôsobom podobným „mysleniu“ ľudského mozgu. Človek môže dosiahnuť základné znalosti v predmete s iba základnou profesionálnou literatúrou, zatiaľ čo veľký model AI vyžaduje milióny dátových bodov, aby dosiahol iba najzákladnejšiu účinnosť základnej úrovne. Aj keď sa znenie mierne zmení, tieto základné otázky nemusia byť správne pochopené, čo ilustruje, že model sa v inteligencii skutočne nezlepšil: Základné, ale neriešiteľné otázky uvedené na začiatku článku predstavujú jasný príklad tohto javu.

微信图片 _20240614024031.jpg1

Záver

Ak sa však Grok3 skutočne podarí odhaliť priemyslu, že „vopred trénované modely sa blížia k ich koncu“, malo by to významné dôsledky pre túto oblasť.

Možno, že po tom, čo šialenstvo obklopujúci Grok3 postupne ustúpime, budeme svedkami ďalších prípadov, ako je napríklad príklad Fei-Fei Li o „ladení vysokovýkonných modelov na konkrétny súbor údajov za pouhých 50 dolárov“, nakoniec objavíme skutočnú cestu k AGI.

Nájdite roztok káblov ELV

Ovládacie káble

Pre BMS, autobus, priemyselný, prístrojový kábel.

Systém štruktúrovaného kabeláže

Sieť a údaje, optický kábel, opravný kábel, moduly, čelná doska

2024 Preskúmanie výstav a udalostí

16. apríla-18., 2024, na Strednom východe v Dubaji

16.-18.-18., 2024 Securika v Moskve

9. mája, 2024 Nové podujatia Products & Technologies v Šanghaji

22. októbra-25. októbra 2024 Čína v Pekingu

19.-20. novembra 2024 Connected World KSA


Čas príspevku: február-19-2025