Jak se model AI DeepSeek-R1 učil se učit se rozumu | Vysvětlil

Příběh zatím: Po mnoho desetiletí je jedna z velkých výzev v Umělá inteligence (AI) vyučoval stroje k rozumu. Zdůvodnění jde nad rámec zapamatování faktů nebo dokončení vět. Je to schopnost sledovat kroky, přemýšlet o chybách a upravit strategie, dokud nebude nalezena správná odpověď.
Lidé používají zdůvodnění všeho od řešení matematických problémů po psaní počítačových programů, od vyjednávání jejich každodenního života až po rozhodování, pro koho hlasovat. Velké jazykové modely (LLM), jako je GPT-4 nebo Deepseek-V3, vědci překvapily tím, že při zmenšení na velké velikosti vykazovaly známky uvažování. Další metoda, která se nazývá výzva k promyšlenému postupu, kde je model nasunul „Think krok za krokem“, také zvýšila výkon.
Oba tyto přístupy však přicházejí s limity. Tréninkové modely k rozumu obvykle vyžadují příklady způsobené člověkem. Např. Lidé ukazují model AI, jak řešit problémy a AI se učí zkopírovat metodu. To je pomalé, drahé a představuje lidské zkreslení. Rovněž omezuje kreativitu AI, protože model nemůže prozkoumat metody řešení problémů, na které lidé nemysleli.
V příspěvku zveřejněném v Příroda 17. září tým Deepseek-Ai uvedl, že dokázal dosáhnout svého modelu, který byl nazýván pouze R1, aby se položil ambiciózní otázku: Co kdybychom umožnili modelu naučit se rozumět, aniž by mu nejprve ukázali lidské příklady? To znamená, že zjistili, že R1 může vyvinout nové formy uvažování pomocí učení zesílení, metodu pokusu a chyb vedených pouze odměnami za správné odpovědi.
Co je to posilovací učení?
Cílem týmu bylo učinit model chytřejší v matematice a kódování a také odhalit, jak by se chování uvažování mohlo objevit přirozeně, když je stroj dán správné pobídky.
Vědci Deepseek začali s V3 Base, velkým jazykovým modelem podobným jiným nejmodernějším systémům. Místo použití obvyklého podřízeného jemného doladění, kde lidé poskytují kroky odůvodnění, použili „skupinovou optimalizaci relativní politiky“, metodu učení posílení určené pro efektivitu.
V tomto nastavení byl nejprve požádán model, nazvaný R1-Zero, aby vyřešil matematické a algoritmické problémy. Pro každý pokus musel vytvořit dvě části: proces uvažování uvnitř `
Přes tisíce tréninkových kroků, model se naučil pokusem a omylem. Pokud byla odpověď špatná, cesta, která tam vedla, byla odrazována; Pokud to bylo správné, cesta byla posílena. Důležité je, že vědci také sledovali, jak se změnil doba myšlení modelu, tj. Počet žetonů, které používal ve své sekci uvažování, změnil. Pozoruhodné, že model začal psát delší a reflexivnější uvažovací řetězce sám o sobě, někdy včetně frází jako „čekání“ nebo „zkusme znovu“ a odhalí schopnost samoobsluhy.

Byl tam lidský zásah?
Tým postavil R1 z R1-nulo, aby se zabýval slabinami, jako je špatná čitelnost a míchání angličtiny s čínštinou. Tento proces zahrnoval přidání pobídek pro důsledné použití jednoho jazyka pod jemné doladění s odůvodňovacími i neodůvodněnými daty. Konečný model tak zdědil surovou sílu uvažování R1-nula a zároveň se také snadnější používal a bezpečnější.
Výsledky byly pozoruhodné. Na americké vyšetření matematiky Invitational Mathematics (AIME) 2024, tvrdá soutěž, která se obvykle nejchytřejší studenty na střední škole pokusí, přesnost R1-nula vyskočila z pouhých 15,6% na začátku tréninku na 77,9% do konce. S větším vyladěním dosáhl 86,7%a překonal průměrný výkon lidských studentů.
V určité fázi začal R1-Zero ve svém zdůvodnění používat slovo „počkat“, stejně jako člověk může mít, když je spatřena chyba. Vědci uvedli, že to znamená, že model nebyl slepě po cestě, ale aktivně přehodnotil kroky, když se něco zdálo. Ve skutečnosti učení zesílení přimělo AI do chování, která se podobala reflexi a ověření, oba prvky uvažování.
Konečný model R1 byl ještě silnější: bylo dobré v matematice a kódování, stejně jako v benchmarcích pro obecné znalosti, zodpovězení otázek a po dodržování pokynů. Ve srovnání se svými předchůdci byl R1 také v souladu s výběrem jazyka a lépe sladěn s lidskými preferencemi pro užitečnost a bezpečnost. Při hodnocení s rámci jako Alpacaeval 2.0 a Arena-tvrdý, které testují, jak dobře model sleduje pokyny, se R1 zlepšil o 25% a 17%, což je považováno za velké.
Jaké jsou výhody a nevýhody uvažování?
Mnoho velkých jazykových modelů, včetně široce používaných systémů, jako je CHATGPT, často během testování vyžaduje velké množství výpočetních zdrojů. R1, na druhé straně, mohl přizpůsobit, kolik si „myslel“ v závislosti na obtížnosti úkolu. Jednoduché problémy se setkaly s krátkými zdůvodňovacími řetězci, zatímco těžší vedly k delším a komplikovanějším řetězcům. Tato dynamická alokace se vyhnula náročné síle na otázky, které to nezaručily. Samotné posilovací učení je však energeticky náročné.
Dohromady zjištění potvrzují, že samotné posilovací učení (se správným designem) by mohlo způsobit chování, o nichž se předpokládalo, že dříve vyžadovalo lidské příklady. To by mohlo změnit způsob, jakým přemýšlíme o tom, jak by inteligence mohla růst v umělých systémech. Například v budoucnu mohli vědci stavět ověření, které kontrolují odpovědi a nechat model vymyslet své vlastní strategie. Pokud je možné spolehlivě zkontrolovat odpověď na problém matematiky, počítačový program nebo faktická otázka, pak posilovací učení může zbytek udělat. To by mohlo urychlit pokrok a zároveň snížit lidskou práci a zaujatost.

Tradiční školicí potrubí LLM silně bankují na velkých datových souborech značených člověkem-lidé, kteří píše páry odpovědí na otázky, kroky odůvodnění, preferenční úsudky atd. Jsou drahé a často se shromažďují za vykořisťovatelských pracovních podmínek. Pokud mohou být stroje učeny, aby bylo možné uvažovat pouze pomocí posilovacího učení, může se poptávka po enotorovaných datech s lidmi zmenšit, čímž se také sníží tlak na zdroj levného práce po celém světě. Studijní dokument však také uznává, že úkoly bez jasného pozemního truthingu se stále spoléhají na údaje o odměněch značených člověkem. Lidský vstup tedy není eliminován; Pouze jeho rozsah se může zmenšit do oblastí, kde nelze postavit žádný spolehlivý ověření.
Model, který se učí rozumět, bude také vyžadovat lepší odměňovací signály za otevřené úkoly, jako je psaní, což je obtížné, a také silnější záruky, protože se stává schopným generovat nebezpečný nebo manipulativní obsah. Ve skutečnosti sledování stroje vyvíjí reflexní chování (pozastavení, kontrola, revize atd.) Vyvolává otázky o tom, jak daleko mohou tyto systémy jít. Pokud se zdůvodňuje spíše z pobídek než pokynů, mohla by se kreativita nebo hlubší formy porozumění stejným způsobem objevit?
Čas to řekne-pokud to Deepseek-R1 nenajde jako první.
Publikováno – 17. září 2025 20:30



