Benchmarking platforma AI pomáhá špičkovým společnostem upravit jejich modelové představení, tvrdí

Benchmark pro Go-to Umělá inteligence (AI) Chatbots čelí kontrole od vědců, kteří tvrdí, že jeho testy upřednostňují proprietární modely AI od velkých technologických společností.
LM Arena efektivně umisťuje dva neidentifikované modely velkých jazyků (LLMS) do bitvy, aby zjistila, která může nejlépe řešit výzvu, přičemž uživatelé benchmarku hlasování pro výstup, který se mu nejvíce líbí. Výsledky jsou poté přiváděny do žebříčku, která sleduje, které modely provádějí nejlépe a jak se zlepšily.
Vědci však tvrdili, že benchmark je zkreslený a uděluje hlavním LLM „nezveřejněné soukromé testovací postupy“, které jim poskytují výhodu oproti LLM s otevřeným zdrojovým kódem. Vědci zveřejnili svá zjištění 29. dubna v databázi předtisku arxivStudie tedy ještě nebyla recenzována.
„Ukazujeme, že koordinace mezi hrstkou poskytovatelů a preferenčních politik z Chatbot Arena (později LM Arena) směrem k stejné malé skupině ohrozila vědeckou integritu a spolehlivé hodnocení arény,“ uvedli vědci ve studii. „Jako komunita musíme lépe požadovat.“
Štěstí? Omezení? Manipulace?
Začátek jako Chatbot Arena, výzkumný projekt vytvořený v roce 2023 vědci na University of California, Berkeley’s Sky Computing LabLM Arena se rychle stala populárním webem pro špičkové společnosti AI a open-source underdogs pro testování jejich modelů. Stránka, která upřednostňuje analýzu „založené na vibracích“ vycházející z odpovědí uživatelů nad akademickými benchmarky, nyní získá více než 1 milion návštěvníků měsíčně.
Pro posouzení nestrannosti webu vědci měřili více než 2,8 milionu bitvy převzaté po pětiměsíční období. Jejich analýza naznačuje, že hrstka preferovaných poskytovatelů – vlajkových modelů společností včetně Meta, OpenAI, Google a Amazon – byla „udělena nepřiměřený přístup k datům a testování“, protože jejich modely se objevily ve vyšším počtu bitev a přinesly jejich konečnou verzi s významnou výhodou.
„Poskytovatelé jako Google a OpenAI obdrželi odhadem 19,2% a 20,4% všech údajů v aréně,“ napsali vědci. „Naproti tomu kombinované 83 modelů s otevřenou hmotností obdrželo pouze odhadem 29,7% z celkových údajů.“
Kromě toho vědci poznamenali, že proprietární LLM jsou testovány v LM aréně několikrát před jejich oficiálním propuštěním. Tyto modely proto mají větší přístup k datům arény, což znamená, že když jsou konečně postaveny proti jiným LLM, mohou je šikovně porazit, pouze s nejlepší iterací každého LLM umístěného na veřejné žebříčku, tvrdili vědci.
„V extrému identifikujeme 27 soukromých variant LLM testovaných Meta v přípravě k vydání LLAMA-4. Rovněž stanovíme, že proprietární uzavřené modely jsou vzorkovány za vyšší sazby (počet bitev) a máme méně modelů odstraněno z arény než otevřené a open-source alternativy,“ napsali vědci ve studii. „Obě tyto zásady vedou k velkým přístupovým asymetriím v průběhu času.“
Ve skutečnosti vědci tvrdí, že schopnost testovat více předběžných vydání LLMS, která má schopnost zatáhnout benchmarkové skóre, má pouze nejvyšší iterace svého LLM umístěného na žebříčku a také určité komerční modely, které se objevují častěji než ostatní, poskytuje velkým společností AI své modely. To potenciálně zvyšuje výkon jejich arény nad konkurenty, ale nemusí to znamenat, že jejich modely jsou nutně lepší kvality.
Výzkum zpochybnil autoritu LM Arena jako benchmark AI. LM Arena musí ještě poskytnout oficiální komentář k živé vědě, nabídnout pouze základní informace v e -mailové odpovědi. Organizace však zveřejnila odpověď na výzkum na sociální platformě X.
„Pokud jde o prohlášení, že s některými poskytovateli modelu se nezachází spravedlivě: to není pravda. Vzhledem k naší kapacitě jsme se vždy pokusili ctít všechny žádosti o hodnocení, které jsme obdrželi,“ zástupci společnosti napsal v příspěvku. „Pokud se poskytovatel modelu rozhodne předložit více testů než jiný poskytovatel modelu, neznamená to, že se s druhým poskytovatelem modelu zachází nespravedlivě. Každý poskytovatel modelu dělá různá volba o tom, jak používat a ocenit lidské preference.“
LM Arena také tvrdila, že v údajích a metodice vědců došlo k chybám a odpověděly, že vývojáři LLM si nevybírají nejlepší skóre, které by prozradilo, a že na veřejnou žebříčku je uvedeno pouze skóre, které vydalo uvolněné LLM.
Zjištění však vyvolávají otázky o tom, jak lze LLMS testovat spravedlivě a konzistentně, zejména jako Procházení testu Turingu není vodoznak AI, který to pravděpodobně kdysi byl, a to Vědci se dívají na lepší způsoby, jak skutečně posoudit rychle rostoucí schopnosti AI.