Home věda Meta’s VP Genai popírá manipulaci s benchmarkovým skóre Llamy 4

Meta’s VP Genai popírá manipulaci s benchmarkovým skóre Llamy 4

4
0

Fotografie souboru: Meta viceprezident Genai zveřejnil prohlášení o X, které odmítlo, že společnost manipulovala s modely AI, aby fungovala lépe na určitých benchmarcích a zároveň skrývala jejich omezení. | Foto kredit: Reuters

Metaův viceprezident Genai, Ahmad al-Dahle, zveřejnil prohlášení o X, kterým se zamítá obvinění, že společnost manipulovala s modely AI, aby se lépe fungovaly na určitých benchmarcích a zároveň skrývala jejich omezení. Rovněž se zabýval stížnostmi, že modely Llama 4 nenabízely vysoce kvalitní výkon, který byl slíben.

„Už slyšíme spoustu skvělých výsledků, které lidé dostávají s těmito modely.

Dodal, že Meta stále pracuje na opravě chyb a že jakýkoli pokles kvality, kterou uživatelé viděli, bylo něco, na co by museli počkat.

„Slyšeli jsme také tvrzení, že jsme trénovali na testovacích sadách – to prostě není pravda a nikdy bychom to neudělali,“ uvedl.

Testovací sady jsou obecně data, která se používají k měření výkonu modelu AI po tréninku. Trénink na testovací sadě by naznačoval, že benchmarkové skóre modelu bylo možná zlepšeno, takže se nepravdivě zdá být lépe, než ve skutečnosti je.

Pověsti začaly poté, co se virový příspěvek online objevil napsaný bývalým zaměstnancem, který tvrdil, že meta přestali kvůli šedým benchmarkingovým postupům společnosti.

Virový příspěvek nebyl ověřen, ale vyvolal otázky a obavy mezi uživateli meta AI.

Během vydání společnost tvrdila, že Maverick, jejich nový střední model AI střední velikosti, byl schopnější než OpenAI GPT-4o a těsně pod Google Gemini 2.5 Pro, který v současné době vrcholí žebříčku. Od soboty však, když testeři začali používat model, neodpovídal výkonu, které Meta tvrdí.

Vědci AI nakonec zjistili, že ve své výzkumné práci Meta poznamenal, že verze Mavericku, která byla k dispozici veřejnosti, byla odlišná od té, která byla předložena do žebříčku Performance, Lmarena. Meta označila tuto verzi za „experimentální verzi chatu“ Mavericka, která byla „optimalizována pro konverzacitu“.

Mluvčí meta to později potvrdil a řekl, že modelová verze odeslaná Lmareně byla ve skutečnosti „Llama-4-Maverick-03-26-Experimentální“.

Zdrojový odkaz