Modely AI nemohou říct čas ani číst kalendář, odhaluje studie

Nový výzkum odhalil další soubor úkolů, které většina lidí může snadno udělat Umělá inteligence (AI) Kloppívá – čtení analogových hodin nebo vymyslet den, kdy klesne datum.
AI může být schopna psát kód, generovat živé obrázky, vytvářet lidský text znějící a dokonce absolvovat zkoušky (různé stupně úspěchu) Přesto to běžně nesprávně interpretuje polohu rukou na každodenních hodinách a selže v základní aritmetice potřebné pro data kalendáře.
Vědci odhalili tyto neočekávané nedostatky v prezentaci na mezinárodní konferenci 2025 o reprezentacích učení (ICLR). Také zveřejnili svá zjištění 18. března na serveru předtisku arxivJeště tedy nebyli recenzováni.
„Většina lidí může říct čas a používat kalendáře od útlého věku. Naše zjištění zdůrazňují významnou mezeru ve schopnosti AI provádět, jaké jsou docela základní dovednosti pro lidi,“ vedoucí autor studií Rohit SaxenaVýzkumník na University of Edinburgh, řekl v prohlášení. Tyto nedostatky musí být řešeny, pokud mají být systémy AI úspěšně integrovány do časově citlivých aplikací v reálném světě, jako je naplánování, automatizace a pomocné technologie. “
Abychom prozkoumali schopnosti časového měřítka AI, vědci nakrmili vlastní datový soubor hodin a kalendářních obrázků do různých multimodálních modelů velkých jazyků (MLLM), které mohou zpracovávat vizuální i textové informace. Modely použité ve studii zahrnují Meta’s Llama 3.2-Vision, Antropic’s Claude-3,5 sonet, Google Gemini 2.0 a OpenAI’s GPT-4o.
A výsledky byly špatné, přičemž modely nebyly schopny identifikovat správný čas z obrazu hodin nebo dne v týdnu pro ukázkový datum více než polovinu času.
Související: Současné modely AI „slepá ulička“ pro zpravodajství na úrovni člověka, vědci souhlasí
Vědci však mají vysvětlení pro překvapivě špatné schopnosti čtení času AI.
„První systémy byly vyškoleny na základě označených příkladů. Čtení hodin vyžaduje něco jiného – prostorové uvažování,“ řekla Saxena. „Model musí detekovat překrývající se ruce, měřit úhly a navigovat rozmanité vzory, jako jsou římské číslice nebo stylizované číselníky.
Data se ukázala stejně obtížná. Pokud bude mít výzvu, jako je „jaký den bude 153. den v roce?“ Míra selhání byla podobně vysoká: AI systémy čte hodiny správně pouze 38,7% a kalendáře pouze 26,3%.
Tento nedostatek je podobně překvapivý, protože aritmetika je základním základním kamenem výpočtu, ale jak vysvětlil Saxena, AI používá něco jiného. „Aritmetika je triviální pro tradiční počítače, ale nikoli pro modely velkých jazyků. AI nespustí matematické algoritmy, předpovídá výstupy založené na vzorcích, které vidí v tréninkové údaje,“ řekl. Takže i když to může odpovědět na aritmetické otázky správně, jeho odůvodnění není konzistentní nebo založené na pravidlech a naše práce zdůrazňuje tuto mezeru. “
Projekt je nejnovější v rostoucím množství výzkumu, který zdůrazňuje rozdíly mezi způsoby, jak AI „chápe“ versus způsob, jakým lidé dělají. Modely odvozují odpovědi ze známých vzorců a Excel, když v jejich tréninkové údaje je dostatek příkladů, přesto se však nepodaří zobecnit nebo použít abstraktní uvažování.
„Co pro nás je velmi jednoduchý úkol, jako je čtení hodin, může být pro ně velmi těžké a naopak,“ řekla Saxena.
Výzkum také odhaluje problém, který má AI, když je vyškolena s omezenými údaji – v tomto případě poměrně vzácné jevy, jako jsou skokové roky nebo nejasné výpočty kalendáře. Přestože LLM mají spoustu příkladů, které vysvětlují přestupné roky jako koncept, to neznamená, že vytvářejí potřebná spojení potřebná k dokončení vizuálního úkolu.
Výzkum zdůrazňuje jak potřebu cílenějších příkladů v datech školení, tak potřebu přehodnotit, jak AI zpracovává kombinaci logického a prostorového uvažování, zejména v úkolech, s nimiž se často nesetkají.
Především to odhaluje ještě jednu oblast, kde příliš svěřená výstup AI přijde na naše nebezpečí.
„AI je mocná, ale když úkoly smíchají vnímání s přesným uvažováním, stále potřebujeme přísné testování, logiku zachránění a v mnoha případech člověka ve smyčce,“ řekla Saxena.