IIT Bombay vyvíjí model AI pro dekódování satelitních obrázků pomocí přirozeného jazyka

Vědci z Indického technologického institutu, Bombay (IIT Bombay), vyvinuli model umělé inteligence (AI), který strojům umožňuje interpretovat satelitní a dronové obrazy pomocí každodenních jazykových výzev, potenciálně transformovat aplikace v reakci na katastrofy, dohled, městské plánování a zemědělství.
Model, nazvaný adaptivní modalita řízený vizuální uzemnění (AMVG), byl navržen týmem vedeným profesorem Biplabem Banerjee z centra studií IIT Bombay v oblasti zdroje.
Spatření kočky v obývacím pokoji může být pro umělou inteligenci snadné, ale dekódování složitých satelitních snímků s vysokým rozlišením založené na pokynech přirozeného jazyka je již dlouho výzvou, řekl Shabnam Choudhury, vedoucí autor a PhD. Výzkumník v IIT Bombay. Cílem AMVG je překlenout tuto mezeru tím, že umožňuje uživatelům nakrmit výzvy jako „Najít všechny poškozené budovy poblíž zaplavené řeky“ a během několika minut dostávat cílené výsledky, dokonce i ze stovek zaplněných obrazů.
Výzkum, publikovaný v Mezinárodní společnosti pro fotogrametrii a dálkový snímání časopisu Photogrammery and Remote Sensing, naznačuje, že AMVG by mohla zrychlit analýzu obrazu, intuitivnější a přístupnější pro agentury a výzkumné pracovníky.
„Obrázky dálkového průzkumu jsou detailně bohaté, ale je velmi náročné na automatické interpretaci. Existující modely bojují s nejednoznačností a kontextovými příkazy,“ vysvětlila paní Choudhury.
AMVG představuje kombinaci inovací – včetně vícestupňového tokenizovaného kodéru a ztráty zarovnání pozornosti (AAL) -, které modelu pomáhají přesněji identifikovat objekty na základě kontextového porozumění. Zejména AAL působí jako „virtuální trenér“ a učí systém zaměřit se na relevantní oblasti obrazu při interpretaci příkazů. „Když člověk čte“ bílý vůz vedle palivové nádrže, „naše oči vědí, kde hledat. AAL učí stroj, aby udělal totéž,“ řekla paní Choudhuryová.
Tým předpokládá širokou škálu aplikací. Při reakci na katastrofu by agentury mohly po povodních nebo zemětřesením rychle najít poškozenou infrastrukturu. Bezpečnostní organizace by mohly identifikovat maskovaná vozidla poblíž citlivých oblastí, zatímco zemědělci mohli sledovat zdraví plodin pouhým požádáním modelu, aby zdůraznil záplaty zažloutlé.
Profesor Banerjee však objasnil, že AMVG dosud nebyl testován ve scénářích katastrof v reálném světě. Mluvit s HinduŘekl: „Provedli jsme několik předběžných studií, ale vzhledem k neexistenci datových souborů pro správu katastrof v reálném světě jsme nemohli provést hodnocení v plném rozsahu. Tvorba takového datového souboru je jedním z našich budoucích plánů.“
Podle týmu AMVG překonává stávající přístupy při detekci poškozených budov, skrytých vozidel nebo vzorů plodin ve složitých terénech, i když komplexnější benchmarková studie stále čeká.
Na otázku, zda by AMVG mohl pomoci vládám a nevládním organizacím během povodně, zemětřesení nebo požárů poskytnutím poznatků v reálném čase, byl profesor Banerjee optimistický: „Určitě. To je jeden z nejsilnějších případů využití, které si představujeme.“
Vědci také zkoumají spolupráci, aby přivedli AMVG do provozního použití. „S ISRO jsme již spolupracovali na některých podobných problémech,“ prozradil profesor Banerjee. „Nové kolo spolupráce s ISRO bude pravděpodobně brzy zahájeno a takové modely jazyka zraku tam budou přísně zváženy.“
AMVG ukázala povzbudivé výsledky napříč snímky ze satelitů, dronů a senzorů založených na letadlech. Další fáze výzkumu zahrnuje nasazení modelu do různých geografických a environmentálních scénářů k vyhodnocení jeho přizpůsobivosti.
Ve pozoruhodném kroku pro pole tým Bombay IIT také otevřel implementaci AMVG na GitHubu. „Open-sourcing je stále neobvyklý v dálkovém průzkumu. Chtěli jsme podpořit průhlednost a urychlit pokrok,“ řekla paní Choudhury.
Zatímco model ukazuje slib, tým uznává omezení. AMVG v současné době závisí na vysoce kvalitních anotovaných datových sadách a vyžaduje optimalizaci pro nasazení v reálném čase. Práce probíhají na verzích a kompozičních uzemňovacích technikách, aby se zlepšila adaptabilita v různých krajinách.
„Naším cílem je vybudovat sjednocený systém porozumění dálkovému průzkumu – ten, který může uzemnit, popisovat, načíst a důvod k jakémukoli obrazu pomocí přirozeného jazyka,“ řekla paní Choudhuryová.
Publikováno – 4. září 2025 14:55



