Training AI agents to navigate web interfaces through visual input

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

55

Series

Abstract

Modern multimodal large language models (LLMs) exhibit strong object detection and visual grounding capabilities, enabling vision-based agents capable of perceiving, reasoning, and acting on real web interfaces. However, even small perception errors can compound across steps and interfere with multi-step execution. In this thesis, we explore the training of vision-language models as web agents capable of visually grounded interaction within web interfaces. Using Qwen2.5-VL-32B, we perform prompt distillation from a teacher equipped with a hint to an identical student. This transfers reasoning traces and interaction strategies directly into the student model's weights. We train three different models with three distinct training setups, each cast as a visual question-answering task. We then evaluate the resulting models on agentic single-click web tasks to assess how task-specific fine-tuning transfers to realistic web interactions. Behavioral analysis reveals that both tuned and baseline agents exhibit a bias toward their initial action and text tokens, under-utilizing visual feedback from the environment. Nevertheless, all fine-tuned agents outperform the baseline model in our evaluation, demonstrating that successful task-specific fine-tuning transfers to agentic settings and confirming prompt distillation as a viable approach for improving vision-based agents.

Modernit multimodaaliset suuret kielimallit kykenevät tarkkaan kuvatunnistukseen ja visuaalisen kohdentamisen, mikä luo hyvät edellytykset verkkokäyttöliittymissä toimiville näköpohjaisille tekoälyagenteille. Kuitenkin pienetkin virheet havainnoinnissa kasaantuvat tekoälyagentin suorittaessa monivaiheisia tehtäviä, tehden tekoälyagenteista epäluotettavia. Tässä diplomityössä tarkastellaan multimodaalisten suurten kielimallien kouluttamista luotettaviksi verkkokäyttöliittymässä toimiviksi tekoälyagenteiksi. Vertailu- ja lähtömallina käytetty Qwen2.5-VL-32B koulutetaan käyttämällä prompt distillation -koulutusmenetelmää. Prompt distillation -koulutusmenetelmässä vihjeen saaneen opettajamallin päättelyketju ja toimintastrategia siirretään identtiselle opiskelijamallille siten, että informaatio siirtyy suoraan opiskelijamallin painokertoimiin. Työssä koulutetaan kolme mallia eriävillä päämäärillä, joista jokaisen koulutus toteutetaan kysymys-vastaus pareilla. Arvioidaksemme miten kysymys-vastaus-pareilla koulutetut agentit pystyvät soveltamaan oppimaansa realistisessa verkkoselaimessa, jokainen malli evaluoidaan selaintehtävissä, joissa oikeaan tulokseen vaaditaan yksi hiiren liike ja napautus. Tulosten käytöksellinen analysointi paljastaa, etteivät edes koulutetut mallit kykene erottamaan tai korjaamaan alkuperäisiä virheellisiä liikkeitään ja pysyvät näin ollen harhaisina alkuperäisillle liikkeilleensä. Tästä huolimatta kaikki koulutetut mallit suoriutuvat lähtömallia paremmin verkkoselaintehtävistä. Tulokset vahvistavat prompt distillation -koulutusmenetelmän potentiaalin näköpohjaisten kielimallien koulutuksessa.

Description

Supervisor

Kannala, Juho

Thesis advisor

Ilin, Alexander

Other note

Citation