Training AI agents to navigate web interfaces through visual input

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorIlin, Alexander
dc.contributor.authorPärssinen, Henrik
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorKannala, Juho
dc.date.accessioned2025-12-17T18:07:19Z
dc.date.available2025-12-17T18:07:19Z
dc.date.issued2025-11-24
dc.description.abstractModern multimodal large language models (LLMs) exhibit strong object detection and visual grounding capabilities, enabling vision-based agents capable of perceiving, reasoning, and acting on real web interfaces. However, even small perception errors can compound across steps and interfere with multi-step execution. In this thesis, we explore the training of vision-language models as web agents capable of visually grounded interaction within web interfaces. Using Qwen2.5-VL-32B, we perform prompt distillation from a teacher equipped with a hint to an identical student. This transfers reasoning traces and interaction strategies directly into the student model's weights. We train three different models with three distinct training setups, each cast as a visual question-answering task. We then evaluate the resulting models on agentic single-click web tasks to assess how task-specific fine-tuning transfers to realistic web interactions. Behavioral analysis reveals that both tuned and baseline agents exhibit a bias toward their initial action and text tokens, under-utilizing visual feedback from the environment. Nevertheless, all fine-tuned agents outperform the baseline model in our evaluation, demonstrating that successful task-specific fine-tuning transfers to agentic settings and confirming prompt distillation as a viable approach for improving vision-based agents.en
dc.description.abstractModernit multimodaaliset suuret kielimallit kykenevät tarkkaan kuvatunnistukseen ja visuaalisen kohdentamisen, mikä luo hyvät edellytykset verkkokäyttöliittymissä toimiville näköpohjaisille tekoälyagenteille. Kuitenkin pienetkin virheet havainnoinnissa kasaantuvat tekoälyagentin suorittaessa monivaiheisia tehtäviä, tehden tekoälyagenteista epäluotettavia. Tässä diplomityössä tarkastellaan multimodaalisten suurten kielimallien kouluttamista luotettaviksi verkkokäyttöliittymässä toimiviksi tekoälyagenteiksi. Vertailu- ja lähtömallina käytetty Qwen2.5-VL-32B koulutetaan käyttämällä prompt distillation -koulutusmenetelmää. Prompt distillation -koulutusmenetelmässä vihjeen saaneen opettajamallin päättelyketju ja toimintastrategia siirretään identtiselle opiskelijamallille siten, että informaatio siirtyy suoraan opiskelijamallin painokertoimiin. Työssä koulutetaan kolme mallia eriävillä päämäärillä, joista jokaisen koulutus toteutetaan kysymys-vastaus pareilla. Arvioidaksemme miten kysymys-vastaus-pareilla koulutetut agentit pystyvät soveltamaan oppimaansa realistisessa verkkoselaimessa, jokainen malli evaluoidaan selaintehtävissä, joissa oikeaan tulokseen vaaditaan yksi hiiren liike ja napautus. Tulosten käytöksellinen analysointi paljastaa, etteivät edes koulutetut mallit kykene erottamaan tai korjaamaan alkuperäisiä virheellisiä liikkeitään ja pysyvät näin ollen harhaisina alkuperäisillle liikkeilleensä. Tästä huolimatta kaikki koulutetut mallit suoriutuvat lähtömallia paremmin verkkoselaintehtävistä. Tulokset vahvistavat prompt distillation -koulutusmenetelmän potentiaalin näköpohjaisten kielimallien koulutuksessa.fi
dc.format.extent55
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/141295
dc.identifier.urnURN:NBN:fi:aalto-202512179404
dc.language.isoenen
dc.programmeMaster's Programme in Computer, Communication and Information Sciencesen
dc.programmeMaster's Programme in Computer, Communication and Information Sciencesfi
dc.programmeMaster's Programme in Computer, Communication and Information Sciencessv
dc.programme.majorMachine Learning, Data Science and Artificial Intelligenceen
dc.subject.keywordAIen
dc.subject.keywordLLMen
dc.subject.keywordAI agenten
dc.subject.keyworddeep learningen
dc.subject.keywordprompt distillationen
dc.subject.keywordvisual web agenten
dc.titleTraining AI agents to navigate web interfaces through visual inputen
dc.titleTekoälyagenttien kouluttaminen verkkokäyttöliittymien navigointiin visuaalisen syötteen avullafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Pärssinen_Henrik_2025.pdf
Size:
1.45 MB
Format:
Adobe Portable Document Format