Detecting digital dependence: Inferring public-sector hosting arrangements from Internet infrastructural records

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorLehdonvirta, Vili
dc.contributor.advisorKässi, Otto
dc.contributor.authorKilpi, Jaakko
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorLehdonvirta, Vili
dc.date.accessioned2025-12-17T18:10:55Z
dc.date.available2025-12-17T18:10:55Z
dc.date.issued2025-10-05
dc.description.abstractGovernments increasingly rely on digital infrastructures provided by companies, raising concerns about digital sovereignty and dependence on a small set of global cloud providers. This thesis asks whether the hosting providers of public-sector digital services can be inferred from publicly observable infrastructural records, and what forms of reliance such analysis reveals. A dataset of verified hosting arrangements was assembled through Freedom of Information (FOI) requests in the United Kingdom, Finland, and the Philippines, supplemented by confirmed cases of Chinese hyperscaler use. These disclosures provided a rare form of ground truth against which predictive models could be evaluated. Observable records, such as DNS records, were collected for each domain and transformed into categorical features. Whereas previous studies often relied on single-record heuristics to attribute hosting, this thesis evaluates predictive models trained with stratified cross-validation under different provider groupings. The findings show clear patterns of reliance. The UK and Finland relied heavily on Amazon Web Services and Microsoft Azure, while the Philippines retained significant self-hosting. No FOI responses indicated use of Chinese hyperscalers. Predictive models reproduced provider classifications with substantially higher accuracy than trivial baselines. Feature importance analysis further showed that accurate predictions did not hinge on a single record but instead drew on a combination of technical records across record types. The study demonstrates that public-sector hosting providers can be inferred from infrastructural records with reasonable reliability, though only under conditions of validated training data and carefully structured categories. Prediction cannot substitute institutional transparency, but it can complement it by offering systematic and scalable visibility into otherwise opaque dependencies.en
dc.description.abstractHallinnot tukeutuvat enenevissä määrin yritysten tarjoamiin digitaalisiin infrastruktuureihin, mikä herättää huolia digitaalisesta suvereniteetista ja riippuvaisuudesta pieneen joukkoon globaaleja pilvipalveluntarjoajia. Tämä diplomityö tutkii, voidaanko julkisen sektorin digitaalisten palveluiden isännöintipalveluntarjoajat ennustaa julkisesti havaittavien infrastruktuuritietojen avulla ja millaisia riippuvaisuuden kaavoja analyysi voi paljastaa. Aineisto varmistetuista isännöintijärjestelyistä koottiin tietopyyntöjen avulla Isossa-Britanniassa, Suomessa ja Filippiineillä. Sitä täydennettiin vahvistetuilla tapauksilla kiinalaisten hyperskaalareiden käytöstä. Nämä tiedot tarjosivat harvinaisen pohjatotuusaineiston, jota vasten ennustemalleja voitiin arvioida. Havaittavia tietueita kerättiin jokaisesta verkkotunnuksesta ja muunnettiin ennustemallien hyödyntämiksi kategorisiksi piirteiksi. Aiemmat tutkimukset ovat usein nojautuneet yksittäisiin tietueisiin palveluntarjoajan määrittämisessä, mutta tässä työssä arvioitiin stratifioidulla ristiinvalidoinnilla koulutettuja ennustemalleja eri palveluntarjoajaryhmittelyillä. Tulokset osoittavat selkeitä riippuvuuden kaavoja. Iso-Britannia ja Suomi olivat vahvasti keskittyneet Amazon Web Servicesiin ja Microsoft Azureen, kun taas Filippiineillä itse ylläpidetyt järjestelyt säilyivät merkittävinä. Yksikään tietopyyntövastaus ei osoittanut kiinalaisten hyperskaalareiden käyttöä. Ennustemallit kykenivät toistamaan palveluntarjoajaluokitukset huomattavasti korkeammalla tarkkuudella kuin triviaalit vertailumallit. Piirreanalyysi osoitti, että tarkkuus ei perustunut yksittäisiin tietueisiin, vaan useiden erilaisten teknisten tietueiden yhdistelmiin. Tutkimus osoittaa, että julkisen sektorin isännöintipalveluntarjoajia voidaan päätellä infrastruktuuritietojen perusteella kohtuullisella luotettavuudella, mutta vain valikoidun opetusdatan ja huolellisesti jäsenneltyjen kategorioiden olosuhteissa. Ennustaminen ei voi korvata institutionaalista läpinäkyvyyttä, mutta se voi täydentää sitä tarjoamalla systemaattisen ja skaalautuvan näkyvyyden muuten läpinäkymättömiin ilmiöihin.fi
dc.format.extent79
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/141317
dc.identifier.urnURN:NBN:fi:aalto-202512179426
dc.language.isoenen
dc.programmeMaster's Programme in Computer, Communication and Information Sciencesen
dc.programmeMaster's Programme in Computer, Communication and Information Sciencesfi
dc.programmeMaster's Programme in Computer, Communication and Information Sciencessv
dc.programme.majorHuman-Computer Interactionen
dc.subject.keyworddigital sovereigntyen
dc.subject.keywordinterdependenceen
dc.subject.keywordInternet measurementen
dc.subject.keywordmachine learningen
dc.subject.keywordpredictive modellingen
dc.subject.keywordcloud infrastructureen
dc.titleDetecting digital dependence: Inferring public-sector hosting arrangements from Internet infrastructural recordsen
dc.titleDigitaalisen kytköksisyyden havaitseminenfi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Kilpi_Jaakko_2025.pdf
Size:
1002.82 KB
Format:
Adobe Portable Document Format