Bayesian ordinary differential equation and Gaussian process modeling of biomedical data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2026-01-23
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Major/Subject
Mcode
Degree programme
Language
en
Pages
78 + app. 122
Series
Aalto University publication series Doctoral Theses, 25/2026
Abstract
Probabilistic models of biomedical data account for uncertainty and variability in biomedical systems by describing the data and unknown quantities through probability distributions. Probability-based models are particularly valuable in biomedical contexts, where data are often noisy, incomplete, or heterogeneous, and where capturing uncertainty is critical for decisionmaking. This thesis focuses on complex probabilistic models, particularly those involving Gaussian processes (GPs) and ordinary differential equations (ODEs). The aim is to develop interpretable and practical models for biomedical data and address computational challenges that arise from both the complexity of the models and the large scale of the data involved. The first line of research advances inference techniques for Bayesian ODE models. Such models are useful for example for modeling intracellular regulation mechanisms, distribution of a drug in the body, or spreading of infectious diseases. However, simulating the time evolution of such models typically requires computationally intensive numerical solvers, which provide only approximate solutions and require that the functional form defining the ODE system is known. In practice, however, the kinetic parameters—and often the structure—of the system are unknown and must be inferred from data, introducing significant computational complexity. While the numerical approximation errors of ODE solvers have been extensively studied in classical numerical analysis, their impact on probabilistic inference has received less attention. This thesis proposes a computationally efficient workflow for obtaining reliable Markov chain Monte Carlo (MCMC)–based Bayesian inference results for nonlinear ODE models. It highlights and analyses the limitations of common adaptive ODE solvers in probabilistic contexts and introduces a scalable method for probabilistic network inference under structural uncertainty of the system. The second line of research focuses on interpretable, nonparametric modeling of longitudinal data using additive GPs. Such data typically involve a mix of relevant and irrelevant continuous and categorical predictor variables. In this thesis, flexible yet explainable models of longitudinal data are constructed using additive Gaussian processes. The thesis proposes novel modifications to the GP covariance functions to enhance the interpretability of model components. To accommodate large datasets, it is shown how to apply a reduced rank approximation scheme for GPs whose covariance depends on both categorical and continuous predictor variables. To increase model parsimony and interpretability, model reduction techniques are developed, adapted and evaluated for their performance in identifying relevant predictors and retaining predictive power while simplifying the model.While the core contributions are methodological, the developed techniques are applied to realworld biomedical problems, including the inference of gene regulatory networks involved in cell differentiation and the modeling of biomarkers associated with the development of type 1 diabetesBiolääketieteellisten aineistojen todennäköisyyspohjaiset mallit ottavat huomioon epävarmuuden ja vaihtelun biologisissa järjestelmissä kuvaamalla havaittua aineistoa ja tuntemattomia suureita todennäköisyysjakaumien avulla. Tällaiset mallit ovat erityisen arvokkaita biolääketieteellisissä sovelluksissa, joissa aineisto on usein kohinaista, epätäydellistä tai heterogeenistä, ja epävarmuuden huomioon ottaminen on keskeistä päätöksenteossa. Tämä väitöskirja keskittyy monimutkaisiin todennäköisyyspohjaisiin malleihin, erityisesti sellaisiin, jotka hyödyntävät Gaussin prosesseja (GP) ja tavallisia differentiaaliyhtälöitä (ODE). Tavoitteena on kehittää selittäviä ja käytännöllisiä malleja biolääketieteellisille aineistoille sekä käsitellä laskennallisia haasteita, joita aiheutuu mallien monimutkaisuudesta ja suurista aineistomääristä. Ensimmäinen tutkimuslinja keskittyy bayesläisten ODE-mallien päättelymenetelmien kehittämiseen. Tällaisia malleja voidaan hyödyntää esimerkiksi solunsisäisten säätelymekanismien, lääkeaineen jakautumisen tai tartuntatautien leviämisen mallintamisessa. Näiden mallien ajallisen kehityksen simulointi vaatii kuitenkin yleensä laskennallisesti raskaita numeerisia ratkaisimia, jotka antavat vain likimääräisiä ratkaisuja ja edellyttävät, että ODEjärjestelmän määrittelevä funktionaalinen muoto on tunnettu. Käytännössä kuitenkin sekä kinetiikan parametrit että usein myös koko järjestelmän rakenne ovat tuntemattomia ja ne on pääteltävä havaintoaineistosta, mikä tekee päättelystä huomattavan monimutkaista. Vaikka ODEratkaisinten numeerisia virheitä on laajasti tutkittu klassisessa numeerisessa analyysissä, niiden vaikutusta todennäköisyyspohjaiseen päättelyyn on käsitelty vähän. Tässä väitöskirjassa esitetään laskennallisesti tehokas työnkulku, jonka avulla voidaan tehdä luotettavaa bayesläistä päättelyä Markovin Monte Carlo (MCMC) -menetelmällä epälineaarisille ODE-malleille. Työssä tunnistetaan ja analysoidaan yleisesti käytettyjen adaptiivisten ODE-ratkaisinten rajoitteita todennäköisyysmallinnuksen kontekstissa, ja esitellään skaalautuva menetelmä verkostopäättelyyn tilanteissa, joissa järjestelmän rakenne on osin tuntematon. Toinen tutkimuslinja keskittyy pitkittäisaineistojen tulkittavaan epäparametriseen mallinnukseen käyttämällä additiivisia Gaussin prosesseja. Tällaisessa aineistossa on tyypillisesti sekä olennaisia että epäolennaisia jatkuvia ja kategorisia selittäviä muuttujia. Väitöskirjassa rakennetaan joustavia mutta tulkittavia malleja pitkittäisaineistoista hyödyntäen additiivisia Gaussin prosesseja. Gaussin prosessien kovarianssifunktioihin tehdään uusia muutoksia, joiden avulla mallikomponenttien tulkittavuutta parannetaan. Suurten aineistojen käsittelemiseksi näytetään, kuinka soveltaa pienemmän asteen approksimaatiota Gaussin prosesseihin, joiden kovarianssi riippuu sekä jatkuvista että kategorisista selittävistä muuttujista. Mallin yksinkertaisuuden ja tulkittavuuden lisäämiseksi kehitetään ja arvioidaan mallinpelkistystekniikoita, jotka auttavat tunnistamaan olennaiset selittäjät säilyttäen mallin ennustetarkkuuden. Vaikka väitöskirjan pääasialliset kontribuutiot ovat menetelmällisiä, kehitettyjä menetelmiä sovelletaan myös käytännön biolääketieteellisiin ongelmiin, kuten geenisäätelyverkkojen päättelyyn solujen erilaistumisessa ja tyypin 1 diabeteksen kehittymiseen liittyvien biomarkkereiden mallintamiseen.Description
Supervising professor
Lähdesmäki, Harri, Prof., Aalto University, Department of Computer Science, FinlandThesis advisor
Lähdesmäki, Harri, Prof., Aalto University, Department of Computer Science, FinlandOther note
Parts
-
[Publication 1]: Juho Timonen, Nikolas Siccha, Ben Bales, Harri Lahdesmaki and Aki Vehtari. An importance sampling approach for reliable and efficient inference in Bayesian ordinary differential equation models. STAT, Volume 12, Issue 1, 18th September 2023.
DOI: 10.1002/sta4.614 View at publisher
-
[Publication 2]: Juho Timonen, Henrik Mannerstrom, Harri Lahdesmaki and Jukka Intosalmi. A probabilistic framework for molecular network structure inference by means of mechanistic modeling. IEEE/ACM Transactions on Computational Biology and Bioinformatics, Volume 16, Issue 6, 10th April 2018.
DOI: 10.1109/TCBB.2018.2825327 View at publisher
-
[Publication 3]: Juho Timonen, Henrik Mannerstrom, Aki Vehtari and Harri Lahdesmaki. lgpr: an interpretable non-parametric method for inferring covariate effects from longitudinal data. Bioinformatics, Volume 37, Issue 13, Pages 1860-1867, 21st January 2021.
Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202108258359DOI: 10.1093/bioinformatics/btab021 View at publisher
- [Publication 4]: Juho Timonen and Harri Lahdesmaki. Scalable mixed-domain Gaussian process modeling and model reduction for longitudinal data. Bayesian Analysis, Advance publication, 2025.