Recently, large language models (LLMs) have shown remarkable natural language processing capabilities across many domains. One such domain is biomedicine, where the models’ emerging abilities have raised questions about whether they could compensate for biomedical knowledge graphs (BKGs) in tasks such as question answering. However, because LLMs are prone to generating false or nonsensical information (known as hallucinations), it is important to assess how accurately these models reproduce structured graph content.
This thesis adopts a quantitative approach to evaluate current LLMs with a curated BKG, OpenBioLink. Connected entities (nodes) and their relations (edges) are sampled from the graph. These samples are then reformulated into multiple-choice questions (MCQs), in which models must identify a correct node based on its connection to another node. LLMs are evaluated using three datasets derived from OpenBioLink. Each dataset contains 2,040 MCQs and three, six, or nine distractors.
The results show that GPT-5, the best-performing model, answers 90% of the questions correctly in the three-distractor dataset. Accuracy gradually declines across all models as the number of distractors increases. Questions about gene expression consistently produce the most failures for the models. In general, biomedical sources whose nodes have a greater number of outgoing edges of the same type are more error-prone than ontological sources with lower connectivity. Connected nodes with lower confidence scores also yield higher failure rates.
Two performance enhancement strategies are also explored. First, using weighted majority voting across models increases accuracy by 1.1–2.3% over GPT-5. Even greater improvements are achieved by selecting 10–20% of the most confident model responses. This yields nearly 100% (99.6%) accuracy for GPT-4o in both the six- and nine-distractor settings.
Together, these findings indicate LLMs cannot yet reliably replace BKGs when precise recall and reasoning over complex or uncertain biomedical associations are required. However, LLMs show promise as complementary tools to BKGs. This is particularly due to their high accuracy in hierarchical ontology-based relations and to their systematic improvements through performance enhancement strategies.Suuret kielimallit ovat viime aikoina osoittaneet huomattavia luonnollisen kielen käsittelyn kykyjä monilla eri aloilla. Yksi tällainen ala on biolääketiede, jossa mallien esiin tulleet kyvyt ovat herättäneet mielenkiinnon siihen, voisivatko kielimallit kompensoida biolääketieteellisiä tietograafeja tehtävissä, kuten kysymyksiin vastaamisessa. Suuret kielimallit ovat kuitenkin taipuvaisia tuottamaan valheellista tai järjenvastaista tietoa (tunnetaan nimellä hallusinaatiot), ja siksi on olennaista selvittää, kuinka täsmällisesti mallit pystyvät toisintamaan graafin rakenteellista sisältöä.
Tämä diplomityö omaksuu määrällisen menettelytavan, jossa nykyisiä suuria kielimalleja arvioidaan OpenBioLink-nimisellä biolääketieteellisellä tietograafilla. Graafista otetaan otos yhdistettyjä entiteettejä (solmuja) ja niiden välisiä suhteita (kaaria), jotka muotoillaan monivalintakysymyksiksi. Näissä kysymyksissä kielimallin on tunnistettava oikea solmu sen yhteyden perusteella toiseen solmuun. Kielimallit arvioidaan kolmella aineistolla, jotka on luotu OpenBioLink-graafin pohjalta. Jokaisessa aineistossa on 2040 monivalintakysymystä ja kolme, kuusi tai yhdeksän väärää vaihtoehtoa.
Tulokset osoittavat, että parhaiten suoriutuva malli, GPT-5, vastaa 90 prosenttiin kysymyksistä oikein kolmen väärän vaihtoehdon aineistossa. Oikein vastattujen kysymysten osuus pienenee asteittain kaikkien kielimallien kohdalla, kun väärien vaihtoehtojen määrä kasvaa. Geenien ilmentymistä koskevat kysymykset tuottavat johdonmukaisesti eniten virheitä malleille. Biolääketieteelliset lähteet, joiden solmuilla on enemmän samantyyppisiä lähteviä kaaria, ovat yleisesti ottaen virhealttiimpia kuin ontologiset lähteet, joilla on alhaisempi yhdistyneisyys. Yhdistetyt solmut, joilla on alhaisemmat luottamuspisteet, tuottavat myös enemmän virheitä.
Työssä tutkitaan myös kahta suorituskykyä parantavaa strategiaa. Käyttämällä painotettua enemmistöpäätöstä mallien välillä oikeiden vastausten osuus kasvaa 1,1–2,3 % GPT-5-kielimalliin verrattuna. Vielä merkittävämpiä parannuksia saavutetaan valitsemalla 10–20 % varmimmista mallien vastauksista. Tämä johtaa lähes 100 %:n (99,6 %) oikeiden vastausten osuuteen GPT-4o-kielimallin kohdalla sekä kuuden että yhdeksän väärän vaihtoehdon aineistoissa.
Nämä havainnot yhdessä osoittavat, että suuret kielimallit eivät vielä pysty luotettavasti korvaamaan biolääketieteellisiä tietograafeja, kun tarvitaan täsmällistä muistamista ja päättelyä monimutkaisten tai epävarmojen biolääketieteellisten assosiaatioiden kohdalla. Kielimallit ovat kuitenkin lupaavia täydentäviä työkaluja biolääketieteellisille tietograafeille. Tämä johtuu erityisesti mallien täsmällisyydestä ontologisissa suhteissa ja suorituskykyä parantavien strategioiden avulla saavutettavista systemaattisista parannuksista.