Automatic speaking assessment of spontaneous finnish

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

59

Series

Abstract

Automatic speaking assessment systems attempt to evaluate the proficiency levels of language learners. Spontaneous speech and dialogues provide valuable information about language proficiency, but remain challenging for automatic speaking assessment. This thesis explores how hidden representations from end-to-end speech recognition models can be used for automatic assessment of spontaneous Finnish monologues and dialogues. Experiments compare features extracted from three different speech recognition models and evaluate their performance under categorical and ordinal classification. Models used for feature extraction include a Finnish-only Wav2vec 2.0 model, a multilingual Whisper model and an English-only Wav2vec 2.0 model. Across all experiments, features generated with the Finnish-only Wav2vec 2.0 and Whisper models produce stable and moderately reliable predictions of proficiency levels. When an English-only model is used for feature generation performance drops, but the deterioration is limited. This suggests that most of the predictive information encoded in the ASR features is language-agnostic. Furthermore, combining both Finnish-only Wav2vec 2.0 features and Whisper features does not yield significant improvements in performance. This indicates that the features extracted from the two speech recognition models encode overlapping information. The results raise questions about the robustness and fairness of relying solely on hidden speech recognition features for automatic speaking assessment. Such systems may depend too much on surface-level indicators of proficiency and fail to capture key aspects of Finnish proficiency. The results also highlight the need to incorporate language-modeling components into automatic speaking assessment. Despite limitations, the thesis establishes a baseline for Finnish dialogue-based automatic speaking assessment and contributes to the research of reliable automatic speaking assessment of Finnish.

Automaattisilla puheenarviointijärjestelmillä pyritään arvioimaan vieraan kielen puhujien taitotasoa. Spontaani puhe ja dialogit tarjoavat arvokasta tietoa puhujien kielitaidosta, mutta ovat edelleen haastavia automaattisen puheenarvioinnin näkökulmasta. Tässä diplomityössä tutkitaan, miten neuroverkkoihin pohjautuvien puheentunnistusmallien oppimia piirteitä voidaan hyödyntää spontaanien suomenkielisten monologien ja dialogien automaattisessa arvioinnissa. Työn kokeissa verrataan kolmella eri puheentunnistusmallilla tuotettuja piirteitä ja arvioidaan luokittelijoiden suorituskykyä sekä ordinaalisen että kategorisen luokittelun yhteydessä. Piirteiden tuottamiseen hyödynnetään suomenkielistä Wav2vec 2.0 -mallia, monikielistä Whisper-mallia ja englanninkielistä Wav2vec 2.0 -mallia. Kokeet osoittavat, että suomenkielisellä Wav2vec 2.0 -mallilla ja monikielisellä Whisper-mallilla tuotetut piirteet mahdollistavat tasaisen ja kohtuullisen suorituskyvyn eri testiasetelmissa. Kun englanninkielistä Wav2vec 2.0 -mallia käytetään piirteiden tuottamiseen, luokittelijoiden suorituskyky heikkenee, mutta vain rajallisesti. Tämä viittaa siihen, että suurin osa piirteiden ennustuksellisesta arvosta perustuu kielestä riippumattomiin tekijöihin. Lisäksi kun luokittelijalla on pääsy sekä suomenkielisen Wav2vec 2.0 -mallin että Whisper-mallin tuottamiin piirteisiin, suorituskyky ei parane. Tämä viittaa siihen, että näiden mallien tuottamat piirteet sisältävät pitkälti samanlaista informaatiota. Tulokset herättävät kysymyksiä pelkkiin puhetunnistusmallien tuottamiin piirteisiin nojaavien puheen automaattisten arviointimallien luotettavuudesta ja reiluudesta. Tällaiset järjestelmät voivat nojautua liikaa kielitaidon pintatason ilmentymiin ja jättää huomiotta tärkeitä suomen kielitaidon osa-alueita. Tulokset korostavat myös tarvetta sisällyttää kielimallinnukseen perustuvia menetelmiä puheen automaattiseen arviointiin. Rajoituksista huolimatta diplomityö esittää alustavan lähestymistavan suomenkielisen dialogipohjaisen puheen automaattiseen arviointiin ja tuottaa uutta tietoa luotettavan suomenkielisen puheen automaattisen arvioinnin tutkimukseen.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Getman, Yaroslav

Other note

Citation