Koneellinen tekstianalyysi täydentää ihmisen asiantuntemusta - selvitimme, mistä hallitusohjelmaan on kopioitu tekstiä

Laura Isotalo

28.6.2023

Yle News Lab selvitti koneellisesti, mistä hallitusohjelmaan on leikattu ja liimattu sisältöä

Vasta muodostetun Orpon hallituksen ohjelma on tähänastisista hallitusohjelmista pisin: 244 sivua ja yli puoli miljoonaa kirjainta. Seitsemän viikon mittaisten neuvottelujen tuloksena on neljän hallituspuolueen välinen sopimus siitä, mitä asioita hallitus lähtee kautensa aikana edistämään. Orpon hallituksen ohjelmassa on listattu runsaasti erilaisia toimenpiteitä ja lakimuutoksia, jotka tulevat toteutuessaan vaikuttamaan lukuisten ihmisten elämään ja arkeen.

Demokraattisen vastuun kannalta on tärkeää ymmärtää, kuka hallituksessa käyttää valtaa ja miten, ja kenen intressejä edistetään poliittisen retoriikan taustalla. Perinteisesti hallitusohjelmaa kommentoivat valmistumisen jälkeen mm. erilaiset etujärjestöt ja politiikan asiantuntijat. Eräs täydentävä tapa selvittää asiaa on tutkia, kenen sanavalintoja hallitusohjelma toistaa. Tässä jutussa vertailimme hallitusohjelmaa eri lähteisiin ja löysimme suoraan leikattuja ja liimattuja tekstiosuuksia.

Lainauksia etsittiin 28 asiakirjasta

Hallitusneuvotteluihin osallistui neljä puoluetta: kokoomus hallituksen kokoajan roolissa, perussuomalaiset, kristillisdemokraatit sekä RKP. Oletimme, että hallitusneuvotteluissa inspiraatiota todennäköisesti voitaisiin hakea ainakin kyseisten puolueiden eduskuntavaaliohjelmista sekä niiden vastauksista hallitustunnustelukysymyksiin. Lisäksi otimme mukaan keskeisten etujärjestöjen vaaliohjelmia sekä ennen vaaleja paljon puhuttaneen valtiovarainministeriön virkamiespuheenvuoron.

Kaiken kaikkiaan vertailtavia asiakirjoja oli hallitusohjelman lisäksi 28, joista useimmissa oli kymmeniä tai satoja kappaleita tekstiä. Kun tarkoitus oli verrata hallitusohjelman jokaiseen kappaleeseen, liikuttiin määrällisesti niin suurissa tekstimassoissa, että ihmissilmällä systemaattinen vertailu olisi ollut äärimmäisen vaikeaa jollei mahdotonta. Vaikka joku hyvällä muistilla varustettu asiantuntija olisikin pystynyt paikantamaan toisiaan muistuttavia tekstinpätkiä asiakirjojen välillä, ei kaikkia suoria lainauksia olisi pystytty millään varmuudella löytämään.

Etsimme hallitusohjelmaan kopioituja tekstiosuuksia koneellisesti algoritmilla, joka hakee yhteisiä merkkijonoja asiakirjojen kappaleiden väliltä. Tämä menetelmä mahdollistaa suoraan kopioitujen tekstiosuuksien löytämisen riippumatta siitä, kuinka pitkä kopioitu tekstinpätkä on. Merkkijono tarkoittaa peräkkäisiä merkkejä, mukaan lukien kirjaimet ja numerot, mutta myös välimerkit, erikoismerkit jne. Esimerkiksi sekä hallitusohjelmassa että RKP:n vaaliohjelmassa esiintyy merkkijono “, että kieltenopetukseen on varattu riittävästi tuntiresursseja”, jonka pituus on 63 merkkiä (poislukien lainausmerkit, jotka eivät kuulu alkuperäiseen tekstiin).

Mistä suoria lainauksia löytyi ja ei löytynyt

Tekstianalyysin pohjalta pitkiä yhteisiä merkkijonoja löytyi erityisesti elinkeinoelämältä ja RKP:lta. Erityisesti elinkeinoelämän yhteisistä hallitusohjelmatavoitteista on hallitusohjelmaan kopioitu suoraan konkreettisia lakiehdotuksia, kun taas RKP:lta hallitusohjelmaan poimitut tekstiosuudet ovat abstraktimpia poliittisia kannanottoja ja tavoitteita.

Sen sijaan kokoomuksen ja perussuomalaisten asiakirjoista suoria yhteneväisyyksiä ei noussut esiin yhtä paljon. Hieman yllättävää oli se, että perussuomalaisten pisimmät suoraan lainatut tekstiosuudet koskivat luonnonsuojelua ja luonnon monimuotoisuutta.

Se, että suoria tekstilainauksia löytyy, ei ole välttämättä yllättävää. Hallitusneuvotteluissa tekstiä tuotetaan kovan aikapaineen alla, joten voi olla järkevääkin lainata valmiiksi tehtyjä muotoiluja. Varsinkin pitkät suorat lainaukset tai tunnistettavat sanavalinnat kuitenkin kertovat siitä, mistä vaikutteita on otettu. Tekstiosuuksien suoraa kopiointia voidaan myös pitää jossain määrin tietoisena valintana.

Kaikki vaikutteet eivät näy suorina lainauksina

Teksti elää neuvotteluprosessin aikana. Vaikka aloituspohjana olisi ollut esimerkiksi kokoomuksen vaaliohjelma, sitä ei välttämättä voi enää tiukkojen neuvottelujen päätyttyä jäljittää suoria lainauksia etsimällä. On selvää, että myös sellaisia vaikutteita hallitusohjelmassa on, jotka eivät näy suorina lainauksina. Tällaisista vaikutteista selkeitä esimerkkejä ovat esimerkiksi valtiovarainministeriön esittämät ja ministeriön selvityksiin perustuvat toimenpiteet.

Tämä on tärkeä asia tiedostaa, sillä merkkijonoja etsimällä ei kaikkeen päästä käsiksi. Menetelmän huono puoli on se, että yhteinen merkkijono katkeaa hyvin pienten muutosten, kuten kirjoitus- tai pilkkuvirheiden tai yhden erilaisen sanan perusteella. Siksi onkin mahdollista, että hallitusohjelmassa esiintyy vielä löydettyä enemmän lähes suoria lainauksia. Toisaalta merkkijonoihin perustuva menetelmä löytää myös esimerkiksi yhdyssanojen osia.

Suorilla lainauksilla on kuitenkin kiistaton todistusarvo: niiden olemassaolo ei ole lainkaan tulkinnanvaraista. Kun algoritmin ajo päättyy, jokainen voi omin silmin todeta, että koneen löytämä tekstinpätkä esiintyy kummassakin asiakirjassa. Varsinkin pitkät ja omaleimaisia ilmaisuja sisältävät yhteiset merkkijonot osoittavat melko selkeästi, että tekstiä on todennäköisesti kopioitu. Suora lainaus on suora lainaus, eivätkä sen tunnistamiseen vaikuta toimittajan tai asiantuntijan näkemykset.

Kielimalleilla on tietoa myös tekstin merkityksestä

Koska kaikki vaikutteet eivät kuitenkaan ole havaittavissa suorina yhteneväisyyksinä, on kokonaiskuvan kannalta hyödyllistä keskittyä enemmän tekstin merkitykseen kuin sanatarkkoihin muotoiluihin. Esimerkiksi elinkeinoelämän yhteisissä hallitusohjelmatavoitteissa esiintyy teksti “Oleskelulupamenettelylle asetetaan yhden kuukauden enimmäiskäsittelyaika. Vähintään 4 000 euroa kuukaudessa ansaitsevilla aikaa saa kulua enintään yksi viikko.” Orpon hallitusohjelmassa asia ilmaistaan sanoin “Tavoitellaan työperusteisten oleskelulupien käsittelyn kuukauden enimmäisaikaa. Yli 4 000 euroa kuukaudessa ansaitsevien erityisasiantuntijoiden kohdalla tavoitellaan viikon enimmäiskäsittelyaikaa.” Koska luonnollinen kieli mahdollistaa saman asian ilmaisun lukemattomin eri sanankääntein, olisi hyödyllistä, jos pystyisimme luotettavasti tunnistamaan myös sellaiset tilanteet, jolloin asiakirjaa on lainattu sisällössä mutta ei sanoissa. Tämä tehtävä on kuitenkin huomattavasti haasteellisempi.

Yhteisten merkkijonojen etsiminen on vain yksi lukuisista mahdollisista menetelmistä arvioida koneellisesti tekstien samankaltaisuutta. Muita mahdollisia menetelmiä ovat esimerkiksi samojen sanojen esiintymismääriin perustuvat painokertoimet kuten TF-IDF, sekä moderneihin kielimalleihin pohjautuvat tekstivektorit.

Kielimallit ovat usein neuroverkkoihin pohjautuvia matemaattisia funktioita, jotka mallintavat luonnollisen kielen sanojen jakaumaa. Kehittyneimmät kielimallit pystyvät jo vakuuttavasti keskustelemaan ihmisen kanssa, vastaamaan kysymyksiin sekä tunnistamaan erilaisia asioita tekstistä. ChatGPT on yksi esimerkki tunnetusta kaupallisesta kielimallista, mutta esimerkiksi avoimen lähdekoodin yhteisö ja erilaiset tutkimusryhmät ovat julkaisseet lukuisia erilaisia kielimalleja. Niistä jokaisella on omat erityispiirteensä, vahvuutensa ja heikkoutensa.

Kielimallit on yleensä esikoulutettu ennustamaan sanoja syötteenä annetun tekstin perusteella, ja mahdollisesti sen jälkeen hienosäädetty johonkin tehtävään, kuten keskusteluun. Niillä on kuitenkin myös kätevä lisäominaisuus: malli muuntaa syötteenä annetun tekstin vektoriksi, eli sarjaksi numeroita, joiden suuruus pohjautuu mallin oppimiin painokertoimiin. Tässä muodossa tekstien samankaltaisuudelle voidaan laskea numeerinen arvo. Periaatteessa tällaisten vektorien käyttö mahdollistaa tekstien vertailun keskittyen enemmän merkityksen samankaltaisuuteen kuin sanatarkkoihin ilmaisuihin.

Kielimallien käytössä ongelmaksi nousee kuitenkin tulosten luotettavuus ja tulkittavuus. Esimerkiksi OpenAI:n kielimallin vektoreita käytettäessä hallitusohjelman lauseelle “Pääomatuloveroa tai piensijoittajan verotusta ei kiristetä missään omaisuuslajissa” ja elinkeinoelämän yhteisten tavoitteiden lauseelle “Yritysten ja yrittäjien verotusta ei kiristetä” saadaan melko korkea samankaltaisuusarvo, vaikka lauseet koskevat melko lailla eri asioita. Sen sijaan kielimallin antama samankaltaisuus hallitusohjelman lauseelle “Listaamattomien yritysten osinkoverohuojennus ja yrittäjävähennys säilyvät muuttumattomina” ja elinkeinoelämän lauseelle “Yritysten ja yrittäjien verotusta ei kiristetä” on huomattavasti pienempi, vaikka ne koskevat enemmän samaa asiaa. Sen lisäksi, että kielimallin antama tulos ei vaikuta täysin luotettavalta, on mahdotonta saada varma ymmärrys siitä, millä perusteella näiden lauseparien saama samankaltaisuusarvo muodostuu.

Testasimme jutun tekemisen aikana useampaa eri menetelmää, ja näistä yhteisten merkkijonojen etsiminen osoittautui parhaaksi sekä ymmärrettävyydeltään että todistusarvoltaan. Muilla menetelmillä pystytään mahdollisesti kartoittamaan laajemmin merkitykseltään samankaltaisia tekstejä, mutta silloin on huomattavasti tulkinnanvaraisempaa arvioida, onko yksi asiakirja vaikuttanut toiseen. Läpinäkyvyys ja ymmärrettävyys ovat tärkeitä arvoja journalismissa, ja suoraan kopioidun tekstin löytäminen täydentää esimerkiksi asiantuntijoiden esittämiä analyyseja.

Lopuksi

Me Yle News Labissa haluamme jakaa tietoa journalismin tukena käytetyistä koneellisista menetelmistä ja niihin liittyvien päätösten taustoista. Mielestämme luotettava journalistinen tieto perustuu avoimuuteen ja läpinäkyvyyteen, ja on tärkeää että lukijat ymmärtävät, millaisia menetelmiä tiedonhankinnassa käytetään ja miksi. Tämän blogitekstin tarkoitus on osaltaan avata hallitusohjelman tekstianalyysia yleisölle.

Lue juttu: https://yle.fi/a/74-20037843