Oppaat: Tekoäly ja tiedonhaku: Tekoäly ja tiedonhaku

Tekoälyn hyödyntäminen tiedonhaussa

Huomaathan, että tämä ei ole Xamkin virallinen tekoälyohjeistus vaan yleisohjeita tekoälyn käyttöön liittyen tiedonhankintaan.

Tällä sivulla käsitellään tekoälyä korkeakouluopinnoissa. Sisällön painopisteenä on tekoälyn hyödyntäminen tiedonhaussa, mutta nostamme esille myös tekoälyn herättämiä eettisisiä kysymyksiä. Tekoäly ja sen sovellukset kehittyvät nopeasti, ja samalla tavalla tämä opas on koko ajan työn alla. Käy tarkistamassa päivitykset ja seuraa alan kehitystä.

Tekoäly on laaja käsite, joka tarkoittaa tietokonejärjestelmien kykyä suorittaa tehtäviä ja prosesseja, jotka normaalisti vaativat ihmisen älykkyyttä. Tällaisia tehtäviä voivat olla esimerkiksi kuvantunnistus, puheentunnistus, ongelmanratkaisu ja päätöksenteko. Tekoälyä hyödynnetään arjessamme jo monessa: erilaisten sovellusten antamissa suosittelulistoissa, kielenkääntämisessä, mainonnan kohdentamisessa ja asuntojen hintojen ennustamisessa jne.

Perinteinen tiedonhaku tietokannoissa perustuu hakutermeihin ja loogisiin operaattoreihin (esim. AND, OR, NOT). Hakija hallitsee prosessia: hän määrittää hakusanat, rajaukset ja valitsee lähteet itse. Tulokset ovat dokumentteja tai viitteitä, jotka perustuvat ennalta indeksoituun sisältöön, ja käyttäjä voi tarkistaa alkuperäisen lähteen. Kirjaston Tiedonhankinnan oppaasta voi lukea aiheesta lisää.

Generatiiviseen tekoälyn kohdalla ei oikeastaan voida puhua tiedonhausta. Tekoäly ei hae tietoa suoraan lähteistä, vaan muodostaa vastaukset koulutusdatansa ja mallin sisäisten rakenteiden perusteella. Tekoälyn kielimalli muotoilee vastaukset generoimalla tekstiä eli ennustamalla todennäköisyyksiin perustuen seuraavia sanoja hyödyntäen sille opetettua dataa. Kielimallit ovat tässä niin hyviä, että vastaus voi kuulostaa täysin uskottavalta, vaikkei perustu mihinkään. Tällöin puhutaan hallusinoinnista eli tekoälyn tuottamasta virheellisestä tai harhaanjohtavasta tiedosta. ”Tiedonhaku” on tässä enemmän keskustelua kuin hakua: käyttäjä antaa kehotteen (promptin), ja malli tulkitsee kehotteen ja vastaa siihen kontekstin mukaan. Puhtaasti generoivia tekoälypalveluja ovat mm. Claude sekä ChatGPT ja Gemini, silloin kun niitä käytetään ilman verkkohakua.

Jos tekoälypalvelu käyttää hakuperustaista generointia (engl. Retrieval-Augmented Generation, RAG), se yhdistää perinteisen tiedonhaun ja generatiivisen tekoälyn. Ensin palvelu etsii tietoa ulkoisista lähteistä, kuten verkkosivuilta, tietokannoista tai dokumenteista, perinteisellä haulla. Tämän jälkeen palvelu antaa parhaat hakutulokset kielimallille, joka muodostaa niiden perusteella vastauksen. Näin vastaukset perustuvat muualta haettuun tietoon, jolloin ne voivat olla ajankohtaisempia, tarkempia, ja lähteet ovat yleensä tiedossa. On kuitenkin hyvä huomioida, että myös hakuperustaista generointia käyttävä palvelu voi hallusinoida. Se voi käyttää lähteestä poimimaansa tietoa virheellisesti ja muotoilla siitä vastauksen, joka ei enää vastaa alkuperäistä sisältöä tai asiayhteyttä. Hakuperustaista generointia internetistä käyttävät mm. sellaiset palvelut kuten Copilot, Perplixity AI ja ChatGPT sekä Gemini, kun niissä on hakuominaisuus päällä. Scopus AI taas hakee tietoa Scopuksen kuratoidusta tieteellisestä viitetietokannasta.

Keskeisiä käsitteitä

Tekoäly - Tekoälyllä tarkoitetaan koneen kykyä käyttää perinteisesti ihmisen älyyn liitettyjä taitoja, kuten päättelyä, oppimista, suunnittelemista tai luomista.
Koneoppiminen - Koneoppiminen on tekoälyn osa-alue, jonka juuret ovat tilastotieteessä. Koneoppimismenetelmät oppivat annetun datan pohjalta ilman erillistä sääntöjen ohjelmointia. Ne parantavat suorituskykyään tietyssä tehtävässä sitä mukaa kuin lisää kokemusta tai dataa kertyy.
Suuret kielimallit - Suuri kielimalli (”large language model”, LLM) tarkoittaa sanojen ja sanajonojen esiintymisen todennäköisyyksille perustuvaa mallia. Ne ennustavat annetulle tekstisyötteelle jatkoa tai tuottavat pyydetyn mukaista tekstiä. Eri palvelut käyttävät taustalla eri kielimalleja, ja monessa palvelussa pystyy myös itse valitsemaan mitä kielimallia käyttää
Generatiivinen tekoäly - Generatiivinen tekoäly yhdistää koneoppimisen, syväoppimisen ja kielimallit. Se pystyy luomaan vastauksena sille annettuun pyyntöön sisältöä, esimerkiksi tekstiä, videoita, ääntä, koodia tai kuvia. Generatiivista tekoälymallia koulutetaan datan ja palautteen avulla ja tämän perusteella se pystyy luomaan yhä uusia innovatiivisia tuotoksia.
Hakuperustainen generointi - (engl. retreival-augmented generation, RAG) tarkoittaa sitä, että palvelu tekee ensin perinteisen haun jostakin aineistosta (usein internetistä) ja sen jälkeen muodostaa parhaiden hakutulosten pohjalta vastauksen esitettyyn kysymykseen kielimallin avulla.