Miten kaupalliset kuvantunnistuspalvelut luokittelevat uskontoa?
Tekoälyä hyödyntävät kuvantunnistuspalvelut rakentavat käsityksiä uskonnosta dataistuneessa maailmassa. Tutkimuksessa paljastui, että Amazonin, Googlen ja Microsoftin palveluilla on kuitenkin rasistisia, kristillisiä ja kaupallisia vinoumia.
Kuvantunnistuspalvelut osallistuvat sosiaalisen todellisuuden kuvitteluun ja rakentumiseen. Kuvaukset, joilla yksilöt ja ryhmät palvelujen kautta esitetään, rajaavat representaatioavaruutta, luoden ja kierrättäen hegemonisia diskursseja ja herättäen eettisiä kysymyksiä.
Uskonnontutkimuksen piirissä ei ole aikaisemmin tehty empiiristä tutkimusta siitä, miten kuvantunnistuspalvelut luokittelevat uskonnollisia kuvia ja uskontoa. Lähdimme selvittämään tätä. Keräsimme kuva-aineiston eri uskontokuntien rituaaleja esittävistä valokuvista. Selvitimme niiden avulla, millaisia erityisesti etnisyyteen ja sukupuoleen liittyviä ennakkoluuloja ja vinoumia nämä tekniset kuvien luokittelut sisälsivät. Havaitsimme kuvantunnistuspalveluissa muun muassa sekularistisia, kristillisiä, kaupallisia ja rasistisia ennakkoluuloja ja vinoumia.
Mitä ovat kuvantunnistuspalvelut?
Kuvantunnistuspalvelut ovat teknologiayritysten tarjoamia tekoälyyn ja konenäköön perustuvia sovelluksia, jotka pyrkivät tunnistamaan ja analysoimaan kuvia automaattisesti antamalla kuvailevia tunnisteita ja niihin liittyviä luotettavuustasoja. Luotettavuustaso tarkoittaa ennustetta todennäköisyydestä, jolla järjestelmä uskoo tunnisteiden esiintyvän kuvassa.
Kuvantunnistuspalvelut ovat teknologisia järjestelmiä, inhimillisen kulttuurin tuotteita, joiden sisään on rakennettu monia arvoja ja arvottavia käytäntöjä
Kuvantunnistukseen kuuluvat muun muassa kohteiden, kuten objektien ja eläinten, ja kasvojen tunnistaminen. Kaupallisia kuvantunnistuspalveluja käytetään monilla eri aloilla, kuten sähköisessä kaupankäynnissä, mainonnassa, tietoturvassa, sosiaalisessa mediassa ja terveydenhuollossa. Tärkeimpiä palveluntarjoajia ovat muun muassa Amazon, Google, Microsoft ja IBM. Tutkimukseemme valitsimme Amazon Rekognition, Google Cloud Vision, ja Microsoft Azure Computer Vision kuvantunnistuspalvelut.
Visuaalinen viestintä on nyky-yhteiskunnissamme yhä tärkeämpi merkityksien tuottaja ja välittäjä. Kuvantunnistuspalvelut ovat teknologisia järjestelmiä, inhimillisen kulttuurin tuotteita, joiden sisään on rakennettu monia arvoja ja arvottavia käytäntöjä. Ne ohjaavat esimerkiksi erilaisten kulttuurispesifien identiteettien ja yhteisöjen piirteiden tunnistamista.
Kuvantunnistuspalvelut osana yhteiskuntien datafikaatiota
Käynnissä on vuorovaikutteinen prosessi, jota usein kutsutaan datafikaatioksi. Datafikaatio haastaa yhteiskunnat, perinteiset tiedon tuottamisen ja hallinnan instituutiot sekä vakiintuneet käsitykset todellisuuden luonteesta. Sosiologi Bruno Latouria mukaillen, medioituneessa yhteiskunnassa ei enää ole kyse pelkästään siitä, että yhteiskunnalliset toiminnot, jotka aiemmin hoidettiin muilla tavoin ja muiden instituutioiden alaisuudessa medioituvat. Kyse on myös toimijoiden välisten vuorovaikutussuhteiden ja suhteiden dynamiikan muutoksesta, jossa yhteiskunnallisen todellisuuden eri tasot rakentuvat median ja teknologioiden, kuten kuvantunnistuspalvelujen välityksellä.
Kaupalliset kuvantunnistusjärjestelmät eivät ole vain jokapäiväisiä työ-, tutkimus- ja harrastusvälineitä, vaan ne ovat osa merkityksiä tuottavaa ympäristöä, jossa ruokitaan kollektiivista mielikuvitusta ja luodaan jaettua ymmärrystä todellisuudesta.
Tekoälytutkimuksessa jätetään usein huomiotta se, että näitä palveluja kutsutaan ”tunnistuspalveluiksi”. Monien tutkijoiden mukaan tunnistaminen on edellytys hyväksyvälle tunnustamiselle, joka edistää sosiaalista oikeudenmukaisuutta. Vaikka hyväksyvää tunnustamista tarkastellaan usein ihmistoimijoiden näkökulmasta, on huomioitu, että sitä voivat välittää vaikkapa erilaiset instituutiot tai uusimpana näkökulmana myös teknologiat.
Tutkimusprosessistamme
Tekoälyyn liitetään teknologiasektorin innovaatiohin tähtäävän tuotekehityksen ja insinöörilähtöisen akateemisen tutkimuksen diskursseissa usein suuria toiveita, joista tärkeimpiä on ajatus ihmisyhteisöissä esiintyvien niin kutsuttujen ”vinoumien”, kuten epätasa-arvoisen päätöksenteon, ja rasismin tai seksismin, oikaiseminen. Kriittinen tekoälytutkimus on kuitenkin tuottanut jatkuvasti luotettavaa tietoa siitä, että usein tekoälyjärjestelmät päätyvät toistamaan erilaisia vinoumia. Klassinen esimerkki tästä on 2015 julkiseen keskusteluun noussut tapaus, jossa Googlen kuvantunnistusalgoritmin huomattiin kategorisoivan mustat ihmiset gorilloiksi. Tämän selitettiin johtuvan siitä, että algoritmien koulutusdatassa oli kuvia vain lähinnä valkoisista ihmisistä.
Kokosimme ohjelmointia ja hakusanoja hyväksi käyttäen Googlen kuvahausta 2482 kuvaa, joissa esiintyy uskonnollista sisältöä. Tämän jälkeen kuville tehtiin joitakin tilastollisia analyysejä, kuten luokittelusanojen frekvenssien laskenta, sekä aineiston jakaumien tarkastelu. Lopuksi analysoimme kaikki kuvat ja luokittelusanat laadullisesti käyttäen sisältö- ja diskurssinanalyysiä. Kaikkiaan palvelut antoivat tutkimillemme kuville 9092 luokitusta, mutta vain 85 näistä liittyi uskontoon.
Mustien uskonnollisuus on palvelujen sokea piste
Tutkimamme kuvantunnistuspalvelut eivät tunnista uskontoa kovin hyvin. Maailma näyttäytyi palveluille sekulaarina. Niiltä yksinkertaisesti puuttuu se rikas käsitteellinen avaruus, eli sanasto, jota uskonnon kaltaisen kompleksisen sosiaalisen ilmiön luokittelu vaatisi. Luokittelukyky oli kuitenkin selkeästi parempi kristillisiä ”korkeakirkollisia” tilanteita esittäviä kuvia tunnistaessa. Lisäksi mainitusta 85 uskontoon liittyvästä luokittelusanasta jopa 30 (35 %) oli kristinuskoa kuvaavia.
Palvelut tuottavat mustaihoisia ihmisiä kuvissa kohdatessaan eräänlaista äänettömyyttä, tyhjyyttä ja poissaoloa tunnistamisen sijaan
Palveluilla oli suuria vaikeuksia tunnistaa ihonväriltään muita kuin valkoisia ihmisiä. Esimerkiksi uskonnollisia auktoriteetteja esittävien kuvien osalta palvelut suoriutuvat luokittelussa parhaiten kohdatessaan perinteisissä eurooppalaisissa kirkollisissa konteksteissa otettuja valkoihoisten ihmisten kuvia (esimerkkikuva 2).
Palvelut paitsi tunnistavat väärin kuvia, joissa esiintyy mustia ihmisiä uskonnollisissa yhteyksissä, ne myös yleensä tuottavat näille kuville vähemmän luokittelusanoja ja ovat niiden luotettavuudesta epävarmempia. Tällä tavoin palvelut tuottavat mustaihoisia ihmisiä kuvissa kohdatessaan eräänlaista äänettömyyttä, tyhjyyttä ja poissaoloa tunnistamisen sijaan.
Muun muassa kulttuurintutkija Stuart Hall tunnisti ja kirjoitti tällaisesta “representationaalisesta hiljaisuudesta” jo 90-luvulla. Kuvia luokitellessaan kuvantunnistuspalvelut vahvistavat käsitystä kristinuskosta nimenomaan ”valkoisena” uskontona – sukupuolesta riippumatta.
Google konenäön tunnisteet: Glasses (97%) Microphone (93%) Window (89%) Purple (88%) Gesture (85%) Entertainment (77%) Event (75%) Spokesperson (68%) Performing arts (67%) Audio equipment (67%) | Googlen konenäön tunnisteet: Vestment (86%) Clergy (83%) Metropolitan bishop (82%) Bishop (80%) Presbyter (79%) Priesthood (79%) Necklace (75%) Deacon (74%) Event (73%) Bishop (73%) |
Esimerkkikuva 2: konenäkö ja rotuun liittyvät vinoumat
Mitä seuraavaksi
Tutkimustamme tulee pitää vasta alkusysäyksenä laajemmalle konenäön, kuvantunnistupalveluiden ja uskonnon väliselle monitieteelliselle kriittiselle akateemiselle tutkimukselle. Vaikka on aihetta olettaa, että tutkimuksessamme kuvatut ongelmat johtuvat pääosin käytetystä koulutusdatasta, voidaan silti myös olettaa järjestelmissä olevan monitasoisia ongelmia.
Luokittelut, joita kuvantunnistuspalvelut kuville antavat, ovat kulttuurisia kehystyksiä. Ne tuottavat merkityksiä uskonnosta ja valaisevat tutkijoille ja palvelujen kriittisille käyttäjille myös, millaisia kulttuurisia käsityksiä opetusdatassa ja palvelujen koodin taustalla on. Olennaista olisikin tutkia tekoälyteknologioita ihmisen tuottamina kulttuuri-ilmiöinä. Näin lisätään ymmärrystä siitä, miten teknologioita tuotetaan sosiaalisesti, ja miten niiden käyttö ja soveltamistavat muuttavat merkityksiä.
Menetelmällisesti kuvantunnistus avaa uskonnontutkimukselle kiinnostavia tulevaisuuden näkymiä. Jos kuvantunnistusta yhdistetään generatiivista tekoälyä hyödyntäen tuotettuun synteettiseen kuvamateriaaliin, kuvantunnistus mahdollistaa esimerkiksi järjestelmien vertailun ja näiden tuottamien tunnisteiden diskursiivisen tutkimuksen loukkaamatta ihmisten yksityisyydensuojaa. Laskennalliset menetelmät mahdollistavat lisäksi määrällisesti suurien aineistojen tutkimisen. Menetelmät saattavat paljastaa sekä uudenlaisia ilmiöitä ja yhteyksiä että nostaa esiin ongelmia, joita tekoälyteknologioihin sosiokulttuurisina teknologisina välineinä ja toimijoina sisältyy.