Verkkovihan ehkäisy — miten ja miksi?

Akseli Paukkeri
Social Media Writings
2 min readOct 8, 2019

Propagandaa ja vihapuhetta lienee ollut maailmassa yhtä kauan kuin maapallolla ihmisiä. Se on armotonta, yleistä ja usein hämmentävän tehokasta. Vihapuhe oli yleistä jopa keskiajalla, jolloin ihmisille levitettiin kirjoituksissa valheellista informaatiota koskien eri uskontokuntia tai vähemmistöjä. Jos vihapuheen levittäminen oli tehokasta jo ennen Internetin tuloa, millaista se on nyt? On arvioitu, että vihapuheen laatu on pysynyt samanlaisena yli vuosisatojen. Sen peruspiirteinä ovat, että vieras tai vihollinen on epähygieeninen, eläimellinen, tai väärin käyttäytyvä. Se myös kohdistuu yleensä vähemmistöihin, ja kuten jo 1600-luvulta lähtien, melko usein uskontokunnista juuri muslimeihin. [1]

Jos Internet on tehnyt vihapuheen levittämisestä infernaalisesti helpompaa, on se myös helpommin tutkittavaa ja sen seuraukset paremmin mitattavissa. Tutkimusten mukaan ennen ääriliikkeiden iskuja tai terroritekoja vihapuheen määrä eri medioissa on moninkertaistunut, erityisesti ennen WTC-iskuja Yhdysvalloissa vuonna 2001. Ongelma ei myöskään ole vain kansainvälinen, sillä myös Suomessa Poliisin raportin (2016) mukaan vihapuheen määrä on rajussa kasvussa — yhdeksi osaksi epäillään nuorten aikuisten lisääntynyttä syrjäytymistä. [1] Vihapuheiden ehkäisyllä siis on yhteiskunnallista merkitystä, mutta miten ihmeessä siihen pystytään?

Viime vuosikymmeninä erilaisten algoritmien kehitys on mahdollistanut sosiaalisessa mediassa liikkuvan massiivisen datan tehokkaamman analysoinnin, mitä voi soveltaa esimerkiksi vihapuheen tunnistamiseen. Käytännössä näille koneoppimisalgoritmeille syötetään esimerkiksi tuhansia ennalta määrättyjä Twitterjakoja, jotka on määritelty ennalta joko vihapuheeksi, tai ei. Tällöin algoritmi oppii kaavan tunnistaakseen kirjoituksesta, onko se tarkoitettu vihapuheeksi vai ei, ja esimerkiksi se voidaan poistaa mediasta heti. Koneoppimisalgoritmeilla on kuitenkin havaittu joitain vaikeuksia tunnistaa vihapuhetta, lähinnä äidinkielellisistä syistä. Asian kontekstilla on merkitystä, kuten myös sanajärjestyksellä. Miten algoritmi pystyisi tunnistamaan ironisen tekstin, jos erona vakavaan vihapuheeseen on yksi sana, tai kenties pelkät lainausmerkit? Monet algoritmeista, joita käytettiin Twitterin tutkimisessa [2], eivät osaa käsitellä tilannetta, jossa lauseen merkitys muuttuu esimerkiksi viimeisen sanan myötä. Toisaalta, tarpeeksi monimutkainen koneoppimisalgoritmi osaisi jossain määrin tunnistaa nämäkin sudenkuopat. [3]

Ongelma ei kuitenkaan ole kiinni vain algoritmin suorituksesta. Algoritmin pitää siis opetella valmiiksi luokiteltuja kirjoituksia — mutta kuka ne luokittelee ja millä perusteella? Tällöin algoritmi oppii vain tietyn tekijän näkemyksen vihapuheesta. Entä missä kulkee sananvapauden ja rangaistavan vihapuheen raja? Suomessa ei tällä hetkellä ole edes laillista määritelmää vihapuheelle — ja tarvitaanko sitä edes? On kuitenkin selvää, että vaikka pieni vähemmistö vihapuheista jäisikin tunnistamatta, on varmasti parempi pystyä ehkäisemään edes suurin osa.

Matka kohti tehokkaampia menetelmiä vihapuheiden ehkäisyssä on kesken niin teknologian, lainsäädännön kuin yleisen tietämyksen ja kasvatuksen osalta. Vaikka vihapuhe itsessään onkin vanha keksintö — on sen ilmenemismuodot Internetin kautta moninkertaistuneet.

Lähteet:

  1. Paula Collin. Yle Uutiset (2018). Saatavilla: https://yle.fi/uutiset/3-10429263
  2. P. Burnap & M. Williams (2015). Cyber Hate Speech on Twitter: An Application of Machine Classification and Statistical Modeling for Policy and Decision Making. PSO, Policy and Internet.
  3. https://towardsdatascience.com/sentence-classification-using-bi-lstm-b74151ffa565

--

--