Yllättävän hankalaa tämä diplomityön vääntäminen. Vaikka sitä on koulun aikana kirjotellut jos jonkinmoista raporttia ja dokumenttia, kuitenkin se dippa tuntuu asteen verran työläämmältä ja haastavammalta.
Aihe on kyllä silti kiinnostava, otsikkona olisi näillä näkymin “Generative model for predicting node attributes in very large networks”, tai jotain sen suuntaista.
Lähtökohtana työlle on se, että nykyään netin ja kännykkäverkkojen ansiosta on valtavia sosiaalisia verkkoja, jotka kertovat, ketkä viestivät kenenkin kanssa. Sosiaalisia verkkoja on tutkittu jo iät ajat, mutta vasta nykyään on riittävästi laskentatehoa, tarpeeksi isoja verkkoja ja hyviä menetelmiä, että näistä datamassoista saadaan pursitettua ulos tietoa, mikä kuvaisi hyvin ihmisten välisiä sosiaalisia suhteita.
Tyypillisiä asioita, mitä verkoista voidaan löytää, ovat esimerkiksi, ketkä ovat keskeisiä toimijoita verkossa esimerkiksi tiedon jakajina tai sen ansiosta, että he yhdistävät verkon osia, jotka eivät muuten olisi yhteydessä toisiinsa. Verkkoon kuuluvia ihmisiä voidaan myös jakaa ryhmiin, siten, että ihmiset, jotka keskustelevat paljon keskenään, kuuluvat samaan ryhmään.
Diplomityöni liittyy juuri ihmisten ryhmittelyyn. Ajatuksena on, että ihmiset, joilla on samanlaisia piirteitä, päätyvät helposti vuorovaikutukseen keskenään. Tämän vuoksi ihmisten välisen vuorovaikutuksen perusteella voisi olla mahdollista selvittää, mitä piirteitä ihmisillä on.
Kokeillaan esimerkillä. Ajatellaan, että tietäisimme joukosta henkilöitä, kuinka hyvin seuraavat väittämät pitävät paikkansa: “Asuu lähellä Helsinkiä”, “Puhuu suomea”, “On mies”, “Urheilee”, “Juo belgiolutta” ja “Kuuntelee country-musiikkia”. Jos vielä tämän lisäksi tiedettäisiin, kuinka hyvin nämä piirteet ennustavat sosiaalisia suhteita ihmisten välillä, voitaisiin arvata, ketkä tästä henkilöjoukosta viestivät keskenään.
Saman voi tehdä myös toisin päin. Jos tiedämme joukon henkilöitä ja heidän välisen viestinnän, voimme yrittää ennustaa, mitkä piirteet ovat saaneet aikaan tämän vuorovaikutuksen.
Voisi kuvitella, että kieli ja maantieteellinen sijainti ovat hyviä selittäjiä: ihmisten on helpointa vuorovaikuttaa toisten kanssa, jotka ovat samassa paikassa ja puhuvat samaa kieltä. Toisaalta myös sukupuoli tai kiinnostuksen kohteet saattavat selittää näitä piirteitä.
Nyt ollaan jo hyvin lähellä (ehkä vähän turhan laajaksi paisuvan) dipan ydintä. Tavoitteena olisi siis toteuttaa jotain seuraavanlaista:
- Kerätään sosiaalinen verkko ja mahdollisimman paljon tietoa verkkoon kuuluvista ihmisistä
- Lasketaan maagisella algoritmilla verkon rakenteen perusteella mahdollisimman hyvin verkon muodon selittävät piirrevektorit
- Verrataan piirrevektoreita tietoon, joka on kerätty verkkoon kuuluvista ihmisistä ja hyvällä onnella voidaan todeta, että löydetyt piirrevektorit vastaavat jotenkin ominaisuuksia, joita tiedettiin ennalta verkkoon kuuluvista ihmisistä
Huh. Tässä on yllättävän (tai vähemmän yllättävän) paljon puuhattavaa. Pitäisi ymmärtää algoritmeja tämän tekemiseen, koodata algoritmit mahdollisimman tehokkaasti ja kerätä verkkodata fiksusti sekä siivota se sellaiseen muotoon, että sitä voidaan analysoida. No, omapahan oli halu olla poikkitieteilijä.
Saaran ja Antin innoittamana lisäsin “Kiviäkin kiinnostaa”-kategorian tätä postausta varten :)