
Viime aikoina aikani on kulunut töissä tuotemarkkinoinnin parissa tutkimuksen sijaan. Lähdin kuitenkin kuuntelemaan Mining and Learning in Graphs (MLG) 2008 -workshopissa verkkotutkimuksen uusia tuulia, sillä saimme paperin läpi workshopiin. Tämä on siis samainen tapahtuma, jossa olin viime vuonna Firenzessä esittelemässä meidän mallia.
Workshopissa oli kiinnostavia esityksiä verkko- ja graafitutkimuksen eri osa-alueilta. Tässä joitakin mieleen tulleita asioita esitysten perusteella.
Erdös, typografia ja satunnaispolut
Aluksi huolestuin Fan Chungin esityksen nähdessäni, sillä kalvojen typografiset ominaisuudet aiheuttivat pientä tuskaa. Pienen Googletuksen jälkeen havaitsin hänen Erdös-numeronsa olevan 1 ja että Erdös oli hänen ja hänen miehensä henkilökohtainen ystävä. Nämä faktat olivat niin katu-uskottavia, että yritin olla huomioimatta typografisia pikkuseikkoja.
Fan Chungin esitteli spektraalimenetelmiä ja sitä, kuinka lopulta pagerank ja klusterointi ovat näiden menetelmien kannalta melko samanlaisia matemaattisilta ja menetelmällisiltä ominaisuuksiltaan.
Graafien sämpläystä
Christian Hübler kertoi siitä, kuinka isosta, miljoonien noodien graafista voidaan etsiä vaikkapa 100 noodin aligraafi, joka vastaa tilastollisilta ominaisuuksiltaan koko graafia.
Tämän kaltaista menetelmää voisi käyttää vaikkapa testjoukon löytämiseen isosta verkosta tai ison verkon ominaisuuksien visualisointiin ja isojen verkkojen eksploratiiviseen vertailuun.
Verkon bayesilainen klusterointi
Jake M. Hofman esitteli bayesilaisen klusterointimenetelmän verkoille, joka perustuu blokkimalleille. Esitys oli hyvin selkeä ja siinä käytettiin hyvin kuvia, esimerkkejä ja jopa videota menetelmän kuvaamiseen. Jake viittasi myös meidän menetelmään ja mainitsi myös sosiologien tekemän aikaisemman työn. Mitäköhän verkkovisualisointityökalua se käyttää?
Paperissa oli mukavasti huijattu bayeslaiset menetelmät kuulostamaan fyysikkokieleltä. Esimerkiksi VB:stä Hofman sanoo, että se on alun perin fyysikoiden keksinä (viittaus Feynmaniin) mutta viime aikoina (siis vuonna 1999) myös koneoppijat ovat alkaneet käyttää menetelmää.
Testidata joka aiheuttaa ongelmia modulariteetille oli kiinnostava, sillä Hofman perusteli sillä hyvin modulariteetin ongelmia. Myös noise-testi mallille voisi olla hyödyllinen meidän mallia testatessa.
Influenssi verkoissa
Yahoolla tutkijana toimiva Mohammad Mahdian kertoi influenssista sosiaalisissa verkossa. Flickerin tagidatan osalta ei kuulemma näkynyt influenssia, joka ei yllätä minua: tägit eivät intuitiivisesti tunnukaan kovin viraalisti leviäviltä. Jaakon kysyessä Mahdian kuitenkin sanoi, että muissa verkoissa näkyi influenssia.

Mahdian näytti kuvan (kuva 4) artikkelista “The Spread of Obesity in a Large Social Network over 32 Years”, joka kertoo liikalihavuuden leviämisestä sosiaalisissa verkoissa. Kuvasta voi havaita, että erityisesti kaksisuuntaiset (ja samaa sukupuolta olevien välillä olevat sosiaaliset linkit) vaikuttavat liikalihavuuteen.

Mahdian taisi näyttää myös kuvan (kuva 1) artikkelista Group Formation in Large Social Networks: Membership, Growth, and Evolution. Siinä pääpointti on, että jos kaverit on jo tietyssä ryhmässä, niin silloin tietyn henkilön päätyminen samaan ryhmään on suurempi.
Noodien luokittelua
Workshopissa oli useita papereita, joissa luokitellaan noodeja verkossa tunettujen noodien perusteella. D-walks menetelmän esittely muistaakseni Jérôme Callutin esittämänä oli selkeä. Ideana siis, että tiettyyn luokkaan kuuluvien noodien välillä tehdään satunnaispolkuja joilla on joku maksimipituus, esimerkiksi kuusi askelta. Sitten näiden perusteella voidaan määritellä polkujen reitille jääneiden noodien luokat.
Myös Kristiaan Pelckmansin matemaattisempi esitys liittyi samaan aiheeseen ja mahdollisesti myös muistaakseni Dell Zhangin esittämä Modulariteettikerneli, jonka testiasetelmasta en tosin oikein ottanut selvää: kuinka monen noodin labelit tunnettiin ennalta?
Jäin miettimään näiden puoliohjattujen (semi-supervised) menetelmien osalta, minkälaisia uusia ongelmia niihin liittyen voisi löytyä. Erityisen kiinnostavaa voisi olla tilanteet, joissa tunnetaan verkon rakenne ja ainoastaan muutaman noodin labeli. Minkä noodien labelit ennustavat parhaiten muiden noodien labeleita? Voisiko klusteroinnin sijaan käyttää ainoastaan tietoa siitä, miten lähellä kaikki muut noodit ovat muutamaa keskeistä noodia?
Verkkomenetelmien demoamista
Illan aikana pohdin myös, että verkkoalgoritmeja voisi olla hyvä demota maantieteellisillä verkoilla (kuten Fan Chung taisi tehdä), mielellään sellaisilla, jotka kattavat koko maapallon kartan. Tällöin noodien koordinaatit ovat selkeät ja data on intuitiivisesti tuttu. Tietysti tilastollisilta ominaisuuksiltaan maantieteelliset verkot poikkeavat selvästi tyypillisistä kompleksisista verkoista.