Tämä on Janne Aukian blogi.
Fiilistelen arkea, taidetta ja tekniikkaa.

Kuutio

Mukavaa kirjoittelua historiasta

28.7.2008 klo 13:07

Ostin heräteostoksena Hiltuselta Ville Zilliacuksen “Torin tarinoita”-kirjan, joka kertoo anekdootinomaisia tarinoita Euroopan toreihin liittyen. Kirja oli sen verran mukava, että lainasin vielä saman kirjoittajan “Kaikkien aikojen Helsinki”-kirjan, joka kertoo Helsingin historiasta.

Ville Zilliacus on kiinnostava tyyppi. Hän on toiminut muun moassa YLE:n ulkomaanpalvelun johtajana. Zilliacuksesta Elmer-kirjailijatietokannassa. Ylen Elävässä arkistossa on myös Zilliacuksen tuottamaa materiaalia Tipperarystä, Irlannista. Zilliacus eli 86 vuoden ikäiseksi ja kuoli vuonna 2000.

Kirjoista tulee mieleen Peter Englundin Hiljaisuuden historia, josta kirjoitin pari vuotta sitten.

MLG:tä ihmettelemässä: toinen päivä

5.7.2008 klo 17:16

Toinen päivä — varsinkin lomaa edeltävä — on ensimmäistä haastavampi workshopattava. Keskittymiskyky herpaantuu helposti kun esityksiä on katsonut monta putkeen.

SVM struktuureilla

Aamu alkoi Thorsten Joachimsin esityksellä SVM-menetelmien strukturaalisesta laajennuksesta. Nämä eivät ole kovin tuttuja aiheita, mutta SVM-menetelmät toimivat aika nopeasti muissa domaineissa, joten ehkä verkoissakin niissä on mieltä.

Suuret mobiiliverkot

Jari Saramäki puhui suurten mobiiliverkkojen tutkimisesta. Tämä osuus oli jossain määrin tuttua, sillä näistä on ollut Saramäen kanssa useaan otteeseen puhetta.

Virheiden löytäminen koodista

Muistaakseni Frank Eichinger puhui Virheiden löytämisestä ohjelmakoodista. Ideana on, että verrataan (koodin ajopuun) aliverkkoja joita on ohjelmakoodeissa jotka ovat kaatuneet sellaisiin jotka eivät ole kaatuneet ja päätellään, mikä osa koodista on todennäköisimmin aiheuttanut kaatumisen.

Ohjelmakoodin ajatteleminen graafina ja siitä erilaisten ominaisuuksien löytäminen on kiinnostavaa. Ohjelmakoodille voisi tehdä myös kaikenmoista klusterointia ja uudelleenryhmittelyä.

Meidän malli

Janne esitteli meidän rikkaamman mallin, jossa klusterointavissa verkoissa voi olla esimerkiksi noodeilla noodiattribuutteja, linkeillä voi olla tyyppejä tai verkot voivat sisältää multirelaatioita. Malli on hieno mutta jonkun pitäisi jaksaa testailla sitä eri datoilla ja tehdä siitä hyvä, julkinen implementaatio.

MLG:tä ihmettelemässä: ensimmäinen päivä

4.7.2008 klo 16:54

Viime aikoina aikani on kulunut töissä tuotemarkkinoinnin parissa tutkimuksen sijaan. Lähdin kuitenkin kuuntelemaan Mining and Learning in Graphs (MLG) 2008 -workshopissa verkkotutkimuksen uusia tuulia, sillä saimme paperin läpi workshopiin. Tämä on siis samainen tapahtuma, jossa olin viime vuonna Firenzessä esittelemässä meidän mallia.

Workshopissa oli kiinnostavia esityksiä verkko- ja graafitutkimuksen eri osa-alueilta. Tässä joitakin mieleen tulleita asioita esitysten perusteella.

Erdös, typografia ja satunnaispolut

Aluksi huolestuin Fan Chungin esityksen nähdessäni, sillä kalvojen typografiset ominaisuudet aiheuttivat pientä tuskaa. Pienen Googletuksen jälkeen havaitsin hänen Erdös-numeronsa olevan 1 ja että Erdös oli hänen ja hänen miehensä henkilökohtainen ystävä. Nämä faktat olivat niin katu-uskottavia, että yritin olla huomioimatta typografisia pikkuseikkoja.

Fan Chungin esitteli spektraalimenetelmiä ja sitä, kuinka lopulta pagerank ja klusterointi ovat näiden menetelmien kannalta melko samanlaisia matemaattisilta ja menetelmällisiltä ominaisuuksiltaan.

Graafien sämpläystä

Christian Hübler kertoi siitä, kuinka isosta, miljoonien noodien graafista voidaan etsiä vaikkapa 100 noodin aligraafi, joka vastaa tilastollisilta ominaisuuksiltaan koko graafia.

Tämän kaltaista menetelmää voisi käyttää vaikkapa testjoukon löytämiseen isosta verkosta tai ison verkon ominaisuuksien visualisointiin ja isojen verkkojen eksploratiiviseen vertailuun.

Verkon bayesilainen klusterointi

Jake M. Hofman esitteli bayesilaisen klusterointimenetelmän verkoille, joka perustuu blokkimalleille. Esitys oli hyvin selkeä ja siinä käytettiin hyvin kuvia, esimerkkejä ja jopa videota menetelmän kuvaamiseen. Jake viittasi myös meidän menetelmään ja mainitsi myös sosiologien tekemän aikaisemman työn. Mitäköhän verkkovisualisointityökalua se käyttää?

Paperissa oli mukavasti huijattu bayeslaiset menetelmät kuulostamaan fyysikkokieleltä. Esimerkiksi VB:stä Hofman sanoo, että se on alun perin fyysikoiden keksinä (viittaus Feynmaniin) mutta viime aikoina (siis vuonna 1999) myös koneoppijat ovat alkaneet käyttää menetelmää.

Testidata joka aiheuttaa ongelmia modulariteetille oli kiinnostava, sillä Hofman perusteli sillä hyvin modulariteetin ongelmia. Myös noise-testi mallille voisi olla hyödyllinen meidän mallia testatessa.

Influenssi verkoissa

Yahoolla tutkijana toimiva Mohammad Mahdian kertoi influenssista sosiaalisissa verkossa. Flickerin tagidatan osalta ei kuulemma näkynyt influenssia, joka ei yllätä minua: tägit eivät intuitiivisesti tunnukaan kovin viraalisti leviäviltä. Jaakon kysyessä Mahdian kuitenkin sanoi, että muissa verkoissa näkyi influenssia.

Mahdian näytti kuvan (kuva 4) artikkelista “The Spread of Obesity in a Large Social Network over 32 Years”, joka kertoo liikalihavuuden leviämisestä sosiaalisissa verkoissa. Kuvasta voi havaita, että erityisesti kaksisuuntaiset (ja samaa sukupuolta olevien välillä olevat sosiaaliset linkit) vaikuttavat liikalihavuuteen.

Mahdian taisi näyttää myös kuvan (kuva 1) artikkelista Group Formation in Large Social Networks: Membership, Growth, and Evolution. Siinä pääpointti on, että jos kaverit on jo tietyssä ryhmässä, niin silloin tietyn henkilön päätyminen samaan ryhmään on suurempi.

Noodien luokittelua

Workshopissa oli useita papereita, joissa luokitellaan noodeja verkossa tunettujen noodien perusteella. D-walks menetelmän esittely muistaakseni Jérôme Callutin esittämänä oli selkeä. Ideana siis, että tiettyyn luokkaan kuuluvien noodien välillä tehdään satunnaispolkuja joilla on joku maksimipituus, esimerkiksi kuusi askelta. Sitten näiden perusteella voidaan määritellä polkujen reitille jääneiden noodien luokat.

Myös Kristiaan Pelckmansin matemaattisempi esitys liittyi samaan aiheeseen ja mahdollisesti myös muistaakseni Dell Zhangin esittämä Modulariteettikerneli, jonka testiasetelmasta en tosin oikein ottanut selvää: kuinka monen noodin labelit tunnettiin ennalta?

Jäin miettimään näiden puoliohjattujen (semi-supervised) menetelmien osalta, minkälaisia uusia ongelmia niihin liittyen voisi löytyä. Erityisen kiinnostavaa voisi olla tilanteet, joissa tunnetaan verkon rakenne ja ainoastaan muutaman noodin labeli. Minkä noodien labelit ennustavat parhaiten muiden noodien labeleita? Voisiko klusteroinnin sijaan käyttää ainoastaan tietoa siitä, miten lähellä kaikki muut noodit ovat muutamaa keskeistä noodia?

Verkkomenetelmien demoamista

Illan aikana pohdin myös, että verkkoalgoritmeja voisi olla hyvä demota maantieteellisillä verkoilla (kuten Fan Chung taisi tehdä), mielellään sellaisilla, jotka kattavat koko maapallon kartan. Tällöin noodien koordinaatit ovat selkeät ja data on intuitiivisesti tuttu. Tietysti tilastollisilta ominaisuuksiltaan maantieteelliset verkot poikkeavat selvästi tyypillisistä kompleksisista verkoista.

Rippikoulusta ja körteistä

2.7.2008 klo 10:50

Kirkko on minulle melko etäinen organisaatio. Kirkkoon liittyen tulee mieleen vitsi, jonka Matti monesti kertoo, kun kirkosta — tai lepakoista — tulee puhetta. Vitsissä kolmella kirkkoherralla on ongelmana, että lepakoita on muuttanut kirkon ullakolle ja niistä pitäisi päästä eroon (tämä versio pohjautuu Etelä-Suomen Sanomien foorumista löytyneeseen):

Yksi kirkonisä kertoo: “Minä kerään lepakot aina säkkiin ja vien ne tuonne naapurimaan rajalle. Mutta siinä vaiheessa kun pääsen pyörärtetkeltäni kotiin, niin lepakot ovat tulleet takaisin. Ei ole enää neuvoja.”

Toinen kirkonisä toteaa ottaneensa käyttöön hieman järeämmät keinot: “Minä olen ottanut käyttöön isoisältäni perimäni vanhan rinnakkaispiippuisen haulikon ja ampua paukautan aina välillä kellotapuliin. Ensin lepakot säikkyivät ja lähtivät muihin maisemiin. Nyt en kuitenkaan enää uskalla käyttää tätä keinoa. Vanha tapuli saattaa rojahtaa alas milloin tahansa, sen verran vanha ja heikkokuntoinen.”

Kolmas kirkonisä on sen sijaan suhteellisen tyytyväisen näköinen. “Minä olen pitänyt lepakoille rippikoulua. Kun oppi on mennyt perille ja konfirmaatio on suoritettu, niin lepakot liihottavat tiehensä, eikä ole ensimmäistäkään näkynyt siitä ryhmästä.”

Kävin kuitenkin körttiriparin, jonka hyvä fiilis ja kummalliset Siionin-virret olivat kokemisen arvoisia. Siksi tämänpäiväisen Metro-lehden Jaakko Heinimäen juttu körteistä, Espoon Herättäjäjuhliin liittyen, oli kiinnostava. Körttiyden ydin oli hyvin esitetty jutun lopussa:

Körttiläisyys on kirkon syntisintä siipeä — ja ehkä juuri siksi myös suvaitsevaisinta. Ainoa, mitä ei oikein meinata suvaita, on kovin elämöivä uskonnollisuus.

good buys on software pirodr! 666