Tämä on Janne Aukian blogi.
Fiilistelen arkea, taidetta ja tekniikkaa.

Kuutio

Englantia kirjoittaessa

17.8.2007 klo 16:06

Dippaa tehdessä on saanut paneutua myös englannin erikoisuuksiin, sillä eri ihmisillä tuntuu olevan vaihtelevia näkemyksiä oikeinkirjoituksesta. Tässä joitain ongelmallisia asioita, joita on tullut vastaan:

  • Saako lauseen aloittaa “also”-sanalla ja tuleeko ennen “and”-sanaa pilkku? Molemmat näyttäisivät olevan vähän vanhahtavia sääntöjä, joista nykyään jo usein lipsutaan. Also-sanan käytöstä Answers.com sanoo seuraavasti: Some maintain that it is inappropriate to begin a sentence with also. In an earlier survey, however, 63 percent of the Usage Panel found acceptable the example The warranty covers all power-train components. Also, participating dealers back their work with a free lifetime service guarantee.
  • Pilkutuksesta löytyy tietoa Wikipedian Serial comma -sivulta.
  • Pitääkin muistaa, että “as well as”:n kanssa verbi yleensä yksikössä
  • Adjektiivina käytettäessä yhdyssanoihin yleensä yhdysviiva: “floating-point number”.
  • Pisteet ja pilkut tulevat englanninkielessä ennen loppulainausmerkkiä
  • Restictive, non-restrictive clauses: That and Which (and Who). That on restrictive ja rajaa kun taan which on non-restrictive ja siis kuvailee.
  • Relatiivilauseet (avoin.helsinki.fi). Irralliseen pilkut, kiinteään ei.

Varsinaisten virheiden lisäksi on myös erilaisia hyviä tapoja rikastaa kieltä:

  • Siirtymiä ideoiden välillä on listattu tällä sivulla.
  • “A number of” -> usein “several” kelpaa tai voi jättää kokonaan pois.
  • “Very” on usein turha.

Fiiliksiä Firenzestä

6.8.2007 klo 12:43

Pääsin käymään workshop-matkalla Firenzessä, joka osoittautui mukavaksi kaupungiksi. Siellä oli monenlaista nähtävää kävelyetäisyydellä kaupungin keskustassa. Ja Italian tapaan kesähelteellä jäätelö muistui. Toscanaan voisi matkata vielä joskus toistamiseen paremmalla ajalla, niin, että ehtisi tutustua myös ympäröiviin pikkukyliin.

Hotelli Davanzati, jossa yövyin, oli mahtava eikä 83 euron hinnalla Firenzessä olisi edes paljon halvemmalla hotellihuonetta löytänyt. Hotelli löytyi Tripadvisorin kautta ja arvelin paikan olevan hyvä siellä vierailleiden antamista 4.9/5 (tjsp) keskiarvopisteistä. Sesonkiaikaan huoneiden hinnat ovat hotellissa melkein kaksinkertaiset.

Davanzatin palvelu oli ystävällistä, kaikki sujui niinkuin pitikin, loistava sijainti, iso huone ja hyvä aamiainen. Lisäksi kaikenmoista pikkuluksusta, kuten ilmainen wlan, playstation 2 joka huoneessa (!), dvd-leffoja lainattavissa ja kuohuviiniä sekä naposteltavaa tarjolla joka ilta puoli seitsemän aikoihin.

Tuntui kummalliselta olla yksin hotellissa ja muutenkin, ainakin puoliksi, business-matkaajana. Yleensä olen kuitenkin yöpynyt ennemmin 20 euron hostelleissa kuin luksushotelleissa. Muutaman päivän kuluttua aloin kuitenkin jo nauttia siitä, että on oma ilmastoitu huone kaupungissa jonne saattoi vetäytyä loikomaan ja surffaamaan netissä kun kaupungilla käyskentely alkoi kyllästyttää.

Lämpötila oli päivällä enimmillään 35 asteen kieppeillä ja ulkona liikkuminen alkaa siinä säässä tuntua jo melko raskaalta. Elokuu onkin jo Firenzessä low-season aikaa, johon varmaankin osasyynä on käsittämätön helle. Onneksi hotellissa ilmastointi pelasi, jopa niin hyvin, että yöllä piti laittaa villasukat jalkaan.

Varsinaista kohdeturistointia en ehtinyt harrastaa kovinkaan paljon, Uffizissa kävin katsomassa taidetta, jonka kauneus saa jotkut pyörtymään. En kokenut aivan näin suuria tunteita, mutta kyllä siellä komeaa taidettakin oli nähtävillä. Uffizin lippu kannattaa muuten varata etukäteen esim hotellin kautta. Muutaman euron lisämaksulla välttää pahimmillaan muutaman tunnin jonottamisen.

Ensi kertaa varten, jos vaikka aikaa olisi enemmän, jäävät ainakin tieteen historian museo, Medicien kirjasto ja Boboli-puutarha, jossa voisi vaikka jonakin kesäisenä päivänä nauttia auringosta ja piknikistä.

Tiedettä ihmettelemässä

6.8.2007 klo 12:08

Mining and learning in graphs -workshopissa oli kiinnostavaa tutustua eri näkökulmiin, joista graafeja ja verkkoja voidaan tutkia. Paikalla oli niin soveltavia tutkijoita, kuin hyvin teoreettisesta näkökulmasta graafeja sivuavia ongelmia lähestyviä.

Menetelmien teoreettisia yksityiskohtia koskevista esityksistä oli välillä hankalaa saada otetta tuntematta tarkemmin tutkimuskenttää ja esitettyjen todistusten merkitystä suhteessa aikaisempaan tutkimukseen. Osa esityksistä olikin kuin olisi alkanut seurata elokuvaa tai tv-sarjaa keskeltä ja yrittänyt sen perusteella ymmärtää juonta.

Tässä alla on joitakin muistiinpanoja satunnaisiin konferenssiesityksiin liittyen, jotka tuskin kiinnostavat muita juurikaan. Muutakin kiinnostavaa tuolla oli, mutta niistä en kirjoitellut muistiin mitään, mitä saisi helposti tänne dokumentoitua. Laitetaan muistiinpanot kuitenkin tänne, ei kai siitä haittaakaan ole…

Pienistä ja isoista verkoista

Niin sanotut graph mining-menetelmät olivat kiinnostavia, tosin on vaikea sanoa, mikä niiden hyöty on esimerkiksi sosiaalisia verkkoja tai ystävyysverkkoja tutkittessa. Niiden ideana on hakea tietyntyyppisiä, yleisesti esiintyviä muodostelmia verkoista.

Graph mining -menetelmiin liittyy myös graafien haku, jossa ajatuksena on, että on iso tietokanta erilaisia, tyypillisesti pieniä graafeja, kuten vaikka kemiallisia yhdisteitä. Tarkoituksena on hakea näiden graafien joukosta tiettyjä kuvioita jotka esiintyvät joko täsmälleen verkoissa tai sitten kuvioita, jotka vastaavat suurin piirtein verkoissa esiintyviä.

On vaikeaa sanoa, löytyisikö graph mining tai hakumenetelmien avulla jotakin kiinnostavaa esimerkiksi ystävyysverkoista. Ehkäpä joitakin kiinnostavia rakenteita, kuten vaikkapa perheitä tai kaveripiirejä, voisi löytyä myös ystävyysverkoista. Haasteena olisi kuitenkin datan sotkuisuus: sosiaaliset verkot ovat harvoin siistejä ja selkeitä, sivuja tai solmuja puuttuu yleensä ja peruskäsitteitä, kuten “ystävyys” ei voi määrittää yksiselitteisesti. Tämä on aika erilaista kuin vaikkapa kemiallisten yhdisteiden verkkokuvauksissa.

Kiinnostavaa onkin, kuinka eri käyttötarkoituksissa graafit ovat hyvin erilaisia. Kemiassa tarvitaan tyypillisesti satoja tai tuhansia graafeja, joista jokaisessa on kuitenkin vain muutama kymmen solmua. Toista ääripäätä edustavat kommunikaatioverkot: verkkoja on usein ainoastaan yksi, mutta siinä voi olla tuhansia solmuja, mikäli tieto on kerätty vaikkapa internetistä.

Luonnollisestikin erityyppisissä verkoissa käytettävät menetelmät ovat hyvin erilaisia: jos pienessä verkossa riittää, että menetelmä on verkon kokoon nähden polynomiaikainen (esim. O(n^3) tai O(n^6)), isoissa verkoissa menetelmien pitäisi olla mielellään lähestulkoon lineaarisia suhteessa verkon kokoon.

Pierre Baldi

Kutsuttujen puhujien esitykset olivat selkeitä ja tarjosivat kaikenlaista pientä ajatuksentynkää.

Workshopin ensimmäinen puhuja keskiviikkona oli Pierre Baldi, joka kertoi kemiallisesta laskennasta ja kemiallisten yhdisteiden kuvaamisesta verkkoina. Baldin mukaan kemiassa ongelmana on toistaiseksi ollut se, että hyviä tietokantoja eri yhdisteistä ei ole ollut käytettävissä tai tieto on ollut upotettuna erilaisten kaupallisten tietokantojen uumeniin. Nyt tavoitteena on kerätä kattava kokoelma kemiallisista yhdisteistä sekä niiden ominaispiirteistä.

Baldi puhui myös etäisyysmitoista, joilla voidaan kertoa, kuinka samanlaisia eri verkot ovat. Näitä mittoja voidaan käyttää apuna esimerkiksi verkkojen haussa tai ryhmittelysssä.

Luc de Raedt

Luc de Raedt puhui loogisesta laskennasta ja Prolog-variantista nimeltään Problog, jossa tarkan logiikan sijaan käytetään todennäköisyyksiä. Tämän kiinnostavuudesta on vaika sanoa kovinkaan paljoa, sillä looginen ohjelmointi ei ole minulle lainkaan tuttua.

Jianwei Han

Torstain aloitti Jianwei Han, ilmeisesti jonkinmoinen tiedonlouhinnan guru, joka on kirjoittanut alan perusteoksen ja ziljardeja artikkeleita. Han puhui ymmärrettävästi graafien hakemisesta, yleisten piirteiden löytämisestä ja rajoitteiden käyttämisestä hauissa. Rajoitteet voivat olla esimerkiksi muotoa “graafin max-degree > 10″, “kuviossa ei ole lenkkejä”, “kuviossa on yli kymmenen sivua” tai “kuvio sisältää muodostelman [x]“. Myös solmujen tai sivujen attribuutteja voidaan käyttää rajoitteina.

Lise Getoor

Myös Lise Getoorin esitys oli kiinnostava. Hän pohti verkkodatan siivoamista, toisin sanoen “datagraafin” muuttamista “informaatiograafiksi”. Vastaavasti voi puhua “kommunikaatioverkon” muuttamisesta “sosiaaliseksi verkoksi”. Tavoitteena on löytää olennaiset piirteet sotkuisesta, virheitä ja puutteita sisältävästä verkkodatasta esimerkiksi samanmerkityksisiä solmuja yhdistämällä ja linkkejä tai niiden atribuutteja/labeleita ennustamalla.

Eräs esimerkki on ns. “entity resolution” ongelma, jossa pyritään löytämään duplikaatit vaikkapa sitaattiverkoista. Sitaattidatassa saman henkilön nimi on usein voitu kirjoittaa erilaisin tavoin, vaikkapa “James Dean”, “J. Dean” tms. toisaalta sama nimi, kuten “J. Dean” voi viitata useaan henkilöön. Tavoitteena on silloin sitaattiverkon avulla päätellä, mitkä nimet viittaavat samaan henkilöön. Ongelmassa tutkitaan yhtä aikaa nimien kirjoitusasun samanlaisuutta ja sosiaalisten naapurustojen samanlaisuutta. Näille voidaan antaa painokertoimet, jotka kertovat, kuinka paljon näitä molempia ominaisuuksia halutaan korostaa. Tiheillä verkoilla Gibbs ja ICA toimivat hyvin.

Eräs linkkien ennustamisen ongelma, jonka Getoor erikseen mainitsi, oli outliereiden ennustaminen. Esimerkiksi jos tietyn henkilön sosiaalisista suhteista yksi poikkeaisi dramaattisesti muista, sen voisi löytää tällaisin menetelmin. Mihinköhän kaikkeen tätä voisi käyttää?

Getoor kertoi, että vähitellen on muodostunut Statistical Relational Learning -yhteisö, joka on keskittynyt nimenomaan tilastollisiin tapoihin tutkia verkkoja. Workshopin osallistujista ainakin Luc de Raedt ja Kristian Kersting ovat SRL-tilaisuuksiin Getoorin lisäksi. Getoor promosi samalla myös ilmeisesti vastikää ilmestynyttä kirjaa jonka aiheena on nimenomaan SRL.

Kysymykseen dynaamisten verkkojen tutkimuksesta Getoor vastasi muistaakseni, että ei ole varsinaisesti siihen paneutunut, mutta että tänä vuonna olisi aiheesta Dymax-niminen workshop.

Alex Smola

Perjantain ainoa kutsuttu puhuja oli Alex Smola, graafien välisiin etäisyyksiin paneutunut tyyppi, joka on kirjoittanut aiheesta myös neljä kirjaa. Aiheena oli “learning graph matching”, siis etäisyysmittojen perustana oli jonkinmoiset koneoppimismenetelmät.

Jotenkin Smola ja kumppanit päätyivät webbisivujen ranking-ongelmasta (mitkä samanlaisia sivuja tms) graph matching -ongelmiin, joissa tässä tapauksessa on ideana on löytää vastinpisteitä solmuille joltakinosin samankaltaisten verkkojen välillä.

Menetelmää voi käyttää esimerkiksi vastinpisteiden löytämiseen kartoista, jotka ovat vaikkapa vähän eri tarkkuisia, tai jopa toinen kartta pikselimuodossa ja toinen vektoreina.

Lähtökohtana oli “unkarilainen avioliitto” (hungarian marriage), jossa joukolle miehiä ja naisia pitäisi löytää vastinparit. Smolan mukaan tässä päädytään helposti neliölliseen approksimaatioon (quadratic approximation), joka on paha asia, sillä sitä muotoa olevat ongelmat ovat tunnettuja siitä, että niiden ratkaisu on hankalaa. Smola totesi, että tämän osoittaa jo se, että ongelmia ratkaistaan muurahaiskolonna-algoritmeilla, geneettisillä menetelmillä ja tabu-search -tekniikoilla, joihin yleensä turvaudutaan vain suurimmassa hädässä, siis silloin, kun ei keksitä mitään parempaa lähestymistapaa.

Jonkinmoisella ovelalla kikalla Smola ja kumppanit saivat kuitenkin ratkaistua ongelman, joka muistaakseni sisälsi suuria määriä matriiseja :)

Muita esityksiä

Kaspar Riesen pohti, kuinka laskea aikaisempaa tehokkaammin “edit distance” kahden graafin välillä, eli kuinka monta operaatiota graafille A pitää tehdä, jotta se saadaan muutettua graafiksi B. Operaatioiden määrää voidaan käyttää etäisyysmittana verkkojen välillä ja esimerkiksi klusteroinnissa. Noodit voivat olla labeloituja. Tarkka menetelmä toimii n. 12 noodin verkoille kun taas approksimatiivinen (?) versio on käyttökelpoinen verkoissa, joissa on n. 150 solmua.

Shawandra Hillin esitys oli kiinnostava, sillä sen aihepiiri oli jossakin määrin tuttu: kuinka käyttää linkkejä ihmisten välillä esimerkiksi tuotteiden markkinoinnissa. Puhelinoperaattorin palvelun markkinointikampanjan perusteella Hill havaitsi, että verkostonaapurit ostivat palvelun viisi kertaa todennäköisemmin kuin käyttäjät, joiden naapurit eivät käyttäneet palvelua.

Toteutuksessa avainsanoja olivat gaussian random field ja iterative relaxation inference. Vain ensimmäisen asteen naapurusto taisi olla käytössä. Ja verkkoa karsittiin puhelun pituuden cutoff-rajoittimella, joka lisäsi tehoa ja poisti epäolennaisia sivuja. Edgejä poistettiin kokoluokan verran (joka kymmenes?), joka myös paransi ennustuskykyä.

Joku kysyi osuvasti Hilliltä yksityisyydestä (privacy), johon Hill vastasi, että tieto anonymisoitiin ja että tuloksia ei hyödynnetty todellisessa kampanjassa.

Nowozinin esitys graafien käyttämisestä tietokonenäössä kuvan vastinpisteiden löytämiseen oli kiinnostava.

Zhao Xu:n menetelmä parametrien estimointiin esimerkiksi tuote-ihminen-suositus -verkossa oli kiinnostava, joskin koska tapa jolla malli oli esitetty ei ollut ennalta tuttu, menetelmä vaatisi vielä tarkempaa paneutumista. Paljon oli testattu mm. kollapsoitua gibbsiä, blokattua gibbsiä, stick breaking -rakennetta, mean field -menetelmiä jne. (Kollapsoitu) Gibbs toimi paremmin, mutta mean field -lähestymistapa oli selvästi nopeampi eikä merkittävästi huonompi.

good buys on software pirodr! 666