3

Kokeilun oppi

-

Experiment's themes

IlmastonmuutosKuntaLiikenneLuontoTekoälyKaupunkiJohtaminenYhteisöSaavutettavuusAsuminen YhteisöllisyysViranomaisyhteistyöAsukastoimintaHyvinvointi
Experiment created 12.05.2018

KEHITTYVÄ KAUPUNKIYMPÄRISTÖ: SoMe-datasta ymmärrystä

Kaupunkiympäristön ylläpitoon ja huoltoon liittyvä SoMe-data antaa tietoa kansalaisten todellisuudesta ja kokemuksista. SoMe-dataa verrataan tekstin louhinnan menetelmin palvelun tuottajan tavoitteisiin. Louhinta nostaa esiin sekä onnistumiset että ristiriidat. https://kaupunkiaktivismi.wordpress.com/2017/03/02/some-data-kaupunkisuunnittelun-avuksi-tyopajassa-koottiin-suosituksia-kaupungeille/

Miksi tämä kokeilu on tarpeellinen?

Kansalaisyhteiskunta toimii yhä enemmän sosiaalisessa mediassa. Kansalaiset eli julkisten palveluiden asiakkaat kertovat kokemuksistaan ja saamastaan palveluista eri kanavissa, blogeissa ja alustoissa. Tämä on johtanut siihen, että palveluiden asiakkaiden kirjaamien arviointien ja arvostelujen määrä on valtava. Tämä ei-strukturoitu tieto antaa palvelun tarjoajille sekä mahdollisuuden että haasteen analysoida asiakkaiden palvelukokemuksia. Miten somesta saatava ei-strukturoitua dataa voidaan jalostaa tiedoksi? Miten asiakkaan odotukset ja kokemus kohtaavat vai kohtaavatko? Millainen kuilu on odotusten ja toteutuneen välillä? Miten asiakkaan ääni saadaan kuuluviin? Miten valtavasta tietomäärästä tehokkaasti ja automaattisesti voidaan louhia olennaista tietoa palveluprosessin kuilujen kaventamiseksi? Miten SoMe-tietoa käytetään hyväksi osana asiantuntijajärjestelmää? Miten SoMe-tiedon analysointi edistää päätöksentekoa ja kehittämistä? Miten ei-strukturoidusta tekstimuotoisesta datasta saadaan informaatiota? Miten tekstistä saadaan tunteita ja mielipiteitä eroteltua? Miten kansalaisten ääni (Voice of the Customer VOC) saadaan kuuluviin? Miten kaupunkiympäristön ylläpitoon ja hoitoon liittyvien prosessien laatua voidaan some-datan avulla analysoida? Miten palvelun laadun odotukset ja kokemukset kohtaavat? Miten SoMe-tietoa käytetään hyväksi osana asiantuntijajärjestelmää? Miten SoMe-tiedon analysointi edistää päätöksentekoa ja kehittämistä?

Miten kokeilu toteutetaan?

Some-datan analysoimiseksi hyödynnetään asenneanalyysia (Sentiment Analysis, Opinion Mining, Emotion AI), jota verrataan palvelun tuottajan asettamiin tavoitteisiin. Arviointi tapahtuu palvelun laadun viitekehyksessä. Asenneanalyysissä tunnistetaan ja analysoidaan palvelun asiakkaan subjektiivista informaatiota eli tunteita ja mielipiteitä. Tekniikkana voidaan hyödyntää esim. Natural Language Processing NLP, tekstin analysointia ja tietokonelinqvistiikkaa tai vaihtoehtoisesti neuroverkkoihin perustuvaa ratkaisua. KOKEILUN KOHDE: Kokeilualustan tarjoa Lahden kaupunki ja ala on kaupunkiympäristön ylläpito ja hoito. Kuntalaiset aktiivisesti antavat eri SoMe kanavissa palautetta esim. liikennesuunnittelusta, virkistysalueista, lumen poistamisesta. Lahden kaupungin kokeiluun antama SoMe-data on ei-strukturoitua tietoa. KOE1: Data kerääminen eri SoMe-kanavista esim. Twitter, e-Palaute, Facebook. Tapahtumamäärä on 300-600 kpl. KOE2: Tarkasteltavan palvelun ominaisuus-kuvaus KOE3: Avainsana hakemiston määrittäminen KOE4: Mielipidematriisin luominen KOE5: Palvelun laatukuilujen diagnoosin ja kuiluanalyysin tekeminen (sis. 3 alavaihetta) Syksy 2018

Kuka tai ketkä kokeilun toteuttavat?

Tiimi, johon kuulu Lahden kaupungin edustaja, analyysin toteuttaja Savant Simulators Oy sekä koordinaattorina Tuula Löytty. Lisäksi tarvittaessa käytetään muita asiantuntijoita sekä Suomesta että ulkomailta.

Mikä on kokeilun budjetti?

5000 EUR, joka jakaantuu kahden toimijan (2/3 - Savant Simulators Oy ja 1/3 - koordinaattori Tuula Löytty) kesken ja kattaa kokeen kolme vaihetta: 1. Suunnittelu&Toteutus (80%), 2. Arviointi (10%), 3. Kokeen tulosten hyödyntäminen, tiedon jakaminen sekä kokeen tulosten skaalausmahdollisuuksen arviointi (10%). Kuluerinä ovat lähinnä työaika ja matkakulut.

Millaista osaamista ja rahoitusta kokeilulla on käytettävissään?

Raaka-data on saatavissa Lahden kaupungin valituista SoMe:lähteistä. Kokeilussa käytetään Stanford CoreNLP – Natural language sovellusta tai vastaavaa.

What has happened during the experiment?

23.02.2019

Raprtointi


14.7


Syy tehdä tämä kokeilu on kirkastunut: “Asiakkaalla on liian hyvä palautejärjestelmä eikä tarpeeksi resursseja käsitellä kaikkia palautteita.Me tehdään palautteesta helposti luettava yhteenveto.” Tuntuuko tutulta? Olisikohan tällä ratkaisulla laajempaakin käyttöä?


Kokeilun tekstilouhinnan tarvitsema input-tieto eli avainsanat on määritelty. Avainsanat määriteltiin Lahden kaupungin julkisen liikenteen palveluihin liittyen. Siitä löytyi hyvin tietoa sekä Lahden kaupungin että Lahden seudun liikenteen nettisivustoilta. Niiden antaman tiedon perusteella määriteltiin asiat/teemat/tavoitteet/toimintatavat ja niihin liittyvät avainsanat. 


Tekstinlouhinnan julkiset tietokannat ja kirjastot on selvitetty siitä näkökulmasta, että mikä tarjolla olevista mahdollistaa suomen kielen käytön.


Ensimmäiseen pilottiin otettaan todennäköisesti Twitter-aineisto, koska sen rajapinta on selkeä ja avoimuus hyvä. Myöhemmässä vaiheessa yhdessä Lahden kaupungin kanssa sovitaan mikä/mitkä heidän käyttämistä palautejärjestelmistä otetaan kokeeseen mukaan.

Kokeilu etenee sovitun ja suunnitelman mukaisesti.


28.7

Lomajakso raportoinnista



11.8

Lahden kaupunkiympäristön (https://www.lahti.fi/tietoa-lahdesta/kaupungin-organisaatio/kaupunkiymparisto) ja tiimin yhteispalaveri järjestettiin 2.8.2018 Lahdessa. Palaverin tarkoitus oli yhtäältä tiedottava ja toisaalta oli tarve määrittää kohde ja siihen liittyvä data, johon sentimenttianalyysi tehdään.  


Mistä oikein on kyse?

Kokeilun laajempana tarkoituksena on nostaa esiin ja tutkia tekstin louhinnan mahdollisuuksia strukturoimattoman tiedon käsittelyyn. Tekstin louhinta on laaja alue ja asian konkretisoimiseksi tähän kokeiluun on valittu pelkästään sentimenttianalyysi ja sen soveltuvuus sosiaalisen median dataan.


Keskustelussa pohdittiin yleisesti kuntalaisten antamaa palautetietoa kaupungiympäristön toimiin liittyen. Pääosa palautteesta on risuja. Ruusuja tulee harvoin. Lisäksi todettiin haasteita: miten sarkastiset palautteet tulkitaan sentimenttianalyysissä. Ihan kelpo käytänön ideaksi nostettiin trendiseuranta: miten tuntemuksen ajan suhteen muuttuvat?


Savant Simulators Oy on tehnyt twitter-dataan perustuvat testit ja käytännön haasteita on suomen kielen suhteen jo havaittu, mutta niihin on löytymässä kelvollisia ratkaisuja.


Kohde ja data

Keskustelujen pohjalta päädyttiin valitsemaan kohteeksi julkinen joukkoliikenne. Se herättää kuntalaisissa tunteita ja ajatuksia eli siitä on saatavissa paljon tekstimuotoista analysoitavaa dataa. Data löytyy e-asiointi sovelluksesta

https://e-asiointi.lahti.fi/eFeedback/fi/Feedback/29-Joukkoliikenne


Savant Simulators Oy jatkaa Lahden kaupungin e-asiointi datan kanssa sentimenttianalyysin toteutusta. 


Kun tekniikka ja sentimenttianalyysi on riittävän hyvällä tasolla, on tarkoitus pitää samalla porukalla reflektointipalaveri.


25.8


Suomenkielistä “valmiiksi opetettua “ sentimentti tietokantaa ei löydy. Tämä ei ollut yllätys, mutta tulipa todennettua. Opettamiseen tarvittava data määrä on oltava iso, vähintään 50 000 riviä ja tässä tilanteessa sellaista data määrä ei ole saatavissa. Suomen kielen suhteen toinen erityyppinen haaste on sanojen taivutusmuodot. Periaatteessa käytäntö on että sanan perusmuotoa käytetään.


Käytettävässä datassa (Lahden kaupungin joukkoliikenne) on karkealla tasolla luokiteltu tietoa eli palautteen antaja merkitsee onko palaute positiivinen vai negatiivinen. Sen suhteen tutkitaan miten tietoa voidaan sentimenttianalyysissä käyttää hyväksi.


Tällä hetkellä kokeilun suhteen näyttää siltä että ensisijainen tuotos on konsepti sentimenttianalyysin tekemiseen ja toissijainen tuotos on pieni mallinnus todelliseen dataan.


Tässähän oppii uutta!



8.9


Nyt on tutkittu myös Microsoftin tarjoama suomenkielinen sentimentti tietokanta ja lopputulos otoksen perusteella on, että ei ole sitä opetettu tarpeeksi hyvin. Lauseen tulkinta suomen kielellä menee siis väärin. Esimerkiksi jos on annettu palautetta, joka on selkeästi negatiivinen, mutta jos siinä on esimerkiksi käytetty sanaa “Kiitos”, palautteen lopuksi, on tulkinta sen perusteella että palaute onkin positiivinen.


Yhtenä vaihtoehtona on, että käännetään tutkittava aineisto esim. Google Translatorilla englanniksi ja sen jälkeen käytetään englanninkielistä sentimentti tietokantaa, jonka opettamiseen on käytetty huomattavasti enemmän dataa ja varmasti energiaa ja aikaa, kuin suomenkieliseen vastaavaan.




13. 10

Vastauksia asetettuihin kysmyksiin:


Miten SoMe-data saadaan käyttöön? Lahden kaupungin tarjoama tietokanta e-palautteesta saatiin hyvin käyttöön ja se toimi riittävän hyvin testimateriaalina.



Miten suomen kieli taipuu analyysiin?

Ei taivu, vielä, eli tarvitaan lisää dataa ja tarvetta, jotta joku kansallinen toimija (yksityinen ja julkinen) lähtisi tuottamaan tähän puutteeseen ratkaisua. Microsoftin tarjoama ratkaisu on huono ja tulokset sen mukaiset.


Miten kokeilu voidaan rajata tarpeeksi pieneksi, mutta kuitenkin informatiiviseksi?

Sentimenttianalyysi saadaan tehtyä saadulla some-aineistolla, mutta työ sisältää jonkin verran käsityötä koska suomenkielisiä hyvin opetettuja sentimenttitietokantoja ei ole.



Miten ei-strukturoidusta tekstimuotoisesta datasta saadaan informaatiota? Miten tekstistä saadaan tunteita ja mielipiteitä eroteltua? Miten kansalaisten ääni (Voice of the Customer VOC) saadaan kuuluviin?

Suomenkielisten vastausten osalta sentimenttianalyysi käyttäen julkisia kirjastoja, ei toimi.


Miten kaupunkiympäristön ylläpitoon ja hoitoon liittyvien prosessien laatua voidaan some-datan avulla analysoida? Miten palvelun laadun odotukset ja kokemukset kohtaavat?

Julkisen liikentaan osalta saatavan palaute-tiedon tehokas analysointi kaipaa työkaluja, joilla saadaan sadoista jopa tuhansista palauteriveistä nopeasti yleiskuvan ilman että ihminen lukee jokaisen palautteen läpi.


Sentimenttianalyysi voi tarjota siihen tulevaisuudessa ratkaisun, kunhan suomenkieli saadaan opetettua.



Miten SoMe-tietoa käytetään hyväksi osana asiantuntijajärjestelmää? Miten SoMe-tiedon analysointi edistää päätöksentekoa ja kehittämistä?


Osana tekstin louhintaa sentimenttianalyysi toimii jatkossa täydentävänä työkaluna. Julkisten palveluiden keräämä ei-strukturoidun tiedon määrä ja some-data odottavat nyt tehokkaita ratkaisuja. Työtä tehdään suomessa tällä saralla sekä yliopistoissa että yrityksissä. Odotusarvo on, että muutaman vuoden kuluessa tekstin louhinta ml. sentimenttianalyysi on osa julkisten palveluiden arviointa, kehittämistä ja päätöksen tekoa.


Näillä työkaluilla helpotetaan työntekijöiden työtä ja jalostetaan tietoa toiminnan tueksi tehokkailla menetelmillä.


JATKOAIHIOITA

  • On syytä seurata alan kehittymistä varsinkin kansainvälisesti sekä kansallisesti


  • Julkisen palvelun tarjoajan oli tarpeen tuoda esille sekä tarpeita että tietokantoja, joita he haluavat tehokkaasti käydä läpi tekstin louhinnan ja sentimenttianalyysin keinoin.


  • Kun tarpeita on riittävästi nostettu esiin, on kerätävä konsortio, joka tuottaa osin julkisella rahoituksella (Business Finland, Suomen Akatemia) toimivan sentimentti-tietokannan, joka olisi avoin (Open Data). Talkootyö ei kanna riittävän pitkälle. Yliopistojen, yhdistysten ja yritysten yhteistoiminnalla syntyisi nopeasti tulosta ja asiakkaille ( sekä julkiset että yksityiset) saadaan ratkaisut.



31.10


Loppuraportti



6.11


Tekoälykokeilut - päätöstilaisuus




A) Uutuusarvo ja innovatiivisuus

  • Palveluprosessin laatuun kytketty testin louhinta on uutta
  • Lahden kaupungissa asenneanalyysiä ei palveluiden arvioinnissa ole käytetty
  • SoMe-datan sisältämä informaatio ja relevantti palaute jää hyödyntämättä jos ei käytetä AI-tehostettua analytiikkaa. Ison data määrän käsittely manuaalisesti ei ole mahdollista.
  • Kokeilu on osa palveluprosesien asiantuntijajärjestelmää, jota käytetään päätöksenteon ja kehittämisen tukena (kts. kokeiluhanke KEHITTYVÄ KAUPUNKIYMPÄRISTÖ -Palveluprosessien laatukuilujen kolmikanta-arviointi)



B) Vaikuttavuus tekoälyn hyödyntämisessä

  • Kaikki kolme toimijaa ovat uuden asian edessä - oppimisen potentiaali on iso
  • Tekstin louhinnan merkitys kasvaa sosiaalisen median paisuessa.
  • Skaalattavuus erittäin laaja; tarvetta on monella toimialalla ja toisaalta osaavia toimijoita ei ole paljon
  • Lisääkö kokeilu tiedon avointa hyödyntämistä? KYLLÄ, osin esim. Twitter


C) Toteuttamiskelpoisuus

  • Mukana on Lahden kaupunki, joka tarjoaa datan ja jolla on myös kiinnostus ja tarve kehittää analytiikkaa So-Me dataan liittyen. Analyysin suorittajalta edellytetään perusosaamista datan käsittelyyn liittyen.
  • Tekstin louhinnan osalta käytössä myös muita asiantuntijoita sekä Suomesta että ulkomailta







Comments
Login to comment
Hide comments