Mitä teen?

1. Tutkimus

  • VTM sosiaalipolitiikka 2008 Turku
  • sosiaalipolitiikan väitöskirja tekeillä Venäjän köyhyyteen ja sosiaaliturvaan liittyen
  • köyhyyden, eriarvoisuuden ja sosiaalipolitiikan spatiaalinen/paikallinen ulottuvuus
  • papereita vireillä liittyen Venäjään, sosiaalipolitiikan kv-vertailuihin, & tutkimusohjelmistoihin liittyen

2. Ohjelmointiprojektit

Avoin lähdekoodi, avoin data & avoin tiede

data-intensiivisten reportointien automatisoinnit

Periaatteet & Teknologiat

  • free & open source code - vapaa & avoin lähdekoodi
  • vapaa lisensointi sallii ohjelmiston muokkauksen ja uudelleenjakamisen
    • räätälöinti aineiston/analyysin erityispiirteiden mukaan get_eurostat, get_faostat, get_WDI
    • oman koodin jakaminen ja toiveet kehittäjäyhteisön rakentamisesta
    • yliopistoissa & MOOC:ssa opetetaan avoimia ohjelmistoja
    • kustannussäästöt (lisenssikustannukset ja teknologia- & toimittajaloukut
    • vanhojen prosessien/rutiinien uudelleenohjelmoiminen
  • vapaan/avoimen mahdollisuudet (oma ohjelmistokehitys, kansallinen & kv-yhteistyö)
  • data-intensiivisten tutkimusjulkaisujen automatisoinnit
  • kestävät ja tarkoituksenmukaiset tutkimusinfrat

  • gnu/linux käyttöjärjestelmät

  • .git versionhallinta

  • R data analyysiin & visualistointiin

  • Rshiny vuorovaikutteiset data-analyysit verkkoon

  • latex - ladontajärjestelmä ohjelmoidun printin tekemiseen

  • [jekyll & bootstrap]

Miten voisin olla hyödyksi

Tutkimusprosessien virtaaviivaistaminen

  1. datojen “ketterään” käyttöönottoon
  2. datojen siivoamiseen ja manipuloimiseen liittyen rutiinien automatisoimiseen ja dokumentoimiseen
  3. analytiikan (kuvailut ja mallintaminen) demoaminen ja “standardimenetelmien” dokumentoiminen ja soveltaminen “stardardidatoille”
  4. raporttien/papereiden kirjoittamisen aputoimintojen kehittämiseen (versionhallinnat & sisäiset lähdeviitetietokannat yms.)

Jos Eu-silciä käyttää esimerkkinä, niin jo pelkästään datojen yhdistämiseen ja kuvaileviin analyyseihin kirjoitettujen rutiinien virtaviivaistaminen, dokumentoiminen ja ns. paketoiminen madaltaisi merkittävästi omaa ja muiden tutkijoiden kynnystä käyttää aineistoja. Hyväksi todettua työvirtaa olisi sitten helppo soveltaa myös muihin paljon käytettyihin datoihin.

Simuloinnit ja niiden päälle rakennettavat käyttöliittymät verkkoon

http://shiny.rstudio.com/gallery/retirement-simulation.html - ovat myös kiinnostavia ja sen tyyppistä tehdään R-yhteisössä paljon.

Datan avaamiset

Täällä FAO:ssa mun projektit rakentuu kv-organisaatioiden avoimen datan päälle. Mulla on nyt jonkin verran kokemusta ja näkemystä siitä millaiset “datan avaukset” koetaan kiinnostaviksi, ja miten ne kannattaisi tehdä (tai ainakin siitä että miten ei kannata tehdä).

Jonkin verran mulla on kokemusta myös verkkosovellusten tekemisestä avatun datan rajapintojen päälle. Mikäli dataa avataan, niin jotain omaa analytiikkasovellusta on syytä rakentaa sen päälle ainakin ihan mainosmielessä.

3. Haasteet
























Kuvausta toivottavista it-resursseista

Alla kuvattuna nykyinen ohjelmistoympäristöni ja toiveita “raudan” osalta. Kaikki ohjelmistot ovat vapaasti lisensoituja (gpl2/3, bsd, mit tms.) avoimen lähdekoodin ohjelmistoja, ja siis ilmaisia.

Rautaan kohdistuvat vaatimukset johtuvat aineistojen koosta ja ohjelmistojen erityispiirteistä esim. RAM-muistin käytön osalta.

Kuvattuna siis on ensimmäisenä pöytäkone/läppäri ja toisena suppeammin “tutkimuspalvelin”.


Pöytäkone/läppäri

Ohjelmistot

Käyttöjärjestelmä

Oletan että työkoneissa käytetään yksinomaan Windows-käyttöjärjestelmää. Sähköpostin, kalenterien ja MS Officen käyttöön se käy hyvin, mutta teknisempää työhön olisi tarpeen unix-tyyppinen ratkaisu, mieluiten linux.

Yksi vaihtoehto on asentaa linux virtuaalisena windowsin sisälle, mikä vaatii paljon resursseja koneelta, koska raskaat työt linuksissa. Mieluiten linux ja siihen virtuaalisesti sisälle windows tai vaihtoehtoisesti dualboot. (jos kalenteri + sähköpostit kännykässä)

  • Toivottava linux versio: linux Mint yksi kehityshaara debian linuxista. Yleinen vakaa distro.

Ohjelmointikielet & -ympäristöt

  • R versio >= 3.2.2
  • python versio 2.7 + versio 3.5

versiohallinta

Editorit

Dokumenttien kirjoittaminen

  • latex - tieteelliseen (ohjelmoitavaan) ladontaan (printtiä)
  • pandoc - asiakirjaformaattien väliseen kääntämiseen
  • scribus - taitto-ohjelma (kuten indesign)
  • libreOffice - toimisto-ohjelma
  • ruby - ruby-framework verkkojulkaisujen kehittämiseen
    • jekyll - staattisten jekyll bootstrap julkaisujen tekemiseen suoraan R:stä.

Paikkatieto

Grafiikka

pieniä unix-apuohjelmat, kuten

Rauta

  • RAM: ~32gt (min 16gt) - R tarvii paljon muistia
  • HD: ~500gt ssd (min: 500hdd)
  • prosessori: ~Intel i7
  • iso näyttö (4k) tai kaksi pienempää HD näyttöä (toisen jos sais pystyyn..)

Serveri/Palvelin

R ja siihen liittyvä “ohjelmistoekosysteemi” kehittyvät nopeasti. Usean käyttäjän organisaatiossa kannattaisi harkita oman linux-pohjaisen serverin hankkimista tilastoanalyysiin. Tämä helpottaa ylläpitoa ja esim. R:n vaatimaan RAM-muistia ei tarvitsisi hankkia kaikkien koneisiin.

Pääsy serverille vain talon sisältä.

Ohjelmistot

Käyttöjärjestelmä

Ohjelmistot

Rauta

  • RAM 32gt
  • 2GT hdd
  • moniydinfprosessori ~i7

Asennuksesta/ylläpidosta

Ylläpidän itse omaa vastaavia kokonaisuuksia nykyisessä työssäni, eivätkä niiden asentaminen ja ylläpito ole suuri vaiva. (asentaminen vie päivän ja ylläpito riippuu käytöstä). Käytettävät aineistot ovat sensitiivisiä joten tietoturva on ensisijaisen tärkeä.