Frictionless data -projektissa pyritään luomaan (taas kerran) tekstipohjainen paketointiformaatti, joka on yhteensopiva eri alustojen ja ohjelmistojen kesken. Syyskuussa 2020 työkalut löytyvät jo seuraaviin ohjelmointikieliin:
Ideana siis on että paketti sisältää json-muotoiset metadatat pakettiin kuuluvien datojen sisällöstä, sijainnista, lisensseistä sekä teknisistä spesifikaatioista. Eri kielille hehitetyillä työkaluilla nämä tiedot on helppo lukea kullekin kielelle ominaisella tavalla.
Seuraavaksi katsotaan DVV:n uutta dataa tarkemmin R-kielen avulla.
Aluksi ladataan zipattu paketti levylle, puretaan se kansioon sekä listataan paketista löytyvät data.
Sieltä käy ilmi mm. datatiedostojen sijainti (./data) sekä schema-kohdan alta vielä toistamiseen datojen kenttien tiedot.
[/kode]
resources$schema$fields[[1]] %>%as_tibble()
Nyt kun on tiedossa datojen sijainnit, voimme ladata datat R:ään. Sivun alussa olevasta tiedostolistauksesta saattoi huomata että datat ovat sekä maakunnittaisina tiedostoina maakuntakoodilla merkittynä sekä koko maan tiedostona. Maakuntatatoista suurin on Uudenmaan data ja tehdään sen pohjalta pieni kartta.
Koska sarake-erottimena on pilkku, R:ssä meille riittää kun luetaan data normaalilla read.csv-funktiolla. Koska datat ovat melko suuria, käytän readr-paketin funktioita tässä esimerkissä
Datat näyttää oikein fiksulta, rakennuksia on yhteensä . Piiretään datan rakennuksista vielä loppuun kartta niin että siinä ovat kaikki Helsingin Mannerheimintiellä olevat rakennukset.
[/kode]
manskun_rakennukset <- d %>%filter(municipality =="091", street =="Mannerheimintie") manskun_rakennukset
Datan sarakkeiden kuvauksessa kerrotaan building_use-sarakkeesta seuraavaa: . Eli luetaan se mukaan osoitteesta: http://www.stat.fi/meta/luokitukset/rakennus/001-2018-07-12/tekstitiedosto.txt
Mannerheimintiellä rakennuksia on 179 ja kartalla ne sijoittuvat näin käyttötarkoituksen mukaan:
Aivan lopuksi piirretään vielä kartta kaikista datan Helsingin rakennuksista 500m x 500m kuusikulmio-ruuduissa. Tolpan pituus tarkoittaa kussakin ruudussa sijaitsevien rakennusten lukumäärää.
@online{kainu2020,
author = {Kainu, Markus},
title = {Kitkaton data, Suomen rakennukset ja R},
date = {2020-09-02},
url = {https://markuskainu.fi/posts/2020-08-02-dvv-kitkatondata-r/},
langid = {fi}
}