Göteborgin yliopiston Quality of Government instituutti julkisti kuun vaihteessa uudet datansa. Datat ovat kattavia kokoelmia erilaisista maatason indikaattoreista. Päivitin samaan syssyyn ylläpitämäni R-paketin rqog, jonka avulla voit käyttää datoja R:ssä. Paketin voit asentaan Github:sta devtools-paketin avulla komennolla remotes::install_github("ropengov/rqog").
Paketin avulla pääset käsiksi kolmeen datakokonaisuuteen basic, standard ja oecd, joista kaikista on sekä poikkileikkausaineisto (cross-sectional) että aikasarja-aineisto (time-series). Eri datoissa on eri määrä indikaattoreita.
# A tibble: 26 × 5
code name value label class
<chr> <chr> <dbl> <chr> <chr>
1 eu_demfrate2 "Fertility rate, total" NA <NA> numeric
2 eu_demlbirthlf "Live births - females" NA <NA> numeric
3 eu_demlbirthlm "Live births - males" NA <NA> numeric
4 eu_demlbirthlt "Live births - total" NA <NA> numeric
5 eu_demmawc "Mean age of woman at childbirth" NA <NA> numeric
6 oecd_fertility_t1 "Total fertility rates" NA <NA> numeric
7 oecd_lifeexpy_g1 " Life expectancy at birth: total" NA <NA> numeric
8 oecd_lifeexpy_g2a " Life expectancy at birth: women" NA <NA> numeric
9 oecd_lifeexpy_g2b " Life expectancy at birth: men" NA <NA> numeric
10 wdi_birth "Birth rate, crude (per 1,000 people)" NA <NA> numeric
# ℹ 16 more rows
Aineistosta löytyy kolme eri hedelmällisyysasteen indikaattoria: EU:n eu_demfrate2 (Fertility rate, total), OECD:n oecd_fertility_t1 (Total fertility rates) ja Maailmanpankin wdi_fertility (Fertility rate, total (births per woman)). Tarkastellaan ensin millaiset aikasarjat näistä on ja ovat ne lähellä toisiaan.
# Valitaan avainmuuttujat: maanimi, vuosi ja indikaattoritdat <- std_ts %>%filter(year >=1980) %>%select(cname,year,oecd_fertility_t1,wdi_fertility,eu_demfrate2) %>%pivot_longer(names_to ="indikaattori", values_to ="arvo", 3:5) %>%# filtteroidaan maat geofacet::eu_grid1-datan pohjaltafilter(cname %in% geofacet::eu_grid1$name)ggplot(dat, aes(x = year, y = arvo, color = indikaattori, group = indikaattori)) +geom_path(alpha = .4) + ggrepel::geom_text_repel(data = dat %>%na.omit() %>%group_by(cname,indikaattori) %>%filter(year ==max(year, na.rm =TRUE)) %>%ungroup(), aes(label = year), show.legend =FALSE, size =3) +facet_geo(~cname, grid = geofacet::eu_grid1) +labs(title ="EU:n, OECD:n ja Maailmanpankin hedelmällisyysaste-indikaattori EU-maissa 1980 alkaen", color =NULL,caption ="Data: Quality of Government Instititute 2021")
EU:n ja OECD:n aikasarjat jatkuvat molemmat vuoteen 2018 useimmissa maissa. OECD:n aikasarja ei käsitä kaikkia EU-maita, joten valitaan tarkasteltavaksi indikaattoriksi EU:n eu_demfrate2. Taulukossa EU-maat on asetettu suuruusjärjestyksene vuoden 2018 arvon mukaan
# A tibble: 28 × 2
maa kokonaishedelmällisyysaste
<chr> <dbl>
1 France 1.88
2 Romania 1.76
3 Sweden 1.76
4 Ireland 1.75
5 Denmark 1.73
6 Czech Republic 1.71
7 United Kingdom 1.68
8 Estonia 1.67
9 Lithuania 1.63
10 Belgium 1.62
11 Latvia 1.6
12 Slovenia 1.6
13 Netherlands 1.59
14 Germany 1.57
15 Bulgaria 1.56
16 Hungary 1.55
17 Slovakia 1.54
18 Austria 1.47
19 Croatia 1.47
20 Poland 1.46
21 Portugal 1.42
22 Finland 1.41
23 Luxembourg 1.38
24 Greece 1.35
25 Cyprus 1.32
26 Italy 1.29
27 Spain 1.26
28 Malta 1.23
Lääkkeiksi ‘vauvakatoon’ Hesarin jutussa nimetään perhe-etuuksien parantaminen sekä työelämän perheystävällisyyden lisääminen. Työllisyysteen liittyviä muuttujia hakutermillä employment löytyy standard-datasta kaikkiaa 256. Valitaan niistä kahden muuttujan analyyseihin seuraavat kaksi muuttujaa:
eu_empy2554f: Employment rates: 25-34 Years, Female (percentage of active population)
eu_empy2554m: Employment rates: 25-34 Years, Male (percentage of active population)
Hatarana teoreettisena ajatuksena ilman lähdeviitteitä pidetäköön sitä, että nuorten miesten matala työllisyysaste olisi yhteydessä matalaan syntyvyyteen, samoin kuin nuorten naisten korkea työllisyysaste.
[/kode]
dat <- std_ts %>%select(cname,year,eu_empy2554f,eu_empy2554m,eu_demfrate2) %>%filter(cname %in% geofacet::eu_grid1$name) %>%rename(`2. miesten (25-34 vuotta) työllisyysaste (%)`= eu_empy2554m,`1. naisten (25-34 vuotta) työllisyysaste (%)`= eu_empy2554f) %>%na.omit() %>%pivot_longer(names_to ="indikaattori", values_to ="arvo", 3:4)minmax_data <-bind_rows( dat %>%na.omit() %>%group_by(cname) %>%filter(year ==max(year, na.rm =TRUE)), dat %>%na.omit() %>%group_by(cname) %>%filter(year ==min(year, na.rm =TRUE))) %>%ungroup()ggplot(dat, aes(x = arvo, y = eu_demfrate2, color = indikaattori, group = indikaattori)) +geom_point(alpha = .5, shape =21, size =1.5) +geom_path(alpha = .5) +geom_point(data = minmax_data) + ggrepel::geom_label_repel(data = minmax_data,aes(label = year), show.legend =FALSE, size =2.5,label.padding =unit(.5, "mm"), alpha = .6) +facet_geo(~cname, grid = geofacet::eu_grid1, scales ="free") +labs(title ="Nuorten miesten ja naisten työllisyysasteen yhteys kokonaishedelmällisyysasteeseen 1996-2017", caption ="Data: Quality of Government Instititute 2021", y ="kokonaishedelmälisyysaste",color =NULL)
Jätetään tulkinta lukijalle. Todennäköisesti sekä kysymystä että analyysiä on syytä tarkentaa.
@online{kainu2021,
author = {Kainu, Markus},
title = {Quality of Government instituutin vuoden 2021 aineistot
käytettävissä},
date = {2021-01-30},
url = {https://markuskainu.fi/posts/2021-01-30-rqog-paivitetty/},
langid = {fi}
}