Λήψη, επεξεργασία και οπτικοποίηση δεδομένων του Οργανισμού για την Οικονομική Ανάπτυξη και Συνεργασία

Παραδείγματα στην R με δεδομένα εκπαίδευσης

Αρχικοποίηση - βιβλιοθήκες

TipΒιβλιοθήκες

Για τον χειρισμό των δεδομένων του ΟΟΣΑ και την οπτικοποίησή τους σε γραφήματα και διαδραστικούς χάρτες θα χρειαστεί η φόρτωση των παρακάτω βιβλιοθηκών στο περιβάλλον της R:

library(tidyverse)
library(scales)
library(ggthemes)
library(ggtext)
library(tidyverse)
library(scales)
library(rsdmx)
library(rnaturalearth)
library(sf)

Η βάση δεδομένων του ΟΟΣΑ

Ο ΟΟΣΑ συλλέγει, επεξεργάζεται και διαθέτει μια μεγάλη πληθώρα δεδομένων. Ειδικά για θέματα εκπαίδευσης ο χρήστης μπορεί να τα αναζητήσει εδώ: https://data-explorer.oecd.org

Όπως και άλλες βάσεις δεδομένων (Eurostat, WB) υπάρχει η δυνατότητα χρήσης online εργαλείων για στοιχειώδης οπτικοποιήσεις των δεδομένων.

Παράδειγμα λήψης δεδομένων

Ο ευκολότερος τρόπος λήψης των δεδομένων του ΟΟΣΑ είναι με τη μορφή CSV-SDMX. Για το λόγο αυτό ο χρήστης χρειάζεται να υποβάλει ένα ερώτημα μέσω URL το οποίο αναλύεται σε 5 μέρη: 1. https://sdmx.oecd.org/public/rest/data/, η βάση πρόσβασης στα δεδομένα 2. Το συγκεκριμένο σύνολο δεδομένων, πχ OECD.EDU.IMEP,DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA,1.0/all, όπου all δηλώνει το σύνολο των εγγραφών, πριν εφαρμοστούν άλλα φίλτρα 3. Περίοδος αναφοράς, πχ ?startPeriod=2020&endPeriod=2024 4. Διαστάσεις του υπερκύβου δεδομένων, πχ όλες οι διαστάσεις &dimensionAtObservation=AllDimensions 5. Ο μορφότυπος των δεδομένων (CSV, XML, JSON), πχ &format=csvfilewithlabels

url <- paste0(
  "https://sdmx.oecd.org/public/rest/data/",
  "OECD.EDU.IMEP,DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA,1.0/all",
  "?startPeriod=2020&endPeriod=2024",
  "&dimensionAtObservation=AllDimensions",
  "&format=csvfilewithlabels"
)

dat <- read.csv(url, check.names = FALSE)
head(dat)
  STRUCTURE                                           STRUCTURE_ID
1  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
2  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
3  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
4  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
5  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
6  DATAFLOW OECD.EDU.IMEP:DSD_EAG_LSO_EA@DF_LSO_NEAC_DISTR_EA(1.0)
                                                        STRUCTURE_NAME ACTION
1 Adults' educational attainment distribution, by age group and gender      I
2 Adults' educational attainment distribution, by age group and gender      I
3 Adults' educational attainment distribution, by age group and gender      I
4 Adults' educational attainment distribution, by age group and gender      I
5 Adults' educational attainment distribution, by age group and gender      I
6 Adults' educational attainment distribution, by age group and gender      I
  REF_AREA Reference area SEX   Sex    AGE                 Age   ATTAINMENT_LEV
1      AUS      Australia  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
2      AUS      Australia  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
3      AUS      Australia  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
4      AUS      Australia  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
5      AUS      Australia  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
6      AUT        Austria  _T Total Y25T64 From 25 to 64 years ISCED11A_242_252
                                                                      Educational attainment level
1 Lower secondary education, partial level completion and without direct access to upper secondary
2 Lower secondary education, partial level completion and without direct access to upper secondary
3 Lower secondary education, partial level completion and without direct access to upper secondary
4 Lower secondary education, partial level completion and without direct access to upper secondary
5 Lower secondary education, partial level completion and without direct access to upper secondary
6 Lower secondary education, partial level completion and without direct access to upper secondary
  EDUCATION_FIELD Field of education MEASURE    Measure INCOME         Income
1              _T              Total     POP Population     _Z Not applicable
2              _T              Total     POP Population     _Z Not applicable
3              _T              Total     POP Population     _Z Not applicable
4              _T              Total     POP Population     _Z Not applicable
5              _T              Total     POP Population     _Z Not applicable
6              _T              Total     POP Population     _Z Not applicable
  BIRTH_PLACE Place of birth MIGRATION_AGE Age at migration EDU_STATUS
1          _T          Total            _Z   Not applicable     ED_NED
2          _T          Total            _Z   Not applicable     ED_NED
3          _T          Total            _Z   Not applicable     ED_NED
4          _T          Total            _Z   Not applicable     ED_NED
5          _T          Total            _Z   Not applicable     ED_NED
6          _T          Total            _Z   Not applicable     ED_NED
                  Education status LABOUR_FORCE_STATUS Labour force status
1 In education or not in education                 POP          Population
2 In education or not in education                 POP          Population
3 In education or not in education                 POP          Population
4 In education or not in education                 POP          Population
5 In education or not in education                 POP          Population
6 In education or not in education                 POP          Population
  DURATION_UNEMP Unemployment duration   UNIT_MEASURE
1             _Z        Not applicable PT_POP_SEX_AGE
2             _Z        Not applicable PT_POP_SEX_AGE
3             _Z        Not applicable PT_POP_SEX_AGE
4             _Z        Not applicable PT_POP_SEX_AGE
5             _Z        Not applicable PT_POP_SEX_AGE
6             _Z        Not applicable PT_POP_SEX_AGE
                                   Unit of measure STATISTICAL_OPERATION
1 Percentage of population in the same sex and age                    SE
2 Percentage of population in the same sex and age                    SE
3 Percentage of population in the same sex and age                    SE
4 Percentage of population in the same sex and age                    SE
5 Percentage of population in the same sex and age                    SE
6 Percentage of population in the same sex and age                    SE
  Statistical operation WORK_TIME_ARNGMNT Work time arrangement QUESTIONNAIRE
1        Standard error                _Z        Not applicable          NEAC
2        Standard error                _Z        Not applicable          NEAC
3        Standard error                _Z        Not applicable          NEAC
4        Standard error                _Z        Not applicable          NEAC
5        Standard error                _Z        Not applicable          NEAC
6        Standard error                _Z        Not applicable          NEAC
                Questionnaire name FREQ Frequency of observation TIME_PERIOD
1 LSO-NEAC regular data collection    A                   Annual        2020
2 LSO-NEAC regular data collection    A                   Annual        2021
3 LSO-NEAC regular data collection    A                   Annual        2022
4 LSO-NEAC regular data collection    A                   Annual        2023
5 LSO-NEAC regular data collection    A                   Annual        2024
6 LSO-NEAC regular data collection    A                   Annual        2020
  Time period OBS_VALUE Observation value OBS_STATUS Observation status
1          NA        NA                NA          O      Missing value
2          NA        NA                NA          O      Missing value
3          NA        NA                NA          O      Missing value
4          NA        NA                NA          O      Missing value
5          NA        NA                NA          O      Missing value
6          NA        NA                NA          O      Missing value
  CONF_STATUS Confidentiality status UNIT_MULT Unit multiplier DECIMALS
1                                            0           Units        1
2                                            0           Units        1
3                                            0           Units        1
4                                            0           Units        1
5                                            0           Units        1
6                                            0           Units        1
  Decimals
1      One
2      One
3      One
4      One
5      One
6      One
names(dat)
 [1] "STRUCTURE"                    "STRUCTURE_ID"                
 [3] "STRUCTURE_NAME"               "ACTION"                      
 [5] "REF_AREA"                     "Reference area"              
 [7] "SEX"                          "Sex"                         
 [9] "AGE"                          "Age"                         
[11] "ATTAINMENT_LEV"               "Educational attainment level"
[13] "EDUCATION_FIELD"              "Field of education"          
[15] "MEASURE"                      "Measure"                     
[17] "INCOME"                       "Income"                      
[19] "BIRTH_PLACE"                  "Place of birth"              
[21] "MIGRATION_AGE"                "Age at migration"            
[23] "EDU_STATUS"                   "Education status"            
[25] "LABOUR_FORCE_STATUS"          "Labour force status"         
[27] "DURATION_UNEMP"               "Unemployment duration"       
[29] "UNIT_MEASURE"                 "Unit of measure"             
[31] "STATISTICAL_OPERATION"        "Statistical operation"       
[33] "WORK_TIME_ARNGMNT"            "Work time arrangement"       
[35] "QUESTIONNAIRE"                "Questionnaire name"          
[37] "FREQ"                         "Frequency of observation"    
[39] "TIME_PERIOD"                  "Time period"                 
[41] "OBS_VALUE"                    "Observation value"           
[43] "OBS_STATUS"                   "Observation status"          
[45] "CONF_STATUS"                  "Confidentiality status"      
[47] "UNIT_MULT"                    "Unit multiplier"             
[49] "DECIMALS"                     "Decimals"                    
dat |> 
  dplyr::filter(REF_AREA == "GRC") |> # Χώρα
  dplyr::filter(SEX == "_T") |>  # Φύλο
  dplyr::filter(AGE == "Y25T34") |> # Ηλικία
  dplyr::filter(ATTAINMENT_LEV == "ISCED11A_4") |> # Επίπεδο 
  dplyr::select(TIME_PERIOD, STATISTICAL_OPERATION, OBS_VALUE)
  TIME_PERIOD STATISTICAL_OPERATION  OBS_VALUE
1        2023                    SE  0.3119036
2        2024                    SE  0.3175122
3        2024                   OBS 12.5899191
4        2023                   OBS 12.4884901

δίνοντας ως ορίσματα: - Το όνομα του δείκτη - Τον κωδικό ή το όνομα της χώρας - Την περίοδο αναφοράς

Υπάρχει φυσικά η δυνατότητα να ορίσουμε περισσότερες χώρες, για παράδειγμα Ελλάδα και Πορτογαλία:

dat |> 
  dplyr::filter(REF_AREA %in% c("GRC", "PRT")) |> # Χώρα
  dplyr::filter(SEX == "_T") |>  # Φύλο
  dplyr::filter(AGE == "Y25T34") |> # Ηλικία
  dplyr::filter(ATTAINMENT_LEV == "ISCED11A_4") |> # Επίπεδο 
  dplyr::select(TIME_PERIOD, STATISTICAL_OPERATION, OBS_VALUE)
   TIME_PERIOD STATISTICAL_OPERATION  OBS_VALUE
1         2023                    SE  0.3119036
2         2023                    SE  0.1099811
3         2024                    SE  0.3175122
4         2024                    SE  0.1095866
5         2022                    SE  0.1279326
6         2021                    SE  0.1604132
7         2020                    SE  0.1283796
8         2020                   OBS  1.3201113
9         2021                   OBS  1.9218323
10        2022                   OBS  1.8044232
11        2024                   OBS 12.5899191
12        2024                   OBS  1.8233403
13        2023                   OBS 12.4884901
14        2023                   OBS  1.9225850

Σε αυτή την περίπτωση τα δεδομένα επιστρέφονται σε μορφή long, δηλαδή τα δεδομένα της μιας χώρας βρίσκονται κάτω από τα δεδομένα της άλλης χώρας.

Ο προσδιορισμός της χώρας μπορεί να γίνει με διαφορετικούς τρόπους: - Το όνομα, πχ Greece - Ο διψήφιος κωδικός, πχ GR - Ο τριψήφιος κωδικός, πχ GRC