Εξωτερικοί συνεργάτες

Ομαδα

Οι εξωτερικοί μας συνεργάτες

male avatar

Γεώργιος Γούπος

Τεχνικός

male avatar

Ιάσονας Τζίμας

Τεχνικός

female avatar

Μαρία Χατζηδημητρίου

Τεχνικός

male avatar

Ορέστης Τζάος

Τεχνικός

female avatar

Βασιλική Σαββοπούλου

Τεχνικός

female avatar

Ελευθερία Γιάμα

Τεχνικός

male avatar

Σεραφείμ Μαμαλιός

Τεχνικός

female avatar

Φωτεινή Τσαντέ

Τεχνικός

male avatar

Ευάγγελος Μακρής

Τεχνικός

male avatar

Δημήτρης Έξαρχος

Τεχνικός

Πληροφορίες

Τρόπος διεξαγωγής της ανάλυσης

  1. Εισαγωγή στη μεθοδολογία της ανάλυσης με το πακέτο survey της R

Για την ανάλυση των δεδομένων PISA χρησιμοποιήθηκε η γλώσσα προγραμματισμού R και συγκεκριμένα το εξειδικευμένο πακέτο survey, το οποίο έχει σχεδιαστεί για να λαμβάνει υπόψη την πολύπλοκη δειγματοληπτική σχεδίαση που χρησιμοποιείται σε διεθνείς έρευνες, όπως αυτή του ΟΟΣΑ. Τα δεδομένα του PISA προέρχονται από πολύπλοκα δείγματα με σταθμίσεις (weights), πολυσταδιακή στρωματοποίηση (strata), συμπερίληψη μονάδων ανά συστάδες (clusters), καθώς και προσαρμοσμένες μεθόδους υπολογισμού της αβεβαιότητας, όπως οι αναπαραγωγικοί συντελεστές Fay και Balanced Repeated Replication (BRR). Η επιλογή του survey κρίθηκε κατάλληλη επειδή επιτρέπει την πλήρη εφαρμογή αυτών των τεχνικών, διατηρώντας την εγκυρότητα των εκτιμήσεων και των στατιστικών ελέγχων.

  1. Στατιστικοί έλεγχοι: t-test για ποσοτικές και F-test για κατηγορικές μεταβλητές

Για την ανάλυση ποσοτικών μεταβλητών εφαρμόστηκε ο t-έλεγχος, όπως υλοποιείται στη συνάρτηση svyttest() του πακέτου survey, ο οποίος είναι κατάλληλος για τη σύγκριση μέσων όρων μεταξύ δύο ομάδων όταν τα δεδομένα προέρχονται από πολύπλοκα δείγματα. Η συνάρτηση λαμβάνει υπόψη τα βάρη, τη συσταδοποίηση και τη στρωματοποίηση, αποδίδοντας με ακρίβεια την αβεβαιότητα των εκτιμήσεων. Για τις κατηγορικές μεταβλητές χρησιμοποιήθηκε ο F-έλεγχος, όπως υλοποιείται στη svychisq(), αντί του κλασικού Χ². Ο έλεγχος αυτός δεν είναι ο κλασικός F της ανάλυσης διακύμανσης (ANOVA), αλλά μια προσαρμοσμένη εκδοχή που λαμβάνει υπόψη τη σχεδίαση του δείγματος. Στην περίπτωση που χρησιμοποιούνται επαναληπτικές μέθοδοι εκτίμησης διακύμανσης, όπως BRR με μέθοδο Fay, το svychisq() υπολογίζει τη στατιστική και την αβεβαιότητα αποκλειστικά μέσω των επαναληπτικών δειγμάτων. Η προσέγγιση αυτή ενσωματώνει τη στρωματοποίηση, τη συσταδοποίηση και τα βάρη, αποδίδοντας πιο αξιόπιστες εκτιμήσεις της στατιστικής σημαντικότητας συγκριτικά με τον απλό Χ², ο οποίος αγνοεί τη σύνθετη σχεδίαση και μπορεί να οδηγήσει σε υποεκτίμηση ή υπερεκτίμηση της αβεβαιότητας.

  1. Δείγματα βάσει σχολείου και μαθητών: διαφορετικά design

Η ανάλυση μπορεί να πραγματοποιηθεί είτε σε επίπεδο σχολείου είτε σε επίπεδο μαθητή, και για κάθε περίπτωση απαιτείται διαφορετική προσέγγιση στη δειγματοληπτική σχεδίαση (survey design). Στην περίπτωση ανάλυσης βάσει σχολείων, το design ορίζεται μέσω της συνάρτησης svydesign() με ρητή δήλωση των clusters, των strata, και του αντίστοιχου σχολικού βάρους. Αντίθετα, στην ανάλυση βάσει μαθητών, σύμφωνα με τις οδηγίες του ΟΟΣΑ, χρησιμοποιείται η συνάρτηση svrepdesign(), η οποία βασίζεται στο κύριο μαθητικό βάρος (W_FSTUWT) και στα 80 replicate weights (W_FSTR1 έως W_FSTR80). Τα replicate weights έχουν κατασκευαστεί με μέθοδο BRR και Fay’s adjustment. Η χρήση τους εξασφαλίζει σωστή εκτίμηση της διακύμανσης και του σφάλματος.

  1. Ρόλος των σταθμίσεων (weights), strata, clusters και μέθοδοι BRR/Fay

Οι σταθμίσεις (weights) είναι κρίσιμες για την εξασφάλιση της αντιπροσωπευτικότητας του δείγματος. Το PISA παρέχει διαφορετικά βάρη (π.χ. final student weight, school weight, replicate weights), τα οποία προσαρμόζονται για μη απόκριση, τον σχεδιασμό του δείγματος και τις διαφοροποιήσεις στην πιθανότητα επιλογής. Οι μέθοδοι BRR (Balanced Repeated Replication) με τροποποίηση Fay (Fay’s BRR) (με τυπική τιμή ρ = 0.5) χρησιμοποιούνται για τον αξιόπιστο υπολογισμό της διακύμανσης και των τυπικών σφαλμάτων.

  1. Δεκαδικοί βαθμοί ελευθερίας στους F-test: αιτία και σημασία

Ένα αξιοσημείωτο χαρακτηριστικό των F-tests σε αναλύσεις με επαναληπτικά βάρη (replicate weights) είναι ότι οι βαθμοί ελευθερίας (degrees of freedom, df) μπορεί να προκύπτουν ως δεκαδικοί αριθμοί. Αυτό οφείλεται στο γεγονός ότι το πακέτο survey δεν χρησιμοποιεί τους κλασικούς θεωρητικούς df, αλλά εφαρμόζει προσεγγιστικές μεθόδους, όπως η Satterthwaite approximation, για την εκτίμηση των df. Η εκτίμηση αυτή λαμβάνει υπόψη τόσο την πληροφορία που ενσωματώνεται στα replicate weights όσο και την πολυπλοκότητα της σχεδίασης (π.χ. στρωματοποίηση, συσταδοποίηση). Η χρήση δεκαδικών df επιτρέπει ακριβέστερη εκτίμηση της αβεβαιότητας και μειώνει τον κίνδυνο υπερεκτίμησης της στατιστικής ισχύος που θα μπορούσε να προκύψει αν χρησιμοποιούνταν απλοί, ακέραιοι βαθμοί ελευθερίας όπως σε συμβατικά δείγματα.

  1. Δεκαδικοί αριθμοί στα περιγραφικά στατιστικά

Στα δεδομένα του PISA, οι αναλύσεις πραγματοποιούνται με τη χρήση σταθμισμένων τιμών (βάρη), τα οποία είναι συχνά δεκαδικοί αριθμοί, ώστε τα αποτελέσματα να αναπαριστούν με ακρίβεια τον μαθητικό πληθυσμό κάθε χώρας. Για τον λόγο αυτό, οι συχνότητες που προκύπτουν από περιγραφικές στατιστικές ενδέχεται να εμφανίζονται ως δεκαδικοί αριθμοί. Αυτό είναι απολύτως λογικό, καθώς δεν πρόκειται για απλές καταμετρήσεις του δείγματος, αλλά για εκτιμήσεις του αντίστοιχου πληθυσμού.

  1. Συμπεράσματα

Η επιλογή του survey πακέτου της R, η χρήση t-test και ειδικά του F-test, καθώς και η σωστή εφαρμογή του σχεδίου δειγματοληψίας σύμφωνα με τις οδηγίες του ΟΟΣΑ, εξασφαλίζουν τη μεθοδολογική εγκυρότητα και στατιστική αξιοπιστία της ανάλυσης. Η απόφαση να μη χρησιμοποιηθεί ο Χ² οφείλεται στο ότι δε λαμβάνει υπόψη τη δομή των δεδομένων, και θα παρήγαγε λανθασμένα ή υπεραισιόδοξα συμπεράσματα. Επιπλέον, οι δεκαδικοί βαθμοί ελευθερίας και η χρήση BRR/Fay επιτρέπουν την ακρίβεια στην εκτίμηση των σφαλμάτων και της σημαντικότητας.

Scroll to Top