«Χειροτεχνική» στατιστική
Στη σειρά του ΒΗΜΑ-Science για όσους θέλουν να φτιάξουν ξανά τη… σχέση τους με τα Μαθηματικά, σήμερα προσπαθούμε να καταλάβουμε το πώς προκύπτει «χειροτεχνικά» και όχι με τη μηχανική ανάγνωσή της από τους πίνακες η τιμή σημαντικότητας ή p-value, ένα εξαιρετικά χρήσιμο στατιστικό μέγεθος
- Διεθνής ποδοσφαιρίστρια έπεσε σε κώμα μετά από επίθεση του Ισραήλ στον Λίβανο
- Πότε θα καταβληθεί το έκτακτο επίδομα Χριστουγέννων και τα ποσά που θα λάβουν οι δικαιούχοι
- Γιατί εκατομμύρια άνθρωποι σε όλο τον κόσμο σταμάτησαν να αγοράζουν είδη πολυτελείας;
- «Σερ: Aπομνημονεύματα»: Οι αυτοκτονικές τάσεις, η παρανοϊκή ζήλια και ο χωρισμός με τον Σόνι Μπόνο
Την προηγούμενη φορά είχαμε αφήσει στη μέση το εξής παράδειγμα: Ενα νόμισμα ήλθε δύο φορές κορόνα (Κ, Κ) και κάνουμε την ερώτηση: Είναι μήπως ελαττωματικό το νόμισμα; Η απάντηση μπορεί να είναι: «Αν και είχαμε δύο φορές κορόνα, αυτό δεν σημαίνει κάτι για το νόμισμα». Αυτή είναι η Η0. Ενώ η ΗΑ θα λέει: «Κάτι τρέχει με το νόμισμα αυτό».
Εμείς, βήμα προς βήμα, χωρίς να κοιτάξουμε σε έτοιμο πίνακα, θα υπολογίσουμε χειροτεχνικά την p-value, που είναι, όπως θα δούμε, ένα άθροισμα πιθανοτήτων και στη στατιστική πρακτική από την τιμή της μπορούμε να καταλάβουμε ποια από τις δυο υποθέσεις πρέπει να δεχτούμε.
Με δυο ρίψεις του νομίσματος μπορούμε να έχουμε τέσσερις συνδυασμούς: (Κ, Κ), (Κ, Γ), (Γ, Κ), (Γ, Γ ). Από αυτό ξέρουμε πλέον ότι οι πιθανότητες είναι: (Κ, Κ) = (1/4), (Κ, Γ ή Γ, Κ) = (2/4), (Γ, Γ) = (1/4). Η p-value, αν θελήσουμε να την ψάξουμε σε κάποιο βάθος, προκύπτει ως άθροισμα τριών παραγόντων: 1) από την πιθανότητα να είναι κάτι «φυσιολογικά τυχαίο», εδώ το δύο φορές Κ, 2) από την πιθανότητα και κάτι άλλο να είναι εξίσου σπάνιο αλλά και πάλι τυχαίο, όπως το (Γ, Γ) και 3) από την πιθανότητα να υπάρχει κάτι ακόμη πιο σπάνιο ή πιο ακραίο. Εδώ δεν έχουμε κάτι τέτοιο, οπότε θα του αντιστοιχίσουμε την τιμή 0. Συνολικά λοιπόν η p-value σε αυτό το παράδειγμα θα προκύψει ως έξης: (1/4) + (1/4) + 0 = (1/2), δηλαδή p-value = 0,5. Και ελέγχουμε την υπόθεση: Αν και ήλθαν δύο φορές κορόνα, το νόμισμα είναι «φυσιολογικό». Συνήθως θεωρούμε πως για τιμές μικρότερες του 0,05 θα πρέπει να απορριφθεί μια υπόθεση. Αρα εδώ με 0,5 > 0,05 τη δεχόμαστε. Και όπως βλέπουμε, είναι διαφορετική εδώ η πιθανότητα να έλθουν δύο φορές κεφάλι (= 0,25) από την p-value για την περίπτωση αυτή, διότι η p-value επηρεάζεται και από την περίπτωση να έλθει (Γ, Γ), δηλαδή από το ότι υπάρχουν και άλλες περιπτώσεις εξίσου σπάνιες.
Τι λέτε για 4 κορόνες και 1 γράμματα;
Εχουμε α) 1 περίπτωση για 5 φορές Κ και β) 1 για 5 φορές Γ. Εχουμε γ) 5 περιπτώσεις για 1 Κ, 4 Γ και δ) 5 περιπτώσεις για 4 Γ και 1 Κ, ε) 10 περιπτώσεις για 2 Κ και 3 Γ και στ) 10 περιπτώσεις για 3 Κ και 2 Γ. Σύνολο: 32. Για την p-value, σύμφωνα με τα προηγούμενα, θα αθροίσουμε τις πιθανότητες για τις περιπτώσεις α), β), γ) δ): (1/32) + (1/32) + (5/32) +(5/32) = (12/32) = 0,375, που και πάλι είναι πολύ μεγαλύτερο από το 0,05, άρα δεν τρέχει κάτι με το νόμισμα.
Υπάρχουν όμως και τα παραδείγματα όπου δεν έχουμε διακριτές και απαριθμήσιμες περιπτώσεις όπως πριν, αλλά συνεχείς κατανομές αποτελεσμάτων, όπως το ύψος μιας ομάδας μαθητριών στην Α’ Γυμνασίου. Εκεί κατασκευάζεται με βάση αρκετές μετρήσεις ύψους μια κατανομή πιθανοτήτων για το κάθε ύψος που προκύπτει και έχει συνήθως τη γνωστή μορφή της καμπάνας (είναι δηλαδή μια Normal Distribution). Ας πούμε λοιπόν ότι προέκυψε το 95% των μετρηθέντων παιδιών να είναι μεταξύ 1,42 και 1,69. Και το υπόλοιπο να κατανέμεται σε 2,5% επάνω από 1,69 και 2,5% κάτω από 1,42. Ο μέσος όρος ύψους είναι (1,42 + 1,65) / 2 = 1,557. Αν μια μαθήτρια βρέθηκε ότι έχει ύψος 1.42, ανήκει άραγε σε αυτή την κατανομή με μέσο όρο 1,55 ή σε άλλη με μικρότερο μέσο όρο; Εδώ οι ακραίες ή σπάνιες περιπτώσεις είναι αυτές με την καμπύλη να έχει φτάσει στα άκρα της, όπου τα ύψη να έχουν πιθανότητα να εμφανιστούν μικρότερα από 0,025. Αθροίζοντας λοιπόν 0,025 +0,025 = 0,05 φτάνουμε στο συμπέρασμα ότι δεν μπορεί να απαντηθεί με ασφάλεια το ερώτημα.
Ανακεφαλαίωση
Επειδή κλείνει σήμερα αυτή η ενότητα της στατιστικής, να θυμίσουμε πως ξεκινήσαμε παρατηρώντας ότι όταν κάποια γεγονότα είναι τυχαία, όπως το ύψος των μαθητών μιας ηλικίας, και μετρήσουμε πολλά παιδιά, θα προκύψει μια καμπύλη σε σχήμα καμπάνας (η λεγόμενη κανονική κατανομή). Με κάποιους συλλογισμούς, στην προσπάθειά μας να εκτιμήσουμε ποια μπορεί να είναι η πραγματική κατανομή ύψους χωρίς να έχουμε μετρήσει όλους τους μαθητές μέχρι τον τελευταίο αλλά ένα δείγμα μόνο, περνάμε σε μια αντίστοιχη κατανομή όπου έχουμε πλέον την πιθανότητα για να προκύπτει το κάθε ύψος. Στη συνέχεια είδαμε ότι βοηθάει σε αυτό να εισαγάγουμε την έννοια του διαστήματος εμπιστοσύνης. Σε μια έρευνα όπου έκαναν πολλές φορές με τον ίδιο τρόπο μια δειγματοληψία, θέλοντας να βγάλουν τον μέσο όρο για το ύψος των ελληνόπουλων όταν ξεκινούν το σχολείο, αν μας έλεγαν πως το αποτέλεσμά τους διαθέτει 95% «διάστημα εμπιστοσύνης» ώστε να ισχύει για όλη την Ελλάδα, αυτό σημαίνει ότι: αν το δοκίμαζαν πολλές φορές, ας πούμε σε εκατό διαφορετικά σχολεία, στις 95 τουλάχιστον των περιπτώσεων ο πραγματικός μέσος όρος του ύψους (που όμως δεν τον γνωρίσαμε ποτέ) θα βρίσκεται μέσα σε αυτό το διάστημα.
Συχνά όμως έχουμε σε ένα πρόβλημα δυο υποθέσεις που να πρέπει να ερευνήσουμε την αλήθεια τους. Και για να απορρίψουμε τη μια, καταφεύγουμε και στη λεγόμενη p-value, που είδαμε μόλις με ποιους συλλογισμούς μπορεί να γίνει κατανοητή αλλά και να υπολογιστεί.
Πνευματική γυμναστική
- Ζητείται ο αριθμός που το τελευταίο του ψηφίο δεξιά είναι 4 και όταν αυτό το 4 το πάρουμε από εκεί και το τοποθετήσουμε ως πρώτο ψηφίο αριστερά ο νέος αριθμός είναι τέσσερις φορές μεγαλύτερος από τον προηγούμενο.
- Ρίχνουμε ένα ζάρι και αθροίζουμε τα αποτελέσματα μέχρι να πάρουμε άθροισμα μεγαλύτερο από το 12. Ποιο είναι το άθροισμα που έχει τις περισσότερες πιθανότητες να προκύψει αν επαναλάβουμε πολλές πολλές φορές τη διαδικασία;
Οι λύσεις των προηγούμενων κουίζ
1. Είχαμε μια οικογένεια σε διακοπές 2 εβδομάδων, που την πρώτη εβδομάδα ξόδεψε 200 ευρώ περισσότερα από τα τρία πέμπτα του όλου ποσού που είχε αποφασίσει να διαθέσει. Αυτό που της είχε μείνει για την επόμενη ήταν ένα ποσό μεγαλύτερο από 400 ευρώ, λιγότερα από το μισό του όλου προς διάθεση ποσού. Αν υποθέσουμε πως ξεκίνησε με ακέραιο ποσό ευρώ (χωρίς ψιλά δηλαδή), ζητούσαμε να βρεθεί ποιο μπορεί να ήταν το μεγαλύτερο ποσό που είχε αποφασίσει να ξοδέψει. Αν Π είναι το αρχικό ποσό, αφού την πρώτη εβδομάδα ξόδεψαν 3/5 M + 200 τους έμειναν Π – (3/5) Π – 200 δηλαδή (2/5) Π – 200. Και αυτά ήταν περισσότερα από Π/2-400. Αρα ισχύει (2/5)Π – 200 > (Π/2) – 400, οπότε Π < 2.000, άρα το ποσό θα ήταν το πολύ 1.999 ευρώ.
2. Σε ένα τετράγωνο χωρισμένο σε εννέα μικρότερα τετράγωνα ζητήθηκε να μπουν οι αριθμοί από το 1 έως το 9 έτσι ώστε το άθροισμα (ανά τρία) σε κάθε σειρά, σε κάθε στήλη και σε κάθε διαγώνιο να είναι ο ίδιος αριθμός. Αυτό βγαίνει βέβαια δοκιμάζοντας τυχαίους συνδυασμούς των αριθμών από 1 έως το 9. Υπάρχει όμως κάποια στρατηγική. Διότι αθροίζοντας όλους από το 1 έως το 9 βγαίνει 45. Αφού ανά τρεις θα δίνουν το ίδιο άθροισμα, αυτό θα είναι 45/3 = 15. Προφανώς για λόγους ισορροπίας στο κεντρικό τετραγωνάκι θα πρέπει να μπει το 5 και εκατέρωθεν για να βγαίνει 15 σε μια τριάδα το 9 και το 1. Αρα έχουμε την πρώτη: 9|5|1| και αυτό μας δίνει την πολύ αποτελεσματική παρατήρηση πως γύρω από το 5 θα έχουμε ζευγάρια με άθροισμα 10 δηλαδή: 1-9, 2-8, 3-7, 4-6. Στρέφοντας κατά 90 μοίρες το τετράγωνο προκύπτει φαινομενικά διαφορετική διάταξη, αλλά στην ουσία είναι μια.
8 1 6
3 5 7
4 9 2
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις