Ο νόμος του Benford, τα επιδημιολογικά δεδομένα και το ενημερωτικό κενό

Η μεγάλη φασαρία για τα “διπλά βιβλία” του ΕΟΔΥ, έχει να κάνει μάλλον με τη χαοτική διαχείριση της πανδημίας ή την εγγενή στην κυβέρνηση τάση να πολλαπλασιάζει τις απευθείας αναθέσεις για πελατειακούς λόγους, παρά με κάποιο σχέδιο για απόκρυψη κρουσμάτων. Όπως πλέον είναι κοινή διαπίστωση και έχω επισημάνει και εγώ σε παλιότερα σημειώματα, η δημοσίευση (και πιθανόν και η συλλογή) πληροφοριών και δεδομένων για την πανδημία από τον ΕΟΔΥ είναι ελλιπέστατη, πιθανώς εξ αυτού ακριβώς του οργανωτικού χάους.

Του Μιχάλη Παναγιωτάκη – ΚΟΣΜΟΔΡΟΜΙΟ

Ταυτόχρονα, δεν υπάρχει μια σαφής περιγραφή για τον τρόπο και τα κριτήρια της διεξαγωγής των τεστ, για τη μεθοδολογία δηλαδή της καταγραφής των κρουσμάτων, ενώ – μεταξύ άλλων – η χρονική σειρά των στοιχείων των κρουσμάτων που δημοσιεύει ο ΕΟΔΥ δεν ανταποκρίνεται στον χρόνο δειγματοληψίας, ούτε ο αριθμός των τεστ παραμένει σταθερός.

Την ένδεια δεδομένων αρνήθηκε ο Πρόεδρος του ΕΟΔΥ κ. Αρκουμανέας απαντώντας γενικόλογα στις εξαιρετικά εύστοχες ερωτήσεις του Γιώργου Σακκά του News247. Ο κ. Αρκουμανέας επέμεινε πως η έκθεση του ΕΟΔΥ “είναι πληρέστατη”, συγκρίνοντάς την με τις εκθέσεις “άλλων χωρών”. Πρόκειται ή για άγνοια της πραγματικότητας, ή για εσκεμμένη διαστροφή της. Ο Γιάννης Γορανίτης στο Inside Story, έχει γράψει πρόσφατα λεπτομερώς, σε ένα εξαιρετικά ενδιαφέρον και τεκμηριωμένο άρθρο, τις ελλείψεις των δεδομένων που παρέχει ο ΕΟΔΥ, παρουσιάζοντας ταυτόχρονα τα, απείρως αναλυτικότερα, δεδομένα που προσφέρουν ευρωπαϊκές χώρες.

Κάποια στιγμή θα πρέπει η Ελληνική διοίκηση να μάθει τι σημαίνει ανοιχτά δημόσια δεδομένα, ιδίως σε ό,τι αφορά τους πολίτες και τα ΜΜΕ. Είναι ζήτημα διαφάνειας και ενημέρωσης αλλά, όπως έχουν επισημάνει και πολλοί επιδημιολόγοι, και στατιστικής επάρκειας για των επιστημονικών πορισμάτων και προβλέψεων. Η διαφανής, έγκαιρη και πλήρης δημοσιοποίηση των δεδομένων της πανδημίας έχει από νωρίς επισημανθεί πως είναι ένα βασικό εργαλείο διαχείρισής της. Ενδέχεται δε να συμβάλει έστω και λίγο, στην αντιμετώπιση της συνωμοσιολογικής πανδημίας γύρω από τον SARS-CoV-2….

Ο νόμος του Benford και η ακεραιότητα των δεδομένων

Αλλά τι γίνεται με τα δεδομένα που όντως παρέχει ο ΕΟΔΥ; Μπορούμε να σταθμίσουμε με κάποιον τρόπο την αξιοπιστία τους; Έστω και χονδρικά;

Αν και για να απαντηθεί αυτή η ερώτηση θα πρέπει να γνωρίζουμε τον πλήρη κύκλο του συστήματος καταγραφής, τις αδυναμίες του και τα πιθανά σημεία αστοχίας, υπάρχει ένα εργαλείο, αμιγώς στατιστικό που έχει ήδη χρήση στην ανάλυση δεδομένων και στον εντοπισμό προβλημάτων κάθε είδους σε μεγάλα σύνολα δεδομένων

Το εργαλείο αυτό μας το προσφέρει ο νόμος του Benford (Μπένφορντ – ΝτΜ) για την κατανομή των ψηφίων ενός στοχαστικά (πιθανοκρατικά) παραγόμενου συνόλου. Χρησιμοποιείται σε ένα ευρύτατο φάσμα ανάλυσης δεδομένων: από τον εντοπισμό απάτης και ατασθαλιών σε λογιστικά και οικονομικά συμφραζόμενα, μέχρι τον έλεγχο της “φυσικότητας” των πειραματικών δεδομένων σε ένα άρθρο. Είναι εργαλείο ελέγχου λοιπόν, το οποίο δε χρησιμοποιείται μεν ως αποφασιστικό για την ακεραιότητα μιας χρονοσειράς ή ενός συνόλου δεδομένων, αλλά είναι χρήσιμο στο να εντοπίζει πιθανά “ύποπτα” σύνολα δεδομένων προκειμένου να αναλυθούν και να διερευνηθούν περαιτέρω.

Η βασική ιδέα

Σε μια μεγάλη γκάμα στοχαστικών δεδομένων, που παράγονται από διαδικασίες ενδιάμεσες της απόλυτης τυχαιότητας και του υπερπροσδιορισμού (δηλαδή δεν περιλαμβάνουν ούτε τα ψηφία των κληρώσεων του τζόκερ, ούτε τους αριθμούς των τηλεφώνων του τηλεφωνικού καταλόγου) υπάρχει μια κανονικότητα στον τρόπο που κατανέμονται τα ψηφία των καταγεγραμμένων αριθμών. Το ψηφίο 1 εμφανίζεται ως πρώτο ψηφίο περίπου στο 30% των αριθμών (και όχι στο 1/9 όπως πρόχειρα θα σκεφτόταν κανείς πως θα ίσχυε), το ψηφίο 2, στο 17% κτλ όπως δείχνει το κάτω γράφημα.

Η εφαρμογή του ΝτΜ όπως είπαμε με τον έναν ή άλλο τρόπο αφορά από τα λογιστικά βιβλία μέχρι την έκταση των λιμνών, και από τις τιμές των φυσικών σταθερών μέχρι την κατανομή followers στο twitter. Όλα αυτά τα φαινόμενα διέπονται με έναν “μαγικό” τρόπο από την ίδια στατιστική κατανομή της διάταξης ψηφίων των αριθμών που τα περιγράφουν.

Εδώ να θυμίσω μια προηγούμενη χρήση του νόμου του Μπένφορντ που αφορούσε ευθέως την Ελλάδα:

Στις 28 Απριλίου του 2011, τέσσερις Γερμανοί οικονομολόγοι, οπλισμένοι με τον νόμο του Μπένφορντ ανακάλυπταν τον τροχό των Greek Statistics. Με δημοσίευσή τους στο German Economic Review έδειξαν πως τα δημοσιονομικά στοιχεία της Ελλάδας μεταξύ 1999 και 2009, ήταν εκείνα μεταξύ των χωρών της ευρωζώνης που απέκλιναν περισσότερο από την κατά Μπένφορντ κατανομή των πρώτων ψηφίων. Η Ελλάδα ήταν η πρώτη σε απόκλιση αλλά όχι η μόνη: αντίθετα από την Ελλάδα ούτε το Βέλγιο, ούτε ή Αυστρία που είχαν απόκλιση πέραν του 5% (μετρημένη μέσω της στατιστικής χ², που μετράει την απόκλιση δεδομένων από μια δοθείσα κατανομή) δεν διερευνήθηκαν και δεν γνώρισαν τα δημοσιονομικά βασανιστήρια της τρόικα. H τιμή του χ² για την Ελλάδα στη γερμανική αυτή ανάλυση ήταν λίγο πάνω από το 18 – αυτό το κρατάμε για να αποτελέσει μέτρο σύγκρισης παρακάτω – και αυτό μεταφράζεται σε μόλις 2% πιθανότητα η απόκλιση από την κατανομή Μπένφορντ να οφείλεται στην τύχη.

Δεν προκαλεί λοιπόν έκπληξη πως η εξάπλωση της πανδημίας του COVID-19 μπήκε στο μικροσκόπιο του νόμου του Μπένφορντ. Ήδη από το ξέσπασμά της, αλλεπάλληλες έρευνες σε όλο τον κόσμο εξέτασαν την κατανομή του κατακλυσμού των δεδομένων σε όλο τον κόσμο. Τον Μάιο, στο περιοδικό Nature δημοσιεύτηκε μια πρώτη εκτίμηση για την απόκλιση από τον νόμο του Μπένφορντ. Στο Economics Letters τον Σεπτέμβριο, στο IJHS τον Οκτώβριο (για τη Βραζιλία), και πολλά άλλα ακόμα. Η χρήση του νόμου του Μπένφορντ για την αξιολόγηση της ποιότητας των επιδημιολογικών δεδομένων δεν ξεκίνησε καν από την πανδημία του COVID-19, αλλά έχει παλιότερη χρήση.

Τούτων δοθέντων, και του γεγονότος ότι οι σχετικοί υπολογισμοί είναι σχετικά εύκολοι (και γίνονται και σε εύκολα διαθέσιμα υπολογιστικά φύλλα), αποφάσισα να δοκιμάσω να υπολογίσω την απόκλιση από την κατανομή Benford των δεδομένων για τη χώρα μας, αλλά και για κάποιες άλλες, σε όλη την περίοδο της πανδημίας. Τα βασικά αποτελέσματα απεικονίζονται παρακάτω.

Οριζόντια είναι τα πρώτα ψηφία, και στον κάθετο άξονα οι τιμές της συχνότητάς εμφάνισής τους στο δείγμα. Με μπλε είναι η κατανομή Μπένφορντ που είναι και η κατανομή αναφοράς. Η ανάλυση έγινε με βάση τα δεδομένα του ECDC από την εμφάνιση του πρώτου κρούσματος (ή θανάτου) και της 6/12/2020.

Οι τιμές του χ² στην περίπτωση των συνολικών κρουσμάτων για την Ελλάδα ήταν πάνω από 46 για τα κρούσματα (που πρακτικά σημαίνει μηδενική πιθανότητα η απόκλιση να οφείλεται στην τύχη) αλλά 5,6 για τους θανάτους που δείχνει απόλυτη συμβατότητα με την κατανομή Benford.

Η καταγραφή των θανάτων εν ολίγοις, περνάει από την αξιολόγηση, η καταγραφή των κρουσμάτων όχι. Η ασυμφωνία αυτή είναι χαρακτηριστική και άλλων χωρών, αλλά στην Ελλάδα έχει την υψηλότερη διαφορά από όσες χώρες εξετάσαμε.

Βέβαια, δεν τελειώνει εδώ η συζήτηση. Στη σχετική μέχρι τώρα βιβλιογραφία επισημαίνεται και το ότι το χ² ενδέχεται να μην είναι το βέλτιστο μέτρο για μεγάλα σύνολα δεδομένων (εδώ για παράδειγμα), αλλά και το ότι η φάση της καταστολής μέσω των περιορισμών δεν υπακούει κατ’ ανάγκην στην κατανομή Μπενφορντ.

Και στην πρώτη ένσταση όμως οι ανάλογες μετρικές που προτείνονται (στατιστική Kuiper, ευκλείδια απόσταση και παραλλαγές της κτλ) φαίνεται να συγκλίνουν στο ίδιο ακριβώς συμπέρασμα: στην απόκλιση της κατανομής των κρουσμάτων από τον ΝτΜ και την μη-απόκλιση του αριθμού των θανάτων. Ενώ όσο για τη δεύτερη, η εκτίμηση του χ² στην χώρα μας την περίοδο ανάπτυξης και ξεσπάσματος του δεύτερου κύματος είναι περίπου (>40) η ίδια:

Αντίθετα, η μόνη περίοδος όπου τα κρούσματα ακολουθούσαν σε πολύ μεγάλο βαθμό την κατανομή Μπένφορντ ήταν η πρώτη: από την αρχή μέχρι τις 14/7

Ας σημειώσουμε όμως πως η απόκλιση των κρουσμάτων δεν είναι Ελληνικό φαινόμενο μόνο. Εξετάζοντας μια σειρά από άλλες Ευρωπαϊκές χώρες βλέπει κανείς πως η Ελλάδα είναι η πλέον αποκλίνουσα (στην ανάλυση της πλήρους χρονοσειράς δεδομένων), αλλά όχι η μόνη.

Κάτω από το όριο σημαντικότητας του 0.05 (p-value) για τα κρούσματα – δηλαδή σε καλή συμφωνία με την κατανομή του Μπένφορντ – βρίσκονται λίγες χώρες: η Γερμανία, το Ηνωμένο Βασίλειο, το Ισραήλ και η Γαλλία (βλ. κάτω, χ²~14):

Και αντίθετα με την Ελλάδα, η Γαλλία και η Γερμανία μοιάζει να έχουν όλο και πλησιέστερη κατανομή με την κατανομή Μπένφορντ όσο εστιάζουμε στην περίοδο του δεύτερου κύματος.

Από την άλλη, εξαιρετικά υψηλή απόκλιση δεδομένων για τα κρούσματα (μικρότερη από την Ελλάδα όμως) έχουν και χώρες όπως η Πορτογαλία, η Ρουμανία, το Βέλγιο και η Ιταλία…

Εν καταλείδι

Ας διευκρινίσουμε εδώ το εξής: Το τεστ Μπένφορντ δεν είναι ένα αποφασιστικό τεστ. Δεν δηλώνει κατ’ανάγκην κάποια λαθροχειρία, ούτε καν κάποιο μείζον σφάλμα. Το τεστ χρησιμοποιείται στη διερεύνηση λογιστικών ατασθαλιών, εγκυρότητας πειραματικών δεδομένων κτλ ως καμπανάκι: ότι υπάρχει κάτι που αξίζει να διερευνηθεί.

Η απόκλιση στα δεδομένα που προέρχονται από τον ΕΟΔΥ για τα κρούσματα, πρέπει να διερευνηθεί όχι μόνο στατιστικά αλλά μεθοδολογικά και πρακτικά. Μπορεί να οφείλεται στην καθήλωση της πανδημίας σε πολύ χαμηλά επίπεδα για πολύ καιρό, στη σχεδόν ad hoc αυξομείωση του αριθμού των τεστ, στην ανομοιογένεια της παραγωγής στοιχείων στον χώρο και στον χρόνο, στην μεθοδολογία άντλησης των δεδομένων, ή απλά σε κάποια ιδιομορφία των χαρακτηριστικών της πανδημίας που δημιουργεί σε πολλές χώρες κάποια συστηματική απόκλιση από τα προβλεπόμενα (σημειώνω: από μια γρήγορη δοκιμή των στοιχείων σε επίπεδο περιφέρειας, παρατηρεί κανείς πως περιφέρειες όπως η Κεντρική Μακεδονία, τα έχουν πάει καλύτερα από περιφέρειες όπως η Θεσσαλία).

Το θέμα ενδέχεται να χρήζει μιας πληρέστερης διερεύνησης: ειδικότεροι από εμένα μπορούν να εκτιμήσουν τη σημασία της παρέκκλισης στον αριθμό κρουσμάτων, αλλά και της μη παρέκκλισης στον αριθμό θανάτων, να υπολογίσουν αναλυτικότερα όλες τις παραμέτρους του νόμου του Μπένφορντ (δεν σταματά στην κατανομή του πρώτου ψηφίου) και να διερευνήσουν π.χ. τμηματικά την εφαρμοσιμότητα του ΝτΜ σε δεδομένα από διαφορετικές περιφέρειες της Ελλάδας και διαφορετικές χρονικές περιόδους.

Όπως και να έχει, η αδυναμία στην παραγωγή δημόσιων, αξιόπιστων και ολοκληρωμένων στατιστικών στοιχείων στη χώρα μας, με η χωρίς τον νόμο του Μπένφορντ, εκκρεμεί. Και δεν είναι θέμα κάποιας υπεραναλυτικής διάθεσης, αλλά θέμα διαφάνειας και ενημέρωσης.

Όλα τα δεδομένα που χρησιμοποίησα είναι δημόσια διαθέσιμα στο ECDC, και σε επίπεδο περιφερειών στο iMEdD. Δεν υπάρχουν δυστυχώς σε μηχαναγνώσιμη μορφή, από όσο ξέρω στον ΕΟΔΥ. Αν ενδιαφέρεται κανείς να επαναλάβει την επεξεργασία και θέλει βοήθεια με τον υπολογισμό ας επικοινωνήσει στο email του Κοσμοδρομίου.