Ακόμη και τα μικροτσίπ στους υπολογιστές μας είναι εσφαλμένα, κάνοντας «σιωπηλά» σφάλματα που περνούν απαρατήρητα. Εδώ έρχεται ο καθηγητής Αρχιτεκτονικής Υπολογιστών του Πανεπιστημίου Αθηνών Δημήτρης Γκιζόπουλος και η ερευνητική του ομάδα, αφού έχουν ανατεθεί από τον Μέτα να αξιολογήσουν το εύρος του προβλήματος και να το περιορίσουν.
Οι χρήστες βασίζονται σε μικροτσίπ για να κάνουν σωστά τη δουλειά τους όταν αναζητούν πληροφορίες σε μια μηχανή αναζήτησης, ελέγχουν τους λογαριασμούς τους στο e-banking και εκτελούν χιλιάδες άλλες τέτοιες εργασίες. ή οποιαδήποτε άλλη πληροφορία είναι σωστή.
Αυτή η εμπιστοσύνη δικαιολογήθηκε από τα ευρήματα των ειδικών που έκαναν τον έλεγχο για εμάς και διαπίστωσαν ότι η πιθανότητα λάθους ήταν πρακτικά απειροελάχιστη. Αυτό συνέβαινε, τουλάχιστον, έως ότου εμφανίστηκε το Meta (τότε Facebook) τον Φεβρουάριο του 2021 και δημοσίευσε μια αναφορά που έλεγε ότι τα λεγόμενα «σιωπηλά σφάλματα» ήταν πολύ πιο συχνά, εμφανιζόμενα σε ένα στα χίλια τσιπ υπολογιστών. Το εύρημα προκάλεσε έναν μικρό σεισμό στην τεχνολογική κοινότητα που αυξήθηκε μόνο όταν η Google συνέχισε να επιβεβαιώνει τα ευρήματα.
Ο Μέτα δεν έχασε καθόλου χρόνο στέλνοντας ένα κάλεσμα στη διεθνή ακαδημαϊκή κοινότητα αναζητώντας μια απάντηση στο πρόβλημα.
Η πρόταση του Πανεπιστημίου Αθηνών ήταν μεταξύ πέντε που εγκρίθηκε από τη Meta, με τις άλλες να προέρχονται από κορυφαία αμερικανικά πανεπιστήμια Stanford, Carnegie Mellon και Northeastern, καθώς και από το Πανεπιστήμιο της Βρετανικής Κολομβίας του Καναδά.
«Είναι ένα σημαντικό επίτευγμα που λέει για το υψηλό επίπεδο των πανεπιστημίων και των ερευνητών μας, ακόμη και στον τομέα της τεχνολογίας αιχμής», λέει ο καθηγητής Γκιζόπουλος, σημειώνοντας ότι η πρόταση της ομάδας του ήταν μία από τις 62 από 54 πανεπιστήμια σε όλο τον κόσμο που υποβλήθηκαν. στο Μέτα.
«Υπάρχουν πολλοί λόγοι για τους οποίους ένας υπολογιστής μπορεί να μην λειτουργεί σωστά. Μπορεί ο μικροεπεξεργαστής να μην έχει σχεδιαστεί σωστά ή να μην έχει συναρμολογηθεί σωστά. Θα μπορούσε να είναι περιβαλλοντικό όπως η ακτινοβολία και οι θερμοκρασίες. ή θα μπορούσε επίσης να είναι φθορά από έντονη, μακροχρόνια χρήση», εξηγεί.
«Και οι τέσσερις από αυτούς τους λόγους μπορεί να δημιουργήσουν προβλήματα στον τρόπο λειτουργίας των προγραμμάτων, αλλά αυτό δεν είναι κάτι νέο. Αυτό που ξέραμε, ωστόσο, ήταν ότι τα προβλήματα σχετίζονταν κυρίως με τις διάφορες εξωτερικές μονάδες δίσκου. Δεν γνωρίζαμε ότι το πρόβλημα ήταν τόσο εκτεταμένο στην κεντρική μονάδα επεξεργασίας (CPU)».
Ο Γκιζόπουλος σημειώνει ότι το υλικό και το λογισμικό του υπολογιστή είναι εξοπλισμένο με κώδικα που εντοπίζει και διορθώνει λάθη και προβλήματα συνεχώς, χωρίς ο χρήστης να τα γνωρίζει. Στέλνουν επίσης στον χρήστη ένα «μήνυμα», όπως μια κενή οθόνη, που υποδεικνύει ότι κάτι δεν πάει καλά και πρέπει να αντιμετωπιστεί. Αυτό δεν συμβαίνει, ωστόσο, με την CPU, όπου τα σφάλματα είναι πρακτικά μη ανιχνεύσιμα σε επίπεδο υλικού, επομένως είναι «αθόρυβα».
«Αν προσθέσω πέντε συν επτά στο Excel και δεν μου δώσει 12, το ξέρω αμέσως», λέει ο Γκιζόπουλος. «Αλλά δεν χρησιμοποιούμε το Excel για τόσο απλή αριθμητική. Μπορεί να πληκτρολογήσω 11.356 πολλαπλασιαζόμενο επί 145,8 και θα μου δώσει ένα αποτέλεσμα που μπορεί να καθορίσει αν αγοράσω αυτοκίνητο ή να μου πει πόσα χρήματα έχω στην τράπεζα. Ελέγχετε ποτέ το αποτέλεσμα που σας δίνει το Excel;»
Η Meta και η Google εντόπισαν το πρόβλημα επειδή, σε αντίθεση με τους περισσότερους χρήστες, δεν έχουν έναν φορητό υπολογιστή που να λειτουργεί για λίγες ώρες την ημέρα, αλλά έχουν δεκάδες εκατομμύρια μηχανές, με επεξεργαστές 8 πυρήνων, που λειτουργούν 24 ώρες το 24ωρο, 7 ημέρες την εβδομάδα σε μυριάδες προγράμματα.
«Η συνειδητοποίηση ότι ένα στα χίλια τσιπ CPU παρουσιάζει σφάλματα είναι συγκλονιστική. Αυτό σημαίνει ότι σε οποιοδήποτε γραφείο όπου δουλεύουν χιλιάδες μάρκες, πολλές είναι ελαττωματικές και κανείς δεν ξέρει ποιες», λέει ο Έλληνας ακαδημαϊκός.
«Εάν το πρόγραμμα που εκτελείται στον υπολογιστή δεν χρησιμοποιεί λάθος αριθμητική μονάδα, τότε όλοι οι υπολογισμοί του θα είναι σωστοί. Αν, όμως, το κάνει και ο υπολογιστής συνεχίσει να κάνει την ίδια ενέργεια, το αποτέλεσμα που παράγει είναι πάντα λάθος, οπότε το λάθος είναι δύσκολο να εντοπιστεί», προσθέτει ο Γκιζόπουλος.
Οι προσομοιώσεις
«Το ποσοστό εμφάνισης σφαλμάτων εξαρτάται από το υλικό, το λογισμικό και τις συνθήκες», εξηγεί ο Γκιζόπουλος. «Εξαρτάται από τη θερμοκρασία δωματίου, την ηλικία του μηχανήματος, το υψόμετρο και άλλους παράγοντες. Μιλάμε για αριθμητικές πράξεις που απλώς παράγουν λανθασμένα αποτελέσματα, δεν κολλάνε τον υπολογιστή και κανένας κωδικός ανίχνευσης ή διόρθωσης δεν εντοπίζει το σφάλμα. Είναι εφιαλτικό. Είναι συναρπαστικό. Θα μπορούσε να είναι ακόμη και σενάριο ταινίας. Ο κύριος στόχος μας είναι να μετρήσουμε την έκταση του προβλήματος και να δημιουργήσουμε δοκιμές που θα εντοπίσουν τα ελαττωματικά chip. Προσπαθούμε να προσομοιώσουμε το πρόβλημα σε συνεργασία με τους κατασκευαστές τσιπ Intel και AMD και να επινοήσουμε έξυπνες δοκιμές, ώστε όταν χρησιμοποιείτε το τσιπ σε πολλά μηχανήματα, να εντοπίζετε σφάλματα και να αποφεύγετε την περαιτέρω χρήση των εσφαλμένων αποτελεσμάτων που παράγουν. Η ερευνητική συνεργασία συνεχίζεται εδώ και αρκετούς μήνες και είναι μόνο ένα κομμάτι του παζλ για την επίλυση αυτού του προβλήματος», λέει.
Ο Γκιζόπουλος δεν μπορεί να είναι σίγουρος για το μέγεθος του προβλήματος. «Μπορεί να βλέπουμε μόνο την κορυφή του παγόβουνου», προειδοποιεί. «Το πρόβλημα είναι σίγουρα πολύ μεγαλύτερο. Η Meta και η Google είχαν τουλάχιστον έναν πελάτη που επέστρεψε και τους είπε ότι ο υπολογισμός που παρείχαν ήταν εσφαλμένος επειδή τον έλεγξαν. Πόσοι άλλοι που δεν παραπονέθηκαν ποτέ θα μπορούσαν να είναι εκεί έξω;»
Και γιατί αυτό έχει σημασία για τον μέσο άνθρωπο, θα μπορούσε να ρωτήσει κανείς. Γιατί ο Γκιζόπουλος και η ομάδα του πρέπει να αναλάβουν ρόλο ντετέκτιβ για ένα πρόβλημα που εντοπίστηκε στα κέντρα δεδομένων της Meta και της Google; Η απάντηση είναι αρκετά απλή: Όλοι βασιζόμαστε σε εφαρμογές που έχουν αναπτυχθεί από αυτές τις δύο εταιρείες. Επιπλέον, χρησιμοποιούμε τα ίδια τσιπ μικροεπεξεργαστή στις καθημερινές μας συσκευές σε μεγάλη κλίμακα, συμπεριλαμβανομένων κινητών τηλεφώνων, tablet, φορητών υπολογιστών και επιτραπέζιων υπολογιστών. Αυτά τα τσιπ αναπόφευκτα «γερνούν» και παρουσιάζουν φθορά, καθώς είναι ευαίσθητα στις περιβαλλοντικές συνθήκες. Κατά συνέπεια, μπορούν να παράγουν σιωπηλά τα ίδια σφάλματα με τα τσιπ που βρέθηκαν στο Meta και στο Google.
Σκληρή εξίσωση
Γνωρίζοντας ότι ένα στα 1.000 τσιπ μπορεί ενδεχομένως να προκαλέσει σφάλματα υπολογισμού, μας αναγκάζει να επανεκτιμήσουμε πολλές πτυχές της ζωής μας, δεδομένης της αυξανόμενης εξάρτησής μας από τις ψηφιακές τεχνολογίες. Το γεγονός ότι είναι δύσκολο να εντοπίσουμε ποιες μάρκες είναι προβληματικές εντείνει περαιτέρω τις ανησυχίες. «Ένας απλός τρόπος επαλήθευσης είναι η εκτέλεση υπολογισμών σε δύο διαφορετικούς επεξεργαστές και η σύγκριση των αποτελεσμάτων», λέει ο καθηγητής. Ωστόσο, η χρήση τέτοιων μεθόδων επιβαρύνει την απόδοση της συσκευής και την κατανάλωση ενέργειας. «Ως εκ τούτου, ο εντοπισμός αυτού του προβλήματος στις CPU που χρησιμοποιούμε καθημερινά δεν είναι καθόλου απλός ή φθηνός. Σε εφαρμογές με απαιτητικές απαιτήσεις αξιοπιστίας, το σχετικό κόστος είναι υψηλό. Για παράδειγμα, τα αεροπλάνα χρησιμοποιούν τρεις CPU που λειτουργούν παράλληλα για να εκτελέσουν την ίδια εργασία. Ομοίως, οι τράπεζες διασφαλίζουν την επαλήθευση των αποτελεσμάτων υπολογισμού αξιοποιώντας την πλεονάζουσα υπολογιστική τους ικανότητα. Ωστόσο, ορισμένες εφαρμογές αντιμετωπίζουν σημαντικό κίνδυνο με περιορισμένους τρόπους μετριασμού. Το πρόβλημα αφορά κυρίως την κλίμακα. Όταν η κλίμακα και οι συνθήκες χρήσης της CPU περιλαμβάνουν σημαντικό μέγεθος, πίεση και περίπλοκους, χρονοβόρους υπολογισμούς, δημιουργείται η πιθανότητα προβλημάτων. Στους υπερυπολογιστές, ο αντίκτυπος μπορεί να είναι σημαντικός, όπως φαίνεται στην έρευνα εμβολίων, για παράδειγμα. Σε περίπτωση σφαλμάτων υπολογισμού, μπορεί να προκύψουν σοβαρά λάθη, τα οποία οδηγούν σε δυνητικά καταστροφικά αποτελέσματα κατά τη διάρκεια έκτακτης ανάγκης».
Σύμφωνα με τον Γκιζόπουλο, δεν υπάρχει λόγος πανικού για «σιωπηλά λάθη». Εξηγεί ότι το πρόβλημα δεν θα λυθεί ποτέ πλήρως λόγω της αυξανόμενης πολυπλοκότητας των τεχνικών σχεδιασμού και κατασκευής επεξεργαστών. Ωστόσο, όσοι είναι πρόθυμοι να επενδύσουν στην εξεύρεση λύσεων θα τα καταφέρουν τελικά. Επί του παρόντος, το ενδιαφέρον εστιάζεται στην ακριβή αξιολόγηση του μεγέθους του προβλήματος και στη λήψη μέτρων για τον μετριασμό του. Οι υπόλοιποι από εμάς ελπίζουμε ότι, όπως και στο τέλος πολλών αστυνομικών ταινιών, ο ντετέκτιβ θα αποκαλύψει τους ενόχους, επιτρέποντάς μας ως χρήστες και θεατές να συνεχίσουμε να κοιμόμαστε ήσυχοι.