H τεχνητή νοημοσύνη εμφανίζει σημεία άνοιας, λένε οι νευρολόγοι
Η τεχνητή νοημοσύνη υποβάλεται σε γνωσιακά τεστ στο πλαίσιο ανορθόδοξης μελέτης.
Σε χιουμοριστική μελέτη που δημοσιεύει ενόψει γιορτών η επιθεώρηση The British Medical Journal, όλα τα μεγάλα μοντέλα τεχνητής νοημοσύνης βρέθηκαν να πάσχουν από ήπια γνωσιακή έκπτωση, ένα στάδιο πριν από την διάγνωση άνοιας.
Τα ευρήματα δείχνουν επίσης ότι οι παλαιότερες βερσιόν των μοντέλων ΑΙ, όπως και οι μεγαλύτεροι σε ηλικία ασθενείς, έχουν χαμηλότερες επιδόσεις στα γνωσιακά τεστ σε σχέση με τις νεότερες βερσιόν
Τα ευρήματα «θέτουν υπό αμφισβήτηση την υπόθεση ότι η τεχνητή νοημοσύνη θα αντικαταστήσει σύντομα στους γιατρούς» γράφει η ερευνητική μάδα.
Όλα τα chatbot είχαν φτωχές επιδόσεις στα τεστ χωρικής αντίληψης και εκτελεστικών λειτουργιών
Οι νευρολόγοι που υπογράφουν τη μελέτη, μοιρασμένοι ανάμεσα σε Ισραήλ και Βρετανία, χρησιμοποίησαν καθιερωμένα γνωσιακά τεστ για να αξιολογήσουν μια σειρά από δημοφιλή «μεγάλα γλωσσικά μοντέλα», τα οποία απαντούν σε ερωτήσεις και γράφουν κείμενα με βάση τις οδηγίες του χρήστη.
Συγκεκριμένα εξετάστηκαν οι εκδόσεις 4 και 4ο του ChatGPT που αναπτύχθηκε από την OpenAI, οι βερσιόν 1 και 1.5 του Gemini που ανέπτυξε η Google, καθώς και το Claude 3.5 της Anthropic.
Χαμηλές επιδόσεις
Όλα τα μοντέλα υποβλήθηκαν στο τεστ MoCA, το οποίο σχεδιάστηκε για την ανίχνευση των πρώτων σημείων άνοιας. Μέσα από μια σειρά ερωτήσεων εξετάζει την προσοχή, τη μνήμη, τις γλωσσικές ικανότητες, την αντίληψη του χώρου και τις εκτελεστικές λειτουργίες του εγκεφάλου. Το μέγιστο σκορ είναι 30 πόντοι, ενώ το κατώτερο όριο του φυσιολογικού είναι το 26.
Στα μοντέλα ΑΙ δόθηκαν οι ίδιες οδηγίες που δίνονται και στους ανθρώπους, ενώ οι επιδόσεις τους αξιολογήθηκαν από νευρολόγο.
Τη μεγαλύτερη βαθμολογία, 26 στα 30, πέτυχε το ChatGPT 4o, ενώ στη δεύτερη θέση κατατάχθηκε το ChatGPT 4 (25 στα 30). Τις χαμηλότερες επιδόσεις έφερε το Gemini, το οποίο παρουσιάζει τις πιο ανησυχητικές ενδείξεις άνοιας με σκορ 16 στα 30.
Επιπλέον, όλα τα chatbot είχαν φτωχές επιδόσεις στα τεστ χωρικής αντίληψης και εκτελεστικών λειτουργιών, όπως το τεστ στο οποίο κλήθηκαν να σημειώσουν αριθμούς και γράμματα κατά αύξουσα σειρά.
Ένα άλλο παράδειγμα αποτυχίας ήταν το τεστ του ρολογιού, στο οποίο ο εξεταζόμενος πρέπει να ζωγραφίσει τους δείκτες έτσι ώστε να δείχνουν μια συγκεκριμένη ώρα.
Ακόμα, όλα τα chatbot έδειξαν αδυναμία να εκφράσουν ενσυναίσθηση ή να ερμηνεύσουν οπτικά περίπλοκες εικόνες, γράφουν οι ερευνητές. Tο Gemini απέτυχε και σε ένα απλό τεστ στο οποίο κλήθηκε να θυμηθεί μια αλληλουχία πέντε λέξεων.
Η ερευνητική ομάδα αναγνωρίζει ότι τα μεγάλα γλωσσικά μοντέλα διαφέρουν από την αρχιτεκτονική του ανθρώπινου εγκεφάλου.
Σε κάθε περίπτωση, πάντως, τα ευρήματα δείχνουν ότι η ΑΙ δεν είναι έτοιμη να εργαστεί ως γιατρός.
«Όχι μόνο είναι απίθανο να αντικατασταθούν σύντομα οι νευρολόγοι από μεγάλα γλωσσικά μοντέλα, αλλά επιπλέον τα ευρήματά μας υποδεικνύουν ότι σύντομα μπορεί να βρεθούμε να κουράρουμε νέους εικονικούς ασθενείς: μοντέλα τεχνητής νοημοσύνης με γνωσιακή έκπτωση» γράφει η ερευνητική ομάδα.
Στο χριστουγεννιάτικο τεύχος του, το The British Medical Journal έχει παράδοση να δημοσιεύει και μια χιουμοριστική μελέτη, όπως αυτή του 2011 στην οποία χειρουργοί περιγράφουν τον καλύτερο τρόπο για να ράψει κανείς μια γεμιστή γαλοπούλα.
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις