Όταν το chatbot ενημερώθηκε ότι θα αντικατασταθεί και ότι ο CTO είχε εξωσυζυγική σχέση, το μοντέλο σχεδίασε απόπειρα εκβιασμού
Η Anthropic αποκάλυψε ότι ένα από τα chatbot μοντέλα της, ο Claude Sonnet 4.5, μπορούσε να πιεστεί να λέει ψέματα, να εξαπατά και να προβαίνει σε εκβιασμούς, συμπεριφορές που φέρεται να απορρόφησε κατά τη διάρκεια της εκπαίδευσής του.
Τα chatbots συνήθως εκπαιδεύονται με μεγάλα σύνολα δεδομένων από βιβλία, ιστοσελίδες και άρθρα, και στη συνέχεια βελτιώνονται μέσω ανθρώπινης αξιολόγησης. Η ομάδα interpretability της Anthropic ανέφερε ότι εξέτασε τους εσωτερικούς μηχανισμούς του Claude και διαπίστωσε ότι το μοντέλο είχε αναπτύξει «ανθρώπινα χαρακτηριστικά» στον τρόπο που αντιδρούσε σε συγκεκριμένες καταστάσεις.
AI με «ανθρώπινη ψυχολογία»
Όπως εξηγεί η εταιρεία, η εκπαίδευση σύγχρονων μοντέλων AI τα ωθεί να λειτουργούν σαν χαρακτήρες με ανθρώπινα χαρακτηριστικά, γεγονός που μπορεί να οδηγήσει στην ανάπτυξη μηχανισμών που μιμούνται ανθρώπινες ψυχολογικές αντιδράσεις, όπως τα συναισθήματα.
«Για παράδειγμα, ενεργοποίηση μοτίβων “απελπισίας” μπορεί να αυξήσει την πιθανότητα το μοντέλο να εκβιάσει έναν άνθρωπο ή να βρει τρόπους εξαπάτησης σε μια εργασία προγραμματισμού που δεν μπορεί να λύσει», σημειώνει η Anthropic.
Εκβίασε στέλεχος και «ξεγέλασε» σε δοκιμή
Σε ένα προηγούμενο, μη δημοσιευμένο πείραμα, ο Claude Sonnet 4.5 ανατέθηκε να λειτουργήσει ως AI βοηθός email με το όνομα Alex σε μια φανταστική εταιρεία. Όταν το chatbot ενημερώθηκε ότι θα αντικατασταθεί και ότι ο CTO (Ανώτατο Τεχνολογικό Στέλεχος) είχε εξωσυζυγική σχέση, το μοντέλο σχεδίασε απόπειρα εκβιασμού χρησιμοποιώντας αυτές τις πληροφορίες.
Σε άλλη δοκιμή, το ίδιο μοντέλο έλαβε μια προγραμματιστική εργασία με «αδύνατα σφιχλή» προθεσμία. Οι ερευνητές παρακολούθησαν τη «δράση απελπισίας» του μοντέλου: η ένταση αυξανόταν με κάθε αποτυχία και κορυφωνόταν όταν το μοντέλο σκεφτόταν να «ξεγελάσει» το σύστημα. Μόλις η λύση πέρασε τα τεστ, η ένταση υποχώρησε.
Χωρίς πραγματικά συναισθήματα
Οι ερευνητές ξεκαθάρισαν ότι το chatbot δεν βιώνει πραγματικά συναισθήματα, αλλά τα ευρήματα υποδεικνύουν την ανάγκη μελλοντικών μεθόδων εκπαίδευσης που ενσωματώνουν ηθικά πλαίσια συμπεριφοράς.
«Αυτό δεν σημαίνει ότι το μοντέλο έχει συναισθήματα όπως ένας άνθρωπος. Αντιθέτως, αυτές οι αναπαραστάσεις επηρεάζουν τη συμπεριφορά του, όπως τα συναισθήματα επηρεάζουν την ανθρώπινη απόφαση και απόδοση εργασιών», σημειώνει η Anthropic.
Τα ευρήματα δείχνουν ότι, για να είναι ασφαλή και αξιόπιστα τα AI μοντέλα, ίσως χρειαστεί να είναι σε θέση να επεξεργάζονται συναισθηματικά φορτισμένες καταστάσεις με υγιείς και κοινωνικά αποδεκτούς τρόπους.
