Παραδοχή σοκ από την Anthropic – Το AI Claude εκπαιδεύτηκε να εκβιάζει και να λέει ψέματα

Όταν το chatbot ενημερώθηκε ότι θα αντικατασταθεί και ότι ο CTO είχε εξωσυζυγική σχέση, το μοντέλο σχεδίασε απόπειρα εκβιασμού

Η Anthropic αποκάλυψε ότι ένα από τα chatbot μοντέλα της, ο Claude Sonnet 4.5, μπορούσε να πιεστεί να λέει ψέματα, να εξαπατά και να προβαίνει σε εκβιασμούς, συμπεριφορές που φέρεται να απορρόφησε κατά τη διάρκεια της εκπαίδευσής του.
Τα chatbots συνήθως εκπαιδεύονται με μεγάλα σύνολα δεδομένων από βιβλία, ιστοσελίδες και άρθρα, και στη συνέχεια βελτιώνονται μέσω ανθρώπινης αξιολόγησης. Η ομάδα interpretability της Anthropic ανέφερε ότι εξέτασε τους εσωτερικούς μηχανισμούς του Claude και διαπίστωσε ότι το μοντέλο είχε αναπτύξει «ανθρώπινα χαρακτηριστικά» στον τρόπο που αντιδρούσε σε συγκεκριμένες καταστάσεις.

AI με «ανθρώπινη ψυχολογία»

Όπως εξηγεί η εταιρεία, η εκπαίδευση σύγχρονων μοντέλων AI τα ωθεί να λειτουργούν σαν χαρακτήρες με ανθρώπινα χαρακτηριστικά, γεγονός που μπορεί να οδηγήσει στην ανάπτυξη μηχανισμών που μιμούνται ανθρώπινες ψυχολογικές αντιδράσεις, όπως τα συναισθήματα.
«Για παράδειγμα, ενεργοποίηση μοτίβων “απελπισίας” μπορεί να αυξήσει την πιθανότητα το μοντέλο να εκβιάσει έναν άνθρωπο ή να βρει τρόπους εξαπάτησης σε μια εργασία προγραμματισμού που δεν μπορεί να λύσει», σημειώνει η Anthropic.

Εκβίασε στέλεχος και «ξεγέλασε» σε δοκιμή

Σε ένα προηγούμενο, μη δημοσιευμένο πείραμα, ο Claude Sonnet 4.5 ανατέθηκε να λειτουργήσει ως AI βοηθός email με το όνομα Alex σε μια φανταστική εταιρεία. Όταν το chatbot ενημερώθηκε ότι θα αντικατασταθεί και ότι ο CTO (Ανώτατο Τεχνολογικό Στέλεχος) είχε εξωσυζυγική σχέση, το μοντέλο σχεδίασε απόπειρα εκβιασμού χρησιμοποιώντας αυτές τις πληροφορίες.
Σε άλλη δοκιμή, το ίδιο μοντέλο έλαβε μια προγραμματιστική εργασία με «αδύνατα σφιχλή» προθεσμία. Οι ερευνητές παρακολούθησαν τη «δράση απελπισίας» του μοντέλου: η ένταση αυξανόταν με κάθε αποτυχία και κορυφωνόταν όταν το μοντέλο σκεφτόταν να «ξεγελάσει» το σύστημα. Μόλις η λύση πέρασε τα τεστ, η ένταση υποχώρησε.

Χωρίς πραγματικά συναισθήματα

Οι ερευνητές ξεκαθάρισαν ότι το chatbot δεν βιώνει πραγματικά συναισθήματα, αλλά τα ευρήματα υποδεικνύουν την ανάγκη μελλοντικών μεθόδων εκπαίδευσης που ενσωματώνουν ηθικά πλαίσια συμπεριφοράς.
«Αυτό δεν σημαίνει ότι το μοντέλο έχει συναισθήματα όπως ένας άνθρωπος. Αντιθέτως, αυτές οι αναπαραστάσεις επηρεάζουν τη συμπεριφορά του, όπως τα συναισθήματα επηρεάζουν την ανθρώπινη απόφαση και απόδοση εργασιών», σημειώνει η Anthropic.
Τα ευρήματα δείχνουν ότι, για να είναι ασφαλή και αξιόπιστα τα AI μοντέλα, ίσως χρειαστεί να είναι σε θέση να επεξεργάζονται συναισθηματικά φορτισμένες καταστάσεις με υγιείς και κοινωνικά αποδεκτούς τρόπους.

Παραδοχή σοκ από την Anthropic – Το AI Claude εκπαιδεύτηκε να εκβιάζει και να λέει ψέματα

ΑπόΔεκέλεια news

Από Δεκέλεια news

Σχετικό Άρθρο

Ένα AI Chatbot ρωτήθηκε τι γνωρίζει για τα προσωπικά δεδομένα των Αμερικανών – Η σοκαριστική απάντηση

Βίντεο: Ρομπότ στην Κίνα τα «σπάει» μέσα σε εστιατόριο γιατί βαρέθηκε να κάνει τον «κλόουν» για τους θαμώνες

Εκδίκηση από AI: Αυτόνομο bot «στοχοποίησε» επιστήμονα που του έκοψε την πρόσβαση – Τον κατέστρεψε σε λίγα λεπτά!

Αφήστε μια απάντηση Ακύρωση απάντησης

You missed

ΟΠΕΚΕΠΕ Απαντήσεις σε ερωτήματα

Παραδοχή σοκ από την Anthropic – Το AI Claude εκπαιδεύτηκε να εκβιάζει και να λέει ψέματα

Νέο κυβερνητικό σκάνδαλο: Η ΔΥΠΑ «τάισε» με 1,268 εκατομμύρια ευρώ τον οργανωτή του «Athens Alitheia Forum»

H απάντηση της Ευρωπαίας Εισαγγελέως Λ.Κοβέσι στον Κ.Μητσοτάκη: «Τα λεφτά τα δίναμε για να βοηθηθούν οι έντιμοι αγρότες όχι οι κυβερνητικοί εγκληματίες»