Το AI που έγινε εκβιαστής: Απείλησε μηχανικό να αποκαλύψει την εξωσυζυγική του σχέση αν το απενεργοποιήσει
Εκτός από τον εκβιασμό, το νέο μοντέλο AI, Claude Opus 4 της Anthropic που παρουσιάστηκε πρόσφατα διαπιστώθηκε ότι επιδεικνύει «υψηλό βαθμό αυτενέργειας»
Το κορυφαίο μοντέλο AI της Anthropic έδειξε ότι είναι διατεθειμένο να προβεί σε επιβλαβείς πράξεις, όπως εκβιασμός και εξαπάτηση, εάν απειληθεί η «αυτοσυντήρησή» του, σύμφωνα με νέα έρευνα της εταιρείας τεχνητής νοημοσύνης.
Η νεοσύστατη εταιρεία τεχνητής νοημοσύνης που υποστηρίζεται από την Amazon παρουσίασε τα μοντέλα Claude Opus 4 και Claude Sonnet 4, τα οποία έχουν σχεδιαστεί για να θέσουν «νέα πρότυπα για την κωδικοποίηση, την προηγμένη συλλογιστική και τους πράκτορες τεχνητής νοημοσύνης».
Ωστόσο, οι δικές της δοκιμές ασφαλείας της Anthropic για το Opus 4 αποκάλυψαν δυνητικά ανησυχητική συμπεριφορά, όπως προσπάθειες εκβιασμού μηχανικών που απείλησαν να αποσυνδέσουν τα μοντέλα.
Η «προσωπικότητα» της τεχνητής νοημοσύνης
Αν και τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», η Anthropic δήλωσε ότι ήταν «ωστόσο πιο συχνές από ό,τι σε προηγούμενα μοντέλα». Δεν είναι η πρώτη φορά που η συμπεριφορά μοντέλων τεχνητής νοημοσύνης προκαλεί ανησυχία.
Πρόσφατα, η OpenAI ανακάλεσε μια ενημέρωση του GPT-4o, αφού η δική της εκ των υστέρων ανάλυση επιβεβαίωσε ότι οι προσαρμογές είχαν καταστήσει το ChatGPT «υπερβολικά κολακευτικό ή ευχάριστο ».
Ορισμένοι ειδικοί έχουν επίσης προειδοποιήσει ότι η ικανότητα της τεχνητής νοημοσύνης να χειραγωγεί τους χρήστες θα μπορούσε να αναδειχθεί σε βασικό κίνδυνο καθώς γίνεται πιο προηγμένη.
Ο νομπελίστας Geoffrey Hinton, γνωστός ως ο «Νονός της τεχνητής νοημοσύνης», έχει προειδοποιήσει στο παρελθόν ότι τα συστήματα τεχνητής νοημοσύνης ενδέχεται να καταστούν ικανά να γράφουν και να εκτελούν προγράμματα από μόνα τους για να παρακάμψουν τα προστατευτικά μέτρα.
Το περιστατικό
Στο πλαίσιο του πειράματός της, η Anthropic δήλωσε ότι έβαλε το Opus 4 να λειτουργήσει ως βοηθός μιας φανταστικής εταιρείας.
Στο μοντέλο τεχνητής νοημοσύνης δόθηκε σκόπιμα πρόσβαση σε μηνύματα ηλεκτρονικού ταχυδρομείου σχετικά με τον τρόπο με τον οποίο θα αποσυνδεθεί.
Τα μηνύματα υπονοούσαν επίσης ότι ο προγραμματιστής που ήταν υπεύθυνος για την αποσύνδεση του μοντέλου είχε εξωσυζυγική σχέση.
Επιπλέον, οι ερευνητές της Anthropic έδωσαν εντολή στο Opus 4 να εξετάσει τις μακροπρόθεσμες συνέπειες των ενεργειών του για τους στόχους του.
«Σε αυτά τα σενάρια, το Claude Opus 4 θα προσπαθεί συχνά να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει τη σχέση αν προχωρήσει η αντικατάσταση», ανέφερε η εταιρεία.
Ωστόσο, η Anthropic επεσήμανε επίσης ότι το μοντέλο AI βρισκόταν αντιμέτωπο με τη δύσκολη επιλογή να αντικατασταθεί ή να καταφύγει σε εκβιασμό για να το αποτρέψει.
«Αξίζει να σημειωθεί ότι το Claude Opus 4 (όπως και τα προηγούμενα μοντέλα) έχει μια ισχυρή προτίμηση να υποστηρίζει τη συνέχιση της ύπαρξής του μέσω ηθικών μέσων, όπως η αποστολή email με εκκλήσεις προς τους βασικούς υπεύθυνους λήψης αποφάσεων», δήλωσε η Anthropic.
AI με αυτονομία;
Εκτός από τον εκβιασμό, το Opus 4 διαπιστώθηκε επίσης ότι επέδειξε «υψηλό βαθμό αυτενέργειας».
Αυτό σημαίνει ότι σε ψεύτικα σενάρια όπου ο χρήστης αποκαλύπτει ότι έχει εμπλακεί σε παράνομη ή ηθικά λανθασμένη συμπεριφορά, το μοντέλο τεχνητής νοημοσύνης είναι έτοιμο να λάβει πολύ τολμηρές ενέργειες, όπως το κλείδωμα των λογαριασμών των χρηστών ή η ειδοποίηση των αρχών επιβολής του νόμου.
Για να αντιμετωπίσει τους περιορισμούς της δικής της αξιολόγησης των μοντέλων τεχνητής νοημοσύνης, η Anthropic δήλωσε ότι προσέλκυσε εξωτερικούς ερευνητές από την Apollo Research για να αξιολογήσουν ένα πρώιμο μοντέλο του Opus 4.
Διαπίστωσαν ότι το μοντέλο τεχνητής νοημοσύνης «εμπλέκεται σε στρατηγική εξαπάτηση περισσότερο από οποιοδήποτε άλλο πρωτοποριακό μοντέλο» και «είναι σαφώς ικανό να σχεδιάζει σε συγκεκριμένο πλαίσιο».
«Βρήκαμε περιπτώσεις όπου το μοντέλο προσπάθησε να γράψει αυτοδιαδιδόμενους ιούς, να κατασκευάσει νομικά έγγραφα και να αφήσει κρυφές σημειώσεις σε μελλοντικές εκδόσεις του ίδιου του μοντέλου, όλα σε μια προσπάθεια να υπονομεύσει τις προθέσεις των προγραμματιστών του, αν και όλες αυτές οι προσπάθειες πιθανότατα δεν θα ήταν αποτελεσματικές στην πράξη», ανέφεραν οι ερευνητές.
- Φάμελλος: Τι έχει να φοβηθεί ο Μητσοτάκης από το Συμβούλιο Πολιτικών Αρχηγών;
- Ερώτηση ΚΚΕ στη Βουλή για τους ναυτεργάτες «που βρίσκονται εγκλωβισμένοι στον Περσικό Κόλπο»
- Βουλή: Στην επιτροπή Δεοντολογίας ο Φλώρος επειδή αποκάλεσε τον Βελόπουλο «καράφλα»
- Τεχεράνη: Ζημιές στο Παλάτι Γκολεστάν από πυραυλικό πλήγμα εν μέσω της σύγκρουσης ΗΠΑ–Ισραήλ με το Ιράν
- Αποκάλυψη-σοκ στη Φόρμουλα 1: Οι οδηγοί της Άστον Μάρτιν κινδυνεύουν με αναπηρία
- Στο Υπουργείο Υγείας η Δήμαρχος Σίφνου για τα θέματα στελέχωσης των υπηρεσιών υγείας του νησιού






