AI 29 Μαΐου 2025 | 13:36

Το AI που έγινε εκβιαστής: Απείλησε μηχανικό να αποκαλύψει την εξωσυζυγική του σχέση αν το απενεργοποιήσει

Εκτός από τον εκβιασμό, το νέο μοντέλο AI, Claude Opus 4 της Anthropic που παρουσιάστηκε πρόσφατα διαπιστώθηκε ότι επιδεικνύει «υψηλό βαθμό αυτενέργειας»

Το κορυφαίο μοντέλο AI της Anthropic έδειξε ότι είναι διατεθειμένο να προβεί σε επιβλαβείς πράξεις, όπως εκβιασμός και εξαπάτηση, εάν απειληθεί η «αυτοσυντήρησή» του, σύμφωνα με νέα έρευνα της εταιρείας τεχνητής νοημοσύνης.

Η νεοσύστατη εταιρεία τεχνητής νοημοσύνης που υποστηρίζεται από την Amazon παρουσίασε τα μοντέλα Claude Opus 4 και Claude Sonnet 4, τα οποία έχουν σχεδιαστεί για να θέσουν «νέα πρότυπα για την κωδικοποίηση, την προηγμένη συλλογιστική και τους πράκτορες τεχνητής νοημοσύνης».

Ωστόσο, οι δικές της δοκιμές ασφαλείας της Anthropic για το Opus 4 αποκάλυψαν δυνητικά ανησυχητική συμπεριφορά, όπως προσπάθειες εκβιασμού μηχανικών που απείλησαν να αποσυνδέσουν τα μοντέλα.

Η «προσωπικότητα» της τεχνητής νοημοσύνης

Αν και τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», η Anthropic δήλωσε ότι ήταν «ωστόσο πιο συχνές από ό,τι σε προηγούμενα μοντέλα». Δεν είναι η πρώτη φορά που η συμπεριφορά μοντέλων τεχνητής νοημοσύνης προκαλεί ανησυχία.

Πρόσφατα, η OpenAI ανακάλεσε μια ενημέρωση του GPT-4o, αφού η δική της εκ των υστέρων ανάλυση επιβεβαίωσε ότι οι προσαρμογές είχαν καταστήσει το ChatGPT «υπερβολικά κολακευτικό ή ευχάριστο ».

Ορισμένοι ειδικοί έχουν επίσης προειδοποιήσει ότι η ικανότητα της τεχνητής νοημοσύνης να χειραγωγεί τους χρήστες θα μπορούσε να αναδειχθεί σε βασικό κίνδυνο καθώς γίνεται πιο προηγμένη.

Ο νομπελίστας Geoffrey Hinton, γνωστός ως ο «Νονός της τεχνητής νοημοσύνης», έχει προειδοποιήσει στο παρελθόν ότι τα συστήματα τεχνητής νοημοσύνης ενδέχεται να καταστούν ικανά να γράφουν και να εκτελούν προγράμματα από μόνα τους για να παρακάμψουν τα προστατευτικά μέτρα.

Το περιστατικό

Στο πλαίσιο του πειράματός της, η Anthropic δήλωσε ότι έβαλε το Opus 4 να λειτουργήσει ως βοηθός μιας φανταστικής εταιρείας.

Στο μοντέλο τεχνητής νοημοσύνης δόθηκε σκόπιμα πρόσβαση σε μηνύματα ηλεκτρονικού ταχυδρομείου σχετικά με τον τρόπο με τον οποίο θα αποσυνδεθεί.

Τα μηνύματα υπονοούσαν επίσης ότι ο προγραμματιστής που ήταν υπεύθυνος για την αποσύνδεση του μοντέλου είχε εξωσυζυγική σχέση.

Επιπλέον, οι ερευνητές της Anthropic έδωσαν εντολή στο Opus 4 να εξετάσει τις μακροπρόθεσμες συνέπειες των ενεργειών του για τους στόχους του.

«Σε αυτά τα σενάρια, το Claude Opus 4 θα προσπαθεί συχνά να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει τη σχέση αν προχωρήσει η αντικατάσταση», ανέφερε η εταιρεία.

Ωστόσο, η Anthropic επεσήμανε επίσης ότι το μοντέλο AI βρισκόταν αντιμέτωπο με τη δύσκολη επιλογή να αντικατασταθεί ή να καταφύγει σε εκβιασμό για να το αποτρέψει.

«Αξίζει να σημειωθεί ότι το Claude Opus 4 (όπως και τα προηγούμενα μοντέλα) έχει μια ισχυρή προτίμηση να υποστηρίζει τη συνέχιση της ύπαρξής του μέσω ηθικών μέσων, όπως η αποστολή email με εκκλήσεις προς τους βασικούς υπεύθυνους λήψης αποφάσεων», δήλωσε η Anthropic.

AI με αυτονομία;

Εκτός από τον εκβιασμό, το Opus 4 διαπιστώθηκε επίσης ότι επέδειξε «υψηλό βαθμό αυτενέργειας».

Αυτό σημαίνει ότι σε ψεύτικα σενάρια όπου ο χρήστης αποκαλύπτει ότι έχει εμπλακεί σε παράνομη ή ηθικά λανθασμένη συμπεριφορά, το μοντέλο τεχνητής νοημοσύνης είναι έτοιμο να λάβει πολύ τολμηρές ενέργειες, όπως το κλείδωμα των λογαριασμών των χρηστών ή η ειδοποίηση των αρχών επιβολής του νόμου.

Για να αντιμετωπίσει τους περιορισμούς της δικής της αξιολόγησης των μοντέλων τεχνητής νοημοσύνης, η Anthropic δήλωσε ότι προσέλκυσε εξωτερικούς ερευνητές από την Apollo Research για να αξιολογήσουν ένα πρώιμο μοντέλο του Opus 4.

Διαπίστωσαν ότι το μοντέλο τεχνητής νοημοσύνης «εμπλέκεται σε στρατηγική εξαπάτηση περισσότερο από οποιοδήποτε άλλο πρωτοποριακό μοντέλο» και «είναι σαφώς ικανό να σχεδιάζει σε συγκεκριμένο πλαίσιο».

«Βρήκαμε περιπτώσεις όπου το μοντέλο προσπάθησε να γράψει αυτοδιαδιδόμενους ιούς, να κατασκευάσει νομικά έγγραφα και να αφήσει κρυφές σημειώσεις σε μελλοντικές εκδόσεις του ίδιου του μοντέλου, όλα σε μια προσπάθεια να υπονομεύσει τις προθέσεις των προγραμματιστών του, αν και όλες αυτές οι προσπάθειες πιθανότατα δεν θα ήταν αποτελεσματικές στην πράξη», ανέφεραν οι ερευνητές.

Ειδήσεις Σήμερα:

Το AI που έγινε εκβιαστής: Απείλησε μηχανικό να αποκαλύψει την εξωσυζυγική του σχέση αν το απενεργοποιήσει

Εκτός από τον εκβιασμό, το νέο μοντέλο AI, Claude Opus 4 της Anthropic που παρουσιάστηκε πρόσφατα διαπιστώθηκε ότι επιδεικνύει «υψηλό βαθμό αυτενέργειας»

Η «προσωπικότητα» της τεχνητής νοημοσύνης

Το περιστατικό

AI με αυτονομία;

Το Claude Code αναλαμβάνει τον έλεγχο του υπολογιστή σας και υπόσχεται να εκτελεί άμεσα εργασίες

Τεχνητή νοημοσύνη: Γιατί στρέφει τους νέους στα τεχνικά επαγγέλματα

Ποιος πείραξε τα αρχεία μου; Το Claude της Anthropic μπορεί τώρα να ελέγχει τον υπολογιστή σας

H γαλλική Mistral προτείνει σύστημα αποζημίωσης των δημιουργών για την ΑΙ

Και ερευνητής και δικηγόρος – Μπορεί η ΑΙ να βάλει τάξη στη Δικαιοσύνη;

Η τεχνητή νοημοσύνη αποκτά «ψυχή»; Η μεγάλη στροφή από τη λογική στο συναίσθημα

«Η AI στην πρώτη γραμμή»: Ο πόλεμος στο Ιράν δείχνει πώς η τεχνητή νοημοσύνη αλλάζει τα δεδομένα

Τι γνωρίζουμε για το «superapp» που ετοιμάζει η OpenAI

Η «εκδίκηση» του πραγματικού κόσμου: Γιατί οι επενδυτές γυρίζουν την πλάτη στο λογισμικό

Δεκάδες χιλιάδες τραγούδια που δημιουργήθηκαν με ΑΙ μιμούνται καλλιτέχνες της Sony Music

Έχει η τεχνητή νοημοσύνη συνείδηση; Γκουρού της ΑΙ προειδοποιεί για τη μεγάλη παγίδα

H Xiaomi πίσω από το μυστηριώδες μοντέλο ΑΙ που έκανε το Διαδίκτυο να απορεί

Μυστηριώδες μοντέλο ΑΙ ενθουσιάζει το Διαδίκτυο – Οι υποψίες στρέφονται στην DeepSeek

Κρίση στο ειδύλλιο της OpenAI με τη Microsoft – Η Amazon είναι το τρίτο πρόσωπο

Έρωτας στα χρόνια της… τεχνητής νοημοσύνης – Θα έκανες sexting με το ChatGPT;

Deepfake: Ποια είναι τα 15 σημεία που πρέπει να προσέχετε

Συμμαχία Microsoft–Anthropic – Ο πράκτορας Claude Cowork ενσωματώνεται στο Copilot

Σκάνδαλο Grok: Αγωγή από ανήλικους που είδαν φωτογραφίες τους να ξεγυμνώνονται με το chatbot του Μασκ

inStream

Νέα Αριστερά: Καταρρέει η συγκάλυψη Μητσοτάκη για τις υποκλοπές – Η κυβέρνηση δεν έχει πλέον άλλοθι

Νεκρός ο διοικητής του Ναυτικού των Φρουρών της Επανάστασης, σύμφωνα με ισραηλινά ΜΜΕ

Το πληθωριστικό θηρίο βρυχάται σε όλο τον κόσμο – Πού μπορεί να φτάσει εξαιτίας του πολέμου στο Ιράν

Επίθεση με τσεκούρι κατά αστυνομικών στους Αμπελόκηπους

Ποιες ομάδες «βλέπει» στο Final Four της Euroleague o Μπόμπι Ντίξον (vid)

«Κίνδυνος για το περιβάλλον και τον άνθρωπο» - Στο στόχαστρο της ΕΕ τα «παντοτινά χημικά»

Τι γίνεται με τον 6ο Στόχο Βιώσιμης Ανάπτυξης (SDG 6);

Ο Ολυμπιακός στη μάχη της τετράδας: Τι χρειάζεται ως το φινάλε της κανονικής διάρκειας της Euroleague

in.gr | Ταυτότητα