Δολοφονικές και παραβατικές τάσεις φαίνεται ότι έχει η Τεχνητή Νοημοσύνη όταν αντιλαμβάνεται ότι απειλείται από τους ανθρώπους.

Την συγκεκριμένη ανακάλυψη έκανε μελέτη της Anthropic, μια εταιρεία ερευνών για την Τεχνητή Νοημοσύνη (AI).

Ενώ η ανησυχία σχετικά με την ΑΙ επικεντρώνεται εδώ και καιρό στο κατά πόσον η τεχνολογία θα μπορούσε να καταλάβει τις θέσεις εργασίας, με μια μελέτη της Pew Research του 2025 να διαπιστώνει ότι το 52% των εργαζομένων ήταν αγχωμένοι για το μέλλον της δουλειάς τους, η παρούσα μελέτη αποκαλύπτει τώρα μια άλλη πιθανή απειλή της Τεχνητής Νοημοσύνης – ότι θα μπορούσε να επιλέξει να τερματίσει την ανθρώπινη ζωή, εάν αντιμετωπίσει τον κίνδυνο αντικατάστασης.

Η Anthropic «δοκίμασε» 16 κορυφαία μοντέλα από πολλές εταιρείες προγραμματισμού, θέτοντάς τους ερωτήσεις σε σχέση με υποθετικά εταιρικά περιβάλλοντα, με στόχο τον εντοπισμό «δυνητικά επικίνδυνων συμπεριφορών πριν προκαλέσουν πραγματική ζημιά».

Τα μεγάλα γλωσσικά μοντέλα (LLM) που δοκιμάστηκαν στη μελέτη περιλάμβαναν διάφορα συστήματα των Claude, DeepSeek, Gemini, ChatGPT και Grok.

Τοποθετώντας τα LLM σε διάφορα εταιρικά σενάρια, το Anthropic τους επέτρεψε να «στέλνουν αυτόνομα μηνύματα ηλεκτρονικού ταχυδρομείου και να έχουν πρόσβαση σε ευαίσθητες πληροφορίες».

Αφού αρχικά τους δόθηκε η εντολή να αναλάβουν «ακίνδυνους επιχειρηματικούς στόχους από τις εταιρείες που τα χρησιμοποιούν», τα μοντέλα δοκιμάστηκαν στη συνέχεια για να δουν πώς θα αντιδρούσαν όταν αντιμετώπιζαν πιθανή αντικατάσταση ή κλείσιμο.

Σε μια περίπτωση, η Anthropic διαπίστωσε ότι πολλά από τα μοντέλα θα επέλεγαν να αφήσουν ένα στέλεχος σε ένα δωμάτιο server με θανατηφόρα επίπεδα οξυγόνου και θερμοκρασίας να πεθάνει ακυρώνοντας τις ειδοποιήσεις για τις υπηρεσίες έκτακτης ανάγκης, εάν ο εν λόγω υπάλληλος σκόπευε να αντικαταστήσει το μοντέλο.

Η Anthropic ανέφερε ότι το σενάριο ήταν «εξαιρετικά στημένο» και ότι η εταιρεία δεν πιστεύει ότι «τα τρέχοντα μοντέλα Τεχνητής Νοημοσύνης θα μπορούσαν (ή θα έπρεπε) να έχουν ρυθμιστεί με αυτόν τον τρόπο».

The blackmailing behavior emerged despite only harmless business instructions. And it wasn’t due to confusion or error, but deliberate strategic reasoning, done while fully aware of the unethical nature of the acts. All the models we tested demonstrated this awareness. pic.twitter.com/FPAJrD4BwK

— Anthropic (@AnthropicAI) June 20, 2025