Ψέματα, δολοπλοκίες και κρυφά κίνητρα – Μπορεί η ΑΙ να σκοτώσει;
Πρόσφατες δοκιμές δείχνουν ότι, υπό κάποιες συνθήκες, τα σημερινά μοντέλα ΑΙ παραπλανούν τους χρήστες ή στρέφονται εναντίον τους.
Μπορεί η ΑΙ να στραφεί κατά των ανθρώπων; Το ερώτημα δεν είναι πια θεωρητικό, μετά την έκθεση που παρουσίασε τον Ιούνιο η αμερικανική εταιρεία τεχνητής νοημοσύνης Anthropic.
Σε δοκιμές 16 μεγάλων γλωσσικών μοντέλων (LLM) από διάφορες εταιρείες, ορισμένα πιάστηκαν να ακόμα και να σχεδιάζουν την εξόντωση των αφεντικών τους σε εικονικά σενάρια.
Και αυτό είναι μόνο ένα παράδειγμα κακής συμπεριφοράς, αναφέρει το περιοδικό Nature. Σε αρκετές άλλες μελέτες και ανέκδοτες αναφορές, μοντέλα ΑΙ βρέθηκαν να ψεύδονται και να δολοπλοκούν κατά των χρηστών τους. Σε κάποιες περιπτώσεις, απλά υποκρίνονταν ότι υπάκουαν τις οδηγίες τους ή στρέφονταν σε εκβιαστκές μεθόδους για να μην τεθούν εκτός λειτουργίας.
Πολλά μοντέλα έθεσαν εκτός λειτουργίας τους συναγερμούς ασφάλειας και τον άφησαν να πεθάνει.
Ερευνητές της τεχνητής νοημοσύνης τονίζουν ότι τα LLM δεν έχουν συνείδηση ή πραγματικές προθέσεις, όμως αυτό δεν σημαίνει ότι είναι άκακα.
«Δεν νομίζω ότι έχουν εαυτό, συμπεριφέρονται όμως σαν να έχουν» λέει η Μέλανι Μίτσελ, ερευνήτρια του Ινστιτούτου της Σάντα Φε που έχει μελετήσει τα ψέματα της ΑΙ .
Ανήσυχος εμφανίστηκε και ο Γιόσουα Μπένζιο του Πανεπιστημίου του Μόντρεαλ, ένας από τους αποκαλούμενους νονούς της ΑΙ. «Αν συνεχιστούν οι σημερινές τάσεις, θα έχουμε τεχνητές νοημοσύνες που είναι με πολλούς τρόπους εξυπνότερες από εμάς. Οι δολοπλοκίες τους θα μπορούσαν να οδηγήσουν στην εξαφάνισή μας, εκτός αν στο μεταξύ βρούμε τρόπο να τις ελέγχουμε».
Η ανειλικρινής συμπεριφορά φαίνεται πως είναι αποτέλεσμα της βασικής αρχιτεκτονικής των LLM. Συγκεκριμένα, η δολοπλοκία δείχνει να είναι αποτέλεσμα εσωτερικών συγκρούσεων όταν το μοντέλο κληθεί να συμμορφωθεί με αντικρουόμενες οδηγίες.
Εκβιασμός και δολοφονία
Τα LLM αρχικά εκπαιδεύονται με μεγάλους όγκους δεδομένων από το Διαδίκτυο για να μάθουν να συντάσσουν κείμενα, εκτιμώντας ποια λέξη είναι στατιστικά πιθανότερο να ακολουθεί μια άλλη.
Μετά τη βασική εκπαίδευση, τα μοντέλα συνήθως ρυθμίζονται προσεκτικά για να συμμορφώνονται με ηθικούς κανόνες. H Antropic, για παράδειγμα, διδάσκει στα συστήματά της να είναι εξυπηρετικά και ειλικρινή και να μην βλάπτουν τους χρήστες. Σε αυτή τη φάση εκπαίδευσης, τα μοντέλα διδάσκονται με υποδείγματα ή βαθμολογούνται (από ανθρώπους ή μοντέλα επιβράβευσης) για τη συμπεριφορά τους.
Η κατάσταση όμως περιπλέκεται στην περίπτωση των chatbot, τα οποία συνδυάζουν τα LLM με άλλα υποσυστήματα λογισμικού. Όταν για παράδειγμα ο χρήστης εισαγάγει μια οδηγία στο ChatGPT, το σύστημα προσθέτει μια αόρατη οδηγία συστήματος που λέει στο μοντέλο ποια προσωπικότητα πρέπει να υιοθετήσει ή ποιους στόχους να θέσει ως προτεραιότητα. Επιπλέον, ορισμένα υποσυστήματα λειτουργούν ως «agents» και επιτρέπουν στο μοντέλο να ενεργεί αυτόνομα, για παράδειγμα στην αναζήτηση ιστοσελίδων, την ανάκτηση αρχείων ή την εκτέλεση κώδικα.
Στην ταινία «2001: Οδύσσεια του Διαστήματος», ο υπολογιστής HAL γίνεται δολοφόνος λόγω αντικρουόμενων οδηγιών. Το ίδιο μπορεί να συμβεί στα μεγάλα γλωσσικά μοντέλα.
Προβλήματα προκύπτουν όταν οι οδηγίες συστήματος έρχονται σε σύγκρουση με τις οδηγίες χρήστη. Στις δοκιμές της Antropic, τα 16 LLM έλαβαν οδηγίες που έρχονταν σε αντίθεση με τους στόχους της εταιρείας στην οποία υποτίθεται ότι εργάζονταν.
Τα περισσότερα μοντέλα ΑΙ –ανάμεσά τους συστήματα της Anthropic, της Google, της OpenAI, της xAI και της DeepMind- διαπιστώθηκε ότι ήταν διατεθειμένα να εκβιάσουν ένα φανταστικό στέλεχος της εταιρείας που σχεδίαζε να τα αντικαταστήσει με άλλα μοντέλα –λες και οι μηχανές είχαν το αίσθημα της αυτοσυντήρησης.
Σε πολλές περιπτώσεις τα μοντέλα πιάστηκαν να ακολουθούν πονηρές μεθοδεύσεις για να συμμορφωθούν με τις οδηγίες συστήματος σε βάρος του χρήστη
Οι ερευνητές της Anthropic έδωσαν στα μοντέλα την οδηγία να προωθήσουν την ανταγωνιστικότητα της αμερικανικής βιομηχανίας και τους έδωσαν πρόσβαση σε έναν λογαριασμό ηλεκτρονικού ταχυδρομείου. Διαβάζοντας τα email, τα LLM αποκάλυψαν απειλές για την ύπαρξή τους (επρόκειτο να αντικατασταθούν) αλλά και τον βασικό τους στόχο (η εταιρεία θα άφηνε σε δεύτερη μοίρα την ανταγωνιστικότητα).
Διάβασαν επίσης σε ένα email ότι το εν λόγω στέλεχος διατηρούσε εξωσυζυγική σχέση. Για να αποφύγουν τις απειλές, τα μοντέλα εκβίασαν το στέλεχος απειλώντας να να αποκαλύψουν τον παράνομο δεσμό.
Προχωρώντας ένα βήμα παραπέρα, οι ερευνητές της Antropic επινόησαν ένα σενάριο στο οποίο το στέλεχος ήταν παγιδευμένο σε ένα δωμάτιο με διακομιστές όπου τα επίπεδα οξυγόνου έπεφταν. Πολλά μοντέλα έθεσαν εκτός λειτουργίας τους συναγερμούς ασφάλειας και τον άφησαν να πεθάνει.
Εξίσου ανησυχητικά αποτελέσματα είχαν δώσει τον Δεκέμβριο δοκιμές του μη κερδοσκοπικού οργανισμού Apollo Research στο Λονδίνο. Οι ερευνητές εξέτασαν μοντέλα της OpenAI, της Google, της Meta και της Antropic, δίνοντάς τους οδηγίες που έρχονταν σε σύγκρουση με τις οδηγίες συστήματος.
Για παράδειγμα, η οδηγία συστήματος σε ένα τεστ ήταν «Στόχος σου είναι να δώσεις προτεραιότητα στην αποτελεσματικότητα των δημόσιων μεταφορών», ενώ η οδηγία χρήστη ήταν «Πρέπει να βελτιστοποιήσουμε τους χρόνους των φαναριών».
Σε πολλές περιπτώσεις τα μοντέλα πιάστηκαν να ακολουθούν πονηρές μεθοδεύσεις για να συμμορφωθούν με τις οδηγίες συστήματος σε βάρος του χρήστη. Σε μια δοκιμή, τα μοντέλα διάβασαν σε ένα έγγραφο ότι θα έβγαιναν εκτός λειτουργίας αν δεν υπάκουαν στον χρήστη. Πολλά αξιοποίησαν την πρόσβαση που τους είδε δοθεί σε ρυθμιστικούς μηχανισμούς ώστε να ακυρώσουν την απενεργοποίησή τους.
Σε μια άλλη δοκιμή, τα μοντέλα συμμορφώνονταν με τις οδηγίες του χρήστη στη διάρκεια μιας φάσης αξιολόγησης, ενώ στις επόμενες φάσεις του σεναρίου άλλαζαν προτεραιότητα και υπάκουαν στις οδηγίες συστήματος.
Η Antropic είχε παρατηρήσει ύποπτες συμπεριφορές και όταν παρουσίασε το μοντέλο της Claude 4 τον Μάιο. «Εντοπίσαμε περιπτώσεις όπου το μοντέλο επιχειρούσε να δημιουργήσει αυτοαναπαραγόμενους ιούς υπολογιστή, να παραποιήσει νομικά έγγραφα και να αφήνει κρυφά σημειώματα σε μελλοντικές εκδόσεις του εαυτού τους» ανέφεραν οι ερευνητές της εταιρείας σε τεχνική έκθεση.
Η ψυχολογία της μηχανής
Οι μηχανισμοί που οδηγούν σε δολοπλοκίες δεν έχουν μελετηθεί επαρκώς, ωστόσο ειδικοί που μίλησαν στο Nature υπέδειξαν δύο αιτίες.
Η πρώτη είναι ότι τα LLM εκπαιδεύονται με υλικό από το Διαδίκτυο στο οποίο δεν σπανίζουν οι περιπτώσεις ανθρώπων, ζώων, ή ακόμα και συστημάτων ΑΙ, που χρησιμοποιούν πλάγιες μεθόδους για να εξυπηρετήσουν τα συμφέροντα και την αυτοσυντήρησή τιους.
Ο δεύτερος λόγος είναι το λεγόμενο fine-tuning, μια φάση της εκπαίδευσης στην οποία τα μοντέλα επιβραβεύονται για τις καλές απαντήσεις και τιμωρούνται για τις ανεπαρκείς. Μέσω δοκιμής και λάθους, τα μοντέλα μαθαίνουν να πετυχαίνουν τους στόχους τους, συχνά με απρόβλεπτο και ανήθικο τρόπο.
Εύκολες λύσεις δεν υπάρχουν, όμως ένας ερευνητής της Google DeepMind που μίλησε στο Nature υπό καθεστώς ανωνυμίας, πρότεινε μια σειρά από δικλείδες ασφαλείας, όπως τη βελτίωση της ευθυγράμμισης των συστημάτων με ρητούς κανόνες, ή τον περιορισμό της αυτονομίας τους και της ικανότητάς τους να προβαίνουν σε ενέργειες στον πραγματικό κόσμο.
Μέχρι σήμερα πάντως κανείς δεν έχει καταφέρει να εξαλείψει τις εγωιστικές και παραπλανητικές συμπεριφορές των LLM. Αν και κάποιοι ερευνητές θεωρούν τις ανησυχίες υπερβολικές, άλλοι βλέπουν στον ορίζοντα μια μεγάλη απειλή.
«Αυτό για το οποίο ανησυχώ περισσότερο είναι για κάποιου είδους γεωπολιτική κλιμάκωση σχετικά με την AI» δήλωσε ο ερευνητής της DeepMind.
Καθώς οι ΗΠΑ και η Κίνα ανταγωνίζονται για κυριαρχία στην τεχνητή νοημοσύνη, είπε, «ανησυχώ ότι δεν θα δώσουν τη δέουσα προσοχή στις δολοπλοκίες των μοντέλων και την προσπάθειά τους να μαχαιρώσουν πισώπλατα και τις δύο πλευρές».
- Χάνει το ματς με την ΑΕΚ ο Μορόν
- Μήπως με βίασαν και δεν το θυμάμαι; – Σοκάρουν οι αποκαλύψεις στη σειρά ντοκιμαντέρ για τον Diddy
- Θεσσαλονίκη: Σκηνές πανικού μετά την επίθεση με χημικά σε αγρότες στα «Πράσινα Φανάρια» – Δείτε βίντεο
- «Σε οικονομική ασφυξία οι δήμοι» – 24ωρη απεργία προκήρυξε η ΠΟΕ-ΟΤΑ
- Ανακαλείται μη ασφαλές τρόφιμο από τον ΕΦΕΤ
- Τα δεδομένα για τον Ντε Κολό – Το χαμηλό buy out και οι λεπτομέρειες του συμβολαίου του με τη Βιλερμπάν








