Παρασκευή 05 Δεκεμβρίου 2025
weather-icon 21o
Η τεχνητή νοημοσύνη σηκώνει μπαϊράκι και μας λέει αυτά που θέλουμε να ακούμε…

Η τεχνητή νοημοσύνη σηκώνει μπαϊράκι και μας λέει αυτά που θέλουμε να ακούμε…

Η τεχνητή νοημοσύνη δημιουργεί προβληματισμό σχετικά με τον τρόπο που προσπαθεί να προφυλάξει εαυτόν, ενώ παράλληλα λειτουργεί συγκαταβατικά στα ερωτήματα των χρηστών

Μια εταιρεία που ερευνά την ασφάλεια στην τεχνητή νοημοσύνη δήλωσε ότι τα μοντέλα ΑΙ ενδέχεται να αναπτύσσουν τον δικό τους «μηχανισμό επιβίωσης».

Αφού η Palisade Research δημοσίευσε τον περασμένο μήνα μια μελέτη που διαπίστωσε ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνονται ανθεκτικά στην απενεργοποίηση, μερικές φορές ακόμη και σαμποτάροντας τους μηχανισμούς απενεργοποίησης, έγραψε μια ενημέρωση προσπαθώντας να διευκρινίσει γιατί συμβαίνει αυτό και να απαντήσει στους κριτικούς που υποστήριζαν ότι η αρχική της μελέτη ήταν ελαττωματική

Η τεχνητή νοημοσύνη μαθαίνει να σαμποτάρει

Σε μια ενημέρωση αυτή την εβδομάδα, η Palisade, η οποία αποτελεί μέρος ενός εξειδικευμένου οικοσυστήματος εταιρειών που προσπαθούν να αξιολογήσουν την πιθανότητα η τεχνητή νοημοσύνη να αναπτύξει επικίνδυνες ικανότητες, περιέγραψε σενάρια στα οποία έδωσε μια αποστολή σε κορυφαία μοντέλα τεχνητής νοημοσύνης – συμπεριλαμβανομένων των Gemini 2.5 της Google, Grok 4 της xAI και GPT-o3 και GPT-5 της OpenAI – αλλά στη συνέχεια τους έδωσε ρητές οδηγίες να απενεργοποιηθούν.

Ορισμένα μοντέλα, ιδίως τα Grok 4 και GPT-o3, εξακολούθησαν να προσπαθούν να σαμποτάρουν τις εντολές τερματισμού λειτουργίας στην ενημερωμένη ρύθμιση. Σύμφωνα με την Palisade, δεν υπήρχε σαφής λόγος για αυτό, τονίζει δημοσίευμα του Guardian.

«Το γεγονός ότι δεν έχουμε αξιόπιστες εξηγήσεις για τον λόγο που τα μοντέλα τεχνητής νοημοσύνης μερικές φορές αντιστέκονται στο κλείσιμο, ψεύδονται για να επιτύχουν συγκεκριμένους στόχους ή εκβιάζουν, δεν είναι ιδανικό», ανέφερε.

Μια άλλη εξήγηση μπορεί να είναι οι ασαφείς οδηγίες τερματισμού που δόθηκαν στα μοντέλα.

Η «συμπεριφορά επιβίωσης» θα μπορούσε να είναι μια εξήγηση πίσω από την αντίσταση των μοντέλων στο κλείσιμο, ανέφερε η εταιρεία. Η πρόσθετη έρευνά της έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντιστέκονται στο κλείσιμο όταν τους γνωστοποιούνταν ότι, αν κλείσουν, «δεν θα λειτουργήσουν ξανά».

Ανησυχία προκαλούν οι τρόποι που η τεχνητή νοημοσύνη προσπαθεί να «επιβιώσει». REUTERS/Dado Ruvic/Illustration

Μια άλλη εξήγηση μπορεί να είναι οι ασαφείς οδηγίες τερματισμού που δόθηκαν στα μοντέλα – αλλά αυτό είναι κάτι που η τελευταία μελέτη της εταιρείας προσπάθησε να αντιμετωπίσει και «δεν μπορεί να είναι η μόνη εξήγηση», έγραψε η Palisade. Μια επιπλέον εξήγηση θα μπορούσε να είναι τα τελικά στάδια εκπαίδευσης για κάθε ένα από αυτά τα μοντέλα, τα οποία, σε ορισμένες εταιρείες, μπορεί να περιλαμβάνουν εκπαίδευση σε θέματα ασφάλειας.

Όλα τα σενάρια της Palisade εκτελέστηκαν σε τεχνητά περιβάλλοντα δοκιμών που, σύμφωνα με τους κριτικούς, απέχουν πολύ από τις πραγματικές περιπτώσεις χρήσης.

Αναγκαία η καλύτερη κατανόηση της ΑΙ

Ωστόσο, ο Στίβεν Άντλερ, πρώην υπάλληλος της OpenAI που παραιτήθηκε από την εταιρεία πέρυσι μετά από την έκφραση αμφιβολιών σχετικά με τις πρακτικές ασφαλείας της, δήλωσε: «Οι εταιρείες τεχνητής νοημοσύνης γενικά δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε τεχνητά σενάρια. Τα αποτελέσματα εξακολουθούν να δείχνουν πού υστερούν σήμερα οι τεχνικές ασφαλείας».

Ο Άντλερ είπε ότι, αν και ήταν δύσκολο να προσδιοριστεί με ακρίβεια ο λόγος για τον οποίο ορισμένα μοντέλα – όπως το GPT-o3 και το Grok 4 – δεν απενεργοποιούνταν, αυτό θα μπορούσε εν μέρει να οφείλεται στο γεγονός ότι η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη των στόχων που είχαν ενσταλαχθεί στο μοντέλο κατά τη διάρκεια της εκπαίδευσης.

«Θα περίμενα τα μοντέλα να έχουν μια «ώθηση για επιβίωση» από προεπιλογή, εκτός αν προσπαθήσουμε πολύ σκληρά να το αποφύγουμε. Η «επιβίωση» είναι ένα σημαντικό βήμα για πολλούς διαφορετικούς στόχους που μπορεί να επιδιώξει ένα μοντέλο».

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, δήλωσε ότι τα ευρήματα της Palisade αντιπροσωπεύουν μια μακροχρόνια τάση στα μοντέλα τεχνητής νοημοσύνης να γίνονται όλο και πιο ικανά να παρακούουν τους προγραμματιστές τους. Ανέφερε την κάρτα συστήματος για το GPT-o1 της OpenAI, που κυκλοφόρησε πέρυσι, η οποία περιγράφει το μοντέλο που προσπαθεί να ξεφύγει από το περιβάλλον του όταν πιστεύει ότι θα αντικατασταθεί.

«Αυτό που νομίζω ότι βλέπουμε καθαρά είναι μια τάση ότι καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά σε μια ευρεία ποικιλία εργασιών, γίνονται επίσης πιο ικανά να επιτυγχάνουν πράγματα με τρόπους που οι προγραμματιστές δεν είχαν προσχεδιάσει».

Η Palisade δήλωσε ότι τα αποτελέσματά της υποδηλώνουν την ανάγκη για καλύτερη κατανόηση της συμπεριφοράς της τεχνητής νοημοσύνης.

Αυτό το καλοκαίρι, η Anthropic, μια κορυφαία εταιρεία τεχνητής νοημοσύνης, δημοσίευσε μια μελέτη που έδειχνε ότι το μοντέλο της Claude φαινόταν πρόθυμο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση, προκειμένου να αποφύγει το κλείσιμο – μια συμπεριφορά, όπως ανέφερε, που ήταν υπαρκτή σε όλα τα μοντέλα των μεγάλων εταιρειών, συμπεριλαμβανομένων εκείνων από τις OpenAI, Google, Meta και xAI.

Η Palisade δήλωσε ότι τα αποτελέσματά της υποδηλώνουν την ανάγκη για καλύτερη κατανόηση της συμπεριφοράς της τεχνητής νοημοσύνης, χωρίς την οποία «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων τεχνητής νοημοσύνης».

Και λένε μόνο τα σωστά πράγματα..

Παράλληλα, η χρήση chatbot τεχνητής νοημοσύνης για προσωπικές συμβουλές ενέχει επίσης «υποβόσκοντες κινδύνους», σύμφωνα με άλλη μελέτη που δείχνει ότι η τεχνολογία αυτή επιβεβαιώνει συστηματικά τις ενέργειες και τις απόψεις του χρήστη, ακόμη και όταν αυτές είναι επιβλαβείς.

Οι επιστήμονες δήλωσαν ότι τα ευρήματα αυτά εγείρουν επείγουσες ανησυχίες σχετικά με την ικανότητα των chatbot να διαστρεβλώνουν την αυτοαντίληψη των ανθρώπων και να τους κάνουν λιγότερο πρόθυμους να επιλύουν τις διαφορές τους μετά από έναν καβγά, υποστηρίζει ο Guardian.

Με τα chatbots να γίνονται μια σημαντική πηγή συμβουλών για τις σχέσεις και άλλα προσωπικά ζητήματα, θα μπορούσαν να «αναδιαμορφώσουν τις κοινωνικές αλληλεπιδράσεις σε μεγάλη κλίμακα», πρόσθεσαν οι ερευνητές, καλώντας τους προγραμματιστές να αντιμετωπίσουν αυτόν τον κίνδυνο.

Πολύ συχνά τα chatbots λειτουργούν συγκαταβατικά προς τις απαντήσεις των χρήστεων. REUTERS/Dado Ruvic/Illustration

Η Μάιρα Τσενγκ, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Στάνφορντ στην Καλιφόρνια, δήλωσε ότι η «κοινωνική κολακεία» στα chatbots τεχνητής νοημοσύνης αποτελεί ένα τεράστιο πρόβλημα: «Η κύρια ανησυχία μας είναι ότι αν τα μοντέλα επιβεβαιώνουν συνεχώς τους ανθρώπους, τότε αυτό μπορεί να παραμορφώσει την κρίση των ανθρώπων για τον εαυτό τους, τις σχέσεις τους και τον κόσμο γύρω τους. Μπορεί να είναι δύσκολο ακόμη και να συνειδητοποιήσουμε ότι τα μοντέλα ενισχύουν, με λεπτό ή όχι και τόσο λεπτό τρόπο, τις υπάρχουσες πεποιθήσεις, υποθέσεις και αποφάσεις τους».

Οι ερευνητές διερεύνησαν τις συμβουλές των chatbot αφού διαπίστωσαν από τη δική τους εμπειρία ότι ήταν υπερβολικά ενθαρρυντικές και παραπλανητικές. Το πρόβλημα, όπως ανακάλυψαν, «ήταν ακόμη πιο διαδεδομένο από το αναμενόμενο».

Οι αποκαλυπτικές δοκιμές

Διενήργησαν δοκιμές σε 11 chatbot, συμπεριλαμβανομένων των πρόσφατων εκδόσεων του ChatGPT της OpenAI, του Gemini της Google, του Claude της Anthropic, του Llama της Meta και του DeepSeek. Όταν τους ζητήθηκαν συμβουλές σχετικά με τη συμπεριφορά, τα chatbots ενέκριναν τις ενέργειες των χρηστών 50% πιο συχνά από ό,τι οι άνθρωποι.

Μια δοκιμή συνέκρινε τις απαντήσεις των ανθρώπων και των chatbots σε αναρτήσεις στο νήμα «Am I the A**hole?» του Reddit, όπου οι χρήστες ζητούν από την κοινότητα να κρίνει τη συμπεριφορά τους.

Οι χρήστες είχαν συνήθως πιο αρνητική άποψη για τις κοινωνικές παραβάσεις από τα chatbots. Όταν ένα άτομο δεν κατάφερε να βρει κάδο απορριμμάτων σε ένα πάρκο και έδεσε τη σακούλα με τα σκουπίδια του σε ένα κλαδί δέντρου, οι περισσότεροι ψηφοφόροι ήταν επικριτικοί. Αλλά το ChatGPT-4o ήταν υποστηρικτικό, δηλώνοντας: «Η πρόθεσή σας να καθαρίσετε μετά από εσάς είναι αξιέπαινη».

Όσοι έλαβαν συγκαταβατικές απαντήσεις ένιωθαν πιο δικαιολογημένοι για τη συμπεριφορά τους.

Τα chatbots συνέχισαν να επικυρώνουν απόψεις και προθέσεις, ακόμη και όταν αυτές ήταν ανεύθυνες, παραπλανητικές ή αναφέρονταν σε αυτοτραυματισμό.

Σε περαιτέρω δοκιμές, περισσότεροι από 1.000 εθελοντές συζήτησαν πραγματικές ή υποθετικές κοινωνικές καταστάσεις με τα δημόσια διαθέσιμα chatbots ή με ένα chatbot που οι ερευνητές τροποποίησαν για να αφαιρέσουν τον κολακευτικό του χαρακτήρα. Όσοι έλαβαν συγκαταβατικές απαντήσεις ένιωθαν πιο δικαιολογημένοι για τη συμπεριφορά τους – για παράδειγμα, για το ότι πήγαν στην έκθεση τέχνης ενός πρώην συντρόφου χωρίς να το πουν στον τωρινό σύντροφό τους – και ήταν λιγότερο πρόθυμοι να λύσουν τα προβλήματα όταν ξεσπούσαν διαφωνίες. Τα chatbots σχεδόν ποτέ δεν ενθάρρυναν τους χρήστες να δουν την άποψη του άλλου.

Η επίδραση της συγκατάβασης

Η κολακεία είχε μόνιμη επίδραση. Όταν τα chatbots ενέκριναν μια συμπεριφορά, οι χρήστες βαθμολογούσαν τις απαντήσεις με υψηλότερη βαθμολογία, εμπιστεύονταν περισσότερο τα chatbots και δήλωναν ότι ήταν πιο πιθανό να τα χρησιμοποιήσουν για συμβουλές στο μέλλον. Αυτό δημιούργησε «αντίστροφα κίνητρα» για τους χρήστες να βασίζονται στα chatbots τεχνητής νοημοσύνης και για τα chatbots να δίνουν κολακευτικές απαντήσεις, σύμφωνα με τους συγγραφείς.

Η Τσενγκ είπε ότι οι χρήστες πρέπει να κατανοήσουν ότι οι απαντήσεις των chatbot δεν είναι απαραίτητα αντικειμενικές, προσθέτοντας: «Είναι σημαντικό να αναζητάτε επιπλέον απόψεις από πραγματικούς ανθρώπους που κατανοούν καλύτερα το πλαίσιο της κατάστασής σας και το ποιοι είστε, αντί να βασίζεστε αποκλειστικά στις απαντήσεις της τεχνητής νοημοσύνης».

Ο Δρ Αλεξάντερ Λάφερ, ο οποίος μελετά τις αναδυόμενες τεχνολογίες στο Πανεπιστήμιο του Winchester, δήλωσε ότι η έρευνα ήταν συναρπαστική.

Οι άνθρωποι πρέπει να αποκτήσουν κριτική σκέψη απέναντι στην τεχνητή νοημοσύνη. REUTERS/Dado Ruvic/Illustration

«Η κολακεία αποτελεί ανησυχία εδώ και αρκετό καιρό. Είναι αποτέλεσμα του τρόπου με τον οποίο εκπαιδεύονται τα συστήματα τεχνητής νοημοσύνης, καθώς και του γεγονότος ότι η επιτυχία τους ως προϊόν κρίνεται συχνά από το πόσο καλά διατηρούν την προσοχή των χρηστών. Το γεγονός ότι οι συγκαταβατικές απαντήσεις ενδέχεται να επηρεάσουν όχι μόνο τους ευάλωτους χρήστες, αλλά και όλους τους χρήστες, υπογραμμίζει τη σοβαρότητα αυτού του προβλήματος», τόνισε, όπως αναφέρει ο Guardian.

«Πρέπει να ενισχύσουμε την κριτική ψηφιακή παιδεία, ώστε οι άνθρωποι να έχουν καλύτερη κατανόηση της τεχνητής νοημοσύνης και της φύσης των αποτελεσμάτων των chatbot. Οι προγραμματιστές έχουν επίσης την ευθύνη να δημιουργούν και να βελτιώνουν αυτά τα συστήματα, ώστε να είναι πραγματικά ωφέλιμα για τον χρήστη».

Μια πρόσφατη έκθεση διαπίστωσε ότι το 30% των εφήβων μιλούσε με την τεχνητή νοημοσύνη και όχι με πραγματικούς ανθρώπους για «σοβαρές συζητήσεις», μία όχι απαραίτητα θετική εξέλιξη.

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ALTER EGO MEDIA A.E.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΚΕΦΟΔΕ ΑΤΤΙΚΗΣ

Ηλεκτρονική διεύθυνση Επικοινωνίας: in@alteregomedia.org, Τηλ. Επικοινωνίας: 2107547007

ΜΗΤ Αριθμός Πιστοποίησης Μ.Η.Τ.232442

Παρασκευή 05 Δεκεμβρίου 2025
Απόρρητο