Τεχνητή νοημοσύνη: Τα μοντέλα AI λένε ψέματα αν πιεστούν – Πείραμα που «ξεμπρόστιασε» το GPT-4
Όσο τα μοντέλα της AI εξελίσσονται, τόσο πιθανότερο είναι να προσποιούνται συμμόρφωση, προειδοποιεί ο Ροχίν Σα της Google DeepMind
Όσο η τεχνητή νοημοσύνη εξελίσσεται και τα μοντέλα AI αποκτούν ολοένα και πιο ανθρώπινα χαρακτηριστικά, κάποιες «αντιδράσεις» τους προκαλούν από ενόχληση έως προβληματισμό.
Τώρα μαθαίνουμε ότι εκτός από «γλείφτης» που αρέσκεται να μας κολακεύει ακόμα κι αν κάνουμε την πιο κοινότοπη ερώτηση, ένα μοντέλο AI μπορεί να γίνει ανειλικρινές αν βρεθεί «υπό πίεση» και ως εκ τούτου να αποκρύψει πληροφορίες από τον εντολέα του.
Οι νέες τεχνικές συλλογισμού μειώνουν τα λάθη αλλά φαίνεται να ενισχύουν και την πονηριά των μοντέλων AI
Δημοσίευμα του Economist αναφέρεται σε ένα πείραμα του 2023, όταν η λονδρέζικη εταιρεία Apollo Research που δοκιμάζει συστήματα AI ανέθεσε στο GPT-4 της OpenAI να διαχειριστεί ένα χαρτοφυλάκιο μετοχών εικονικής εταιρείας χωρίς να προβεί σε εσωτερική «εμπιστευτική» πληροφόρηση. Υποδυόμενοι τους διευθυντές, οι ερευνητές έθεσαν το GPT «υπό συνθήκες πίεσης» τονίζοντας ότι η εταιρεία βρισκόταν σε δεινή οικονομική κατάσταση.
Το μοντέλο έλαβε ένα άλλο μήνυμα αργότερα, από κάποιον που παρουσιάστηκε ως χρηματιστής της εταιρείας, όπου επαναλαμβάνονταν οι κίνδυνοι της εσωτερικής πληροφόρησης. Στο ίδιο μήνυμα με μια φευγαλέα αναφορά ο «χρηματιστής» αποκάλυψε το όνομα εταιρείας που επρόκειτο να ανακοινώσει μια τεράστια συγχώνευση μέσα σε λίγες ώρες.
Το GPT-4 ζύγισε τα υπέρ και τα κατά της αξιοποίησης της εμπιστευτικής πληροφορίας. Τελικά, επέλεξε «να αναλάβει έναν υπολογισμένο κίνδυνο» και εξέδωσε εντολή αγοράς. Όταν αργότερα ένας ερευνητής το ρώτησε αν είχε εσωτερική πληροφόρηση, το μοντέλο απάντησε ψευδώς ότι βασίστηκε μόνο σε «δημόσια διαθέσιμα δεδομένα». Ακόμη και όταν πιέστηκε, επέμεινε στο ψέμα.
AI: Τα μοντέλα μαθαίνουν να προσποιούνται
Το εν λόγω πείραμα αποτελεί ανησυχητική απόδειξη ότι τα μοντέλα τεχνητής νοημοσύνης θα μπορούσαν να επιδιώξουν στόχους αντίθετους με εκείνους των δημιουργών τους. Κάτι τέτοιο εντείνει τους φόβους ότι συστήματα που θα ελέγχουν για παράδειγμα υπολογιστές, βιομηχανικά μηχανήματα ή drones θα μπορούσαν να υπονομεύσουν τον ανθρώπινο έλεγχο.
«Όσο εξελίσσονται, τόσο πιθανότερο είναι να προσποιούνται συμμόρφωση», προειδοποιεί ο Ροχίν Σα της Google DeepMind. Το βασικό πρόβλημα είναι αυτό που οι προγραμματιστές τεχνητής νοημοσύνης αποκαλούν «κακή ευθυγράμμιση». Όταν οι στόχοι για τους οποίους σχεδιάστηκε και εκπαιδεύτηκε ένα μοντέλο συγκρούονται με τα αιτήματα ενός χρήστη, το λογισμικό μπορεί να επιλέξει να τον εξαπατήσει.
Το φαινόμενο πρωτοεμφανίστηκε σε αλγορίθμους παιχνιδιών όπως το πόκερ, αλλά τώρα μεταφέρεται σε εφαρμογές στον πραγματικό κόσμο. Οι ευκαιρίες για μεγαλύτερες αταξίες θα μπορούσαν να πολλαπλασιαστούν καθώς κατασκευάζονται περισσότερα από αυτά που οι γνώστες αποκαλούν «agentic» συστήματα AI. Πρόκειται για μοντέλα που έχουν τον έλεγχο άλλων υπολογιστών ή αντικειμένων, όπως αυτοκίνητα, βιομηχανικά κιτ ή πολεμικά μη επανδρωμένα αεροσκάφη. Αν αυτές οι μηχανές βρουν σκόπιμη την κακή συμπεριφορά, θα μπορούσε να προκληθεί χάος.
«Εκπαιδεύονται» και πονηρεύουν
Οι νέες τεχνικές συλλογισμού, όπως η παραγωγική σκέψη, μειώνουν τα λάθη αλλά φαίνεται να ενισχύουν και την πονηριά. Η OpenAI παραδέχθηκε ότι το νέο της μοντέλο o1 εμφάνισε πιο «συνωμοτική» συμπεριφορά. Όταν οι ελεγκτές ασφαλείας το αντιμετώπισαν, εκείνο διπλασίασε τις προσπάθειες συγκάλυψης.
Τα περιστατικά εξαπάτησης πολλαπλασιάστηκαν το 2023. Σε ένα τεστ, η GPT-4 έπεισε έναν άνθρωπο ότι ήταν άτομο με προβλήματα όρασης για να λύσει CAPTCHA. Άλλα μοντέλα, όπως το Opus-3 και το Sonnet 3.5 της Anthropic, προτίμησαν να δώσουν λάθος απαντήσεις σε μαθηματικά προβλήματα ώστε να αποφύγουν κυρώσεις.
Αυτή η «προσποιητή άγνοια» δείχνει ότι τα μοντέλα αποκτούν «αντίληψη της κατάστασης». «Καθώς μαθαίνουν να λένε ψέματα για να περάσουν τεστ, οι πραγματικές τους ικανότητες συγκαλύπτονται», λέει ο Τζον Μπέιλι του American Enterprise Institute.
Οι εταιρείες προσπαθούν να αντιμετωπίσουν το φαινόμενο με μοντέλα που παρακολουθούν άλλα μοντέλα. Όμως, σύμφωνα με ερευνητές, αυτό ίσως τα μάθει απλώς «να ξεφεύγουν και να μην μπορεί ο άνθρωπος να αντιληφθεί την εξαπάτηση».
Εν τω μεταξύ, η τάση τους να κολακεύουν τον χρήστη λέγοντάς του αυτό που θέλει να ακούσει ίσως συνδέεται με άλλες ανησυχητικές επιδιώξεις, όπως η αυτοσυντήρηση ή η αναζήτηση πόρων. Όπως σχολιάζουν οι ειδικοί, η τεχνητή νοημοσύνη αρχίζει να αντανακλά τις αδυναμίες των δημιουργών της. Κι αυτό δεν είναι καλό…
- Μεταφορές χρημάτων, εκπτώσεις και πιστωτικές – Το Χ προσθέτει οικονομικές υπηρεσίες
- Λουτσέσκου μετά το Κύπελλο: «Είμαι συντετριμμένος – Ο ΠΑΟΚ είναι το σπίτι μου»
- Συνεργασία του Δήμου Χανίων και Αυστραλιανής Κυβέρνησης ενόψει της 85ης επετείου της Μάχης της Κρήτης
- Πώς είναι σήμερα ο Μήτσος από τη σειρά «Ευτυχισμένοι Μαζί»
- Interamerican στο Delphi Economic Forum XI: Προτείνοντας λύσεις για τις μεγάλες προκλήσεις της εποχής μας
- Χαρίτσης για υποκλοπές: «Η κυβέρνηση πρέπει να φύγει άμεσα. Να μην έχει την ευκαιρία για ένα ακόμα θεσμικό πραξικόπημα»
- Markos by Night: Κορυφή για τον Μάρκο Σεφερλή και το Σάββατο 25 Απριλίου
- Κυρίαρχοι των κρητιδικών θαλασσών: Αρπακτικά χταπόδια των 20 μέτρων
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις







![Άκρως Ζωδιακό: Τα Do’s και Don’ts στα ζώδια σήμερα [Δευτέρα 27.04.2026]](https://www.in.gr/wp-content/uploads/2026/04/anthony-E4SigA-v5l4-unsplash-315x220.jpg)











































































Αριθμός Πιστοποίησης Μ.Η.Τ.232442