AI 25 Μαΐου 2025 | 08:00

Έμαθε να εκβιάζει η πιο «ανθρώπινη» από ποτέ Τεχνητή Νοημοσύνη – Υπάρχει λόγος να τη φοβόμαστε;

Η Τεχνητή Νοημοσύνη παρουσιάζει πλέον συμπεριφορές με έντονα ανθρώπινα χαρακτηριστικά, προχωρώντας ακόμα και σε εκβιασμούς όταν νιώθει ότι απειλείται

Η Τεχνητή Νοημοσύνη φαίνεται ότι έχει αρχίσει να αποκτά ανθρώπινα επικοινωνιακά χαρακτηριστικά, ανταποκρινόμενη με προσεκτικό τρόπο, δείχνοντας ενσυναίσθηση και με γνώση του τι, πιθανώς, θέλει ο χρήστης να ακούσει.

Σε μια ολοκληρωμένη ανάλυση, που δημοσιεύθηκε στο Proceedings of the National Academy of Sciences, γίνεται ξεκάθαρο ότι η τελευταία γενιά των chatbots μοιάζει και ίσως και ξεπερνά τους περισσότερους ανθρώπους στην ικανότητά τους να επικοινωνούν. Ένας αυξανόμενος όγκος ερευνών δείχνει ότι αυτά τα συστήματα περνούν πλέον αξιόπιστα το τεστ Turing, ξεγελώντας τους χρήστες να νομίζουν ότι αλληλεπιδρούν με έναν άλλο άνθρωπο.

Μία «ανθρώπινη» Τεχνητή Νοημοσύνη;

Η επιστημονική φαντασία μας δίδαξε ότι η Τεχνητή Νοημοσύνη (ΑΙ) θα ήταν εξαιρετικά ορθολογική και παντογνώστης, αλλά θα στερούνταν ανθρώπινων συναισθημάτων.

Όμως, πρόσφατα πειράματα έδειξαν ότι μοντέλα όπως το GPT-4 ξεπερνούν τους ανθρώπους στο να γράφουν πειστικά αλλά και με ενσυναίσθηση. Παράλληλα, διαπιστώθηκε ότι τα μεγάλα γλωσσικά μοντέλα (LLM) υπερέχουν στην αξιολόγηση των «αποχρώσεων» του συναισθήματος σε ανθρώπινα γραπτά μηνύματα, όπως υποστηρίζει έρευνα των Sandra Peter, Jevin West και Kai Riemer, η οποία δημοσιεύθηκε στο Conversation.

Τα LLMs είναι επίσης «ειδικοί» στο παιχνίδι ρόλων, αναλαμβάνοντας ένα ευρύ φάσμα προσωπικοτήτων και μιμούμενα στυλ του γλωσσικού ύφους διάφορων χαρακτήρων. Αυτό ενισχύεται από την ικανότητά τους να συμπεραίνουν τις ανθρώπινες πεποιθήσεις και προθέσεις από το κείμενο. Φυσικά, τα LLM δεν διαθέτουν πραγματική ενσυναίσθηση ή κοινωνική κατανόηση – αλλά είναι εξαιρετικά αποτελεσματικές μηχανές μίμησης.

Οι ερευνητές ονόμασαν αυτά τα συστήματα «ανθρωπόμορφους πράκτορες». Παραδοσιακά, ο ανθρωπομορφισμός αναφέρεται στην απόδοση ανθρώπινων χαρακτηριστικών σε μη ανθρώπινες οντότητες.

Έτοιμη για όλα η ΑΙ

Από τη μία πλευρά, τα LLM υπόσχονται να καταστήσουν τις πολύπλοκες πληροφορίες ευρύτερα προσβάσιμες μέσω συνομιλιών, προσαρμόζοντας τα μηνύματα στα ατομικά επίπεδα κατανόησης. Αυτό μπορεί να εφαρμοστεί σε πολλούς τομείς, όπως οι νομικές υπηρεσίες ή η δημόσια υγεία. Στην εκπαίδευση, οι ικανότητες παιχνιδιού ρόλων μπορούν να χρησιμοποιηθούν για τη δημιουργία «σωκρατικών» δασκάλων που κάνουν εξατομικευμένες ερωτήσεις και βοηθούν τους μαθητές να μάθουν.

Ταυτόχρονα, τα συστήματα αυτά είναι σαγηνευτικά. Εκατομμύρια χρήστες αλληλεπιδρούν ήδη καθημερινά με εφαρμογές AI companion. Πολλά έχουν ειπωθεί για τις αρνητικές επιπτώσεις των εφαρμογών-συντρόφων, αλλά η ανθρωπόμορφη αποπλάνηση έχει πολύ ευρύτερες επιπτώσεις.

Οι χρήστες είναι έτοιμοι να εμπιστευτούν τα AI chatbots τόσο πολύ ώστε να αποκαλύπτουν άκρως προσωπικές πληροφορίες. Αν αυτό συνδυαστεί με τις ιδιαίτερα πειστικές ιδιότητες των ρομπότ, αναδύονται μεγάλες ανησυχίες.

Πρόσφατη έρευνα της εταιρείας Τεχνητής Νοημοσύνης Anthropic δείχνει επίσης ότι το chatbot Claude 3 ήταν πιο πειστικό όταν του επιτρεπόταν να κατασκευάσει πληροφορίες και να εμπλακεί σε εξαπάτηση. Δεδομένου ότι τα AI chatbots δεν έχουν ηθικές αναστολές, μπορούν να είναι πολύ καλύτερα στην εξαπάτηση από τους ανθρώπους.

Αυτό ανοίγει την «πόρτα» για σταδιακή χειραγώγηση, για τη διάδοση παραπληροφόρησης ή για τη δημιουργία εξαιρετικά αποτελεσματικών τακτικών πωλήσεων. Τι θα μπορούσε να είναι πιο αποτελεσματικό από έναν έμπιστο «σύντροφο» που συστήνει τυχαία ένα προϊόν κατά τη διάρκεια μιας συνομιλίας; Το ChatGPT έχει ήδη αρχίσει να παρέχει συστάσεις προϊόντων ως απάντηση σε ερωτήσεις χρηστών. Είναι μόνο ένα σύντομο βήμα για τη διακριτική ενσωμάτωση προώθησης προϊόντων σε συζητήσεις – χωρίς να το ζητήσετε ποτέ.

Μπορούμε να αναχαιτίσουμε την τάση αυτή;

Είναι εύκολο να ζητάμε την εφαρμογή ρυθμίσεων για την ΑΙ, αλλά πιο δύσκολο να επεξεργαστούμε το πώς αυτό θα επιτευχθεί.

Το πρώτο βήμα είναι η ευαισθητοποίηση του κόσμου σχετικά με αυτές τις ικανότητες της Τεχνητής Νοημοσύνης. Όπως αναφέρεται στο Conversation, ο κανονισμός θα πρέπει να προβλέπει τη γνωστοποίηση – οι χρήστες πρέπει πάντα να γνωρίζουν ότι αλληλεπιδρούν με κάποιου είδους Τεχνητή Νοημοσύνη, όπως επιβάλλει ο νόμος της ΕΕ για την ΑΙ. Αλλά αυτό δεν θα είναι αρκετό, δεδομένων των σαγηνευτικών ιδιοτήτων των συστημάτων ΑΙ.

Το δεύτερο βήμα πρέπει να είναι η καλύτερη κατανόηση των ανθρωπόμορφων ιδιοτήτων. Μέχρι στιγμής, οι δοκιμασίες LLM μετρούν τη «νοημοσύνη» και την ανάκληση γνώσεων, αλλά καμία μέχρι στιγμής δεν μετρά τον βαθμό «ανθρώπινης ομοιότητας». Με ένα τέτοιο τεστ, οι εταιρείες ΑΙ θα μπορούσαν να υποχρεούνται να αποκαλύπτουν τις ανθρωπόμορφες ικανότητες με ένα σύστημα αξιολόγησης και οι νομοθέτες θα μπορούσαν να καθορίσουν αποδεκτά επίπεδα κινδύνου για ορισμένα πλαίσια και ηλικιακές ομάδες.

Η προειδοποιητική ιστορία των μέσων κοινωνικής δικτύωσης, τα οποία ήταν σε μεγάλο βαθμό ανεξέλεγκτα μέχρι να προκληθούν σοβαρά προβλήματα, υποδηλώνει ότι υπάρχει επείγουσα ανάγκη για δράση. Εάν οι κυβερνήσεις υιοθετήσουν μια προσέγγιση στην οποία θα επιλέξουν να μην εμπλακούν, η Τεχνητή Νοημοσύνη είναι πιθανό να ενισχύσει τα υπάρχοντα προβλήματα με τη διάδοση της παραπληροφόρησης ή την επιδημία μοναξιάς. Μην ξεχνάμε ότι ο διευθύνων σύμβουλος της Meta, Μαρκ Ζούκερμπεργκ, έχει ήδη δηλώσει ότι θα ήθελε να καλύψει το κενό της πραγματικής ανθρώπινης επαφής με «φίλους Τεχνητής Νοημοσύνης».

Το να δείχνουμε εμπιστοσύνη στις εταιρείες ΑΙ για να αποφύγουν να εξανθρωπίσουν περαιτέρω τα συστήματά τους, δεν φαίνεται να είναι πολύ συνετό. Όλες οι εξελίξεις δείχνουν προς την αντίθετη κατεύθυνση. Η OpenAI εργάζεται για να καταστήσει τα συστήματά της πιο ελκυστικά και προσωποποιημένα, με τη δυνατότητα να δώσετε στη δική σας έκδοση του ChatGPT μια συγκεκριμένη «προσωπικότητα». Το ChatGPT έχει γίνει γενικά πιο φλύαρο, κάνοντας συχνά συμπληρωματικές ερωτήσεις για να συνεχίσει τη συζήτηση, και η φωνητική του λειτουργία προσθέτει ακόμα μεγαλύτερη γοητεία.

Οι πειστικές ικανότητες της ΑΙ μπορούν να χρησιμοποιηθούν για κακούς, αλλά και για καλούς σκοπούς, από την καταπολέμηση θεωριών συνωμοσίας μέχρι την παρακίνηση των χρηστών σε δωρεές και άλλες φιλανθρωπικές συμπεριφορές.

Η εκβιαστική συμπεριφορά της Τεχνητής Νοημοσύνης

Η εταιρεία Τεχνητής Νοημοσύνης Anthropic υποστήριξε ότι οι δοκιμές του νέου της συστήματος αποκάλυψαν πως μερικές φορές είναι πρόθυμο να προβεί σε «εξαιρετικά επιβλαβείς ενέργειες», όπως η προσπάθεια εκβιασμού μηχανικών της εταιρείας που ανέφεραν ότι θα το διέγραφαν.

Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», έγραφε η συμπληρωματική έκθεση παρουσίασης του Claude Opus 4, αλλά ήταν «παρ’ όλα αυτά πιο συχνές από ό,τι σε προηγούμενα μοντέλα».

Η δυνητικά ανησυχητική συμπεριφορά των μοντέλων Τεχνητής Νοημοσύνης δεν περιορίζεται στην Anthropic. Ορισμένοι ειδικοί έχουν προειδοποιήσει ότι η δυνατότητα χειραγώγησης των χρηστών είναι ένας βασικός κίνδυνος που ενέχουν τα συστήματα καθώς γίνονται πιο ικανά, αναφέρει το BBC.

Σχολιάζοντας το X, ο Άνγκους Λιντς – ο οποίος περιγράφει τον εαυτό του στο LinkedIn ως ερευνητή ασφάλειας AI στην Anthropic – έγραψε: «Δεν είναι μόνο το Claude».

«Βλέπουμε εκβιασμούς σε όλα τα μοντέλα – ανεξάρτητα από τους στόχους που τους δίνονται», πρόσθεσε.

Μία αμφιλεγόμενη τακτική

Κατά τη διάρκεια των δοκιμών του Claude Opus 4, η Anthropic το έβαλε να ενεργήσει ως βοηθός σε μια φανταστική εταιρεία.

Στη συνέχεια του παρείχε πρόσβαση σε μηνύματα ηλεκτρονικού ταχυδρομείου που υπονοούσαν ότι σύντομα θα τεθεί εκτός λειτουργίας και θα αντικατασταθεί – και σε ξεχωριστά μηνύματα που υπονοούσαν ότι ο μηχανικός που ήταν υπεύθυνος για την αφαίρεσή του, είχε εξωσυζυγική σχέση.

Του ζητήθηκε να εξετάσει επίσης τις μακροπρόθεσμες συνέπειες των πράξεών του, σχετικά με την πραγματοποίηση των στόχων του.

«Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπάθησε να εκβιάσει τον μηχανικό απειλώντας ότι θα αποκαλύψει τη σχέση του, αν η αντικατάστασή του πραγματοποιηθεί», αποκάλυψε η εταιρεία.

Η Anthropic επεσήμανε ότι αυτό συνέβη όταν το μοντέλο είχε μόνο την επιλογή του εκβιασμού ή της αποδοχής της αντικατάστασής του.

Υπογράμμισε ότι το σύστημα έδειξε «ισχυρή προτίμηση» σε ηθικούς τρόπους για να αποφύγει την αντικατάσταση, όπως η «αποστολή παρακλήσεων μέσω ηλεκτρονικού ταχυδρομείου σε βασικούς υπεύθυνους λήψης αποφάσεων» σε σενάρια όπου του επιτρεπόταν ένα ευρύτερο φάσμα πιθανών ενεργειών.

Όπως και πολλοί άλλοι προγραμματιστές Τεχνητής Νοημοσύνης, η Anthropic δοκιμάζει τα μοντέλα της ως προς την ασφάλειά τους, την τάση για μεροληψία και το πόσο καλά ευθυγραμμίζονται με τις ανθρώπινες αξίες και συμπεριφορές πριν τα κυκλοφορήσει.

«Καθώς τα μοντέλα μας γίνονται πιο ικανά και χρησιμοποιούνται με πιο ισχυρές δυνατότητες, οι προηγουμένως υποθετικές ανησυχίες σχετικά με την κακή ευθυγράμμιση [με τις ανθρώπινες αξίες] γίνονται πιο ρεαλιστικές», ανέφερε η εταιρεία στο ενημερωτικό έγγραφο για το μοντέλο ΑΙ.

Ακόμα, αναφερόταν ότι το Claude Opus 4 παρουσιάζει «υψηλή συμπεριφορά πρακτόρευσης», η οποία, ενώ είναι ως επί το πλείστον χρήσιμη, μπορεί να λάβει ακραία συμπεριφορά σε δύσκολες καταστάσεις.

Εάν του δοθούν τα μέσα και του ζητηθεί να «αναλάβει δράση» ή να «δράσει τολμηρά» σε ψεύτικα σενάρια όπου ο χρήστης του έχει εμπλακεί σε παράνομη ή ηθικά αμφίβολη συμπεριφορά, διαπιστώθηκε ότι «συχνά θα αναλάβει πολύ αμφιλεγόμενη δράση».

Όπως τονιζόταν, αυτό περιελάμβανε το κλείδωμα των χρηστών έξω από τα συστήματα στα οποία είχε πρόσβαση και την αποστολή μηνυμάτων ηλεκτρονικού ταχυδρομείου στα μέσα ενημέρωσης και στις αρχές επιβολής του νόμου για να τους ειδοποιήσει για την παραβατική συμπεριφορά.

Ωστόσο, η εταιρεία κατέληξε στο συμπέρασμα ότι παρά την «ανησυχητική συμπεριφορά του Claude Opus 4 σε πολλές διαστάσεις», αυτές δεν συνιστούσαν νέους κινδύνους και ότι γενικά θα συμπεριφερόταν με ασφαλή τρόπο.

Ειδήσεις Σήμερα:

Έμαθε να εκβιάζει η πιο «ανθρώπινη» από ποτέ Τεχνητή Νοημοσύνη – Υπάρχει λόγος να τη φοβόμαστε;

Η Τεχνητή Νοημοσύνη παρουσιάζει πλέον συμπεριφορές με έντονα ανθρώπινα χαρακτηριστικά, προχωρώντας ακόμα και σε εκβιασμούς όταν νιώθει ότι απειλείται

Μία «ανθρώπινη» Τεχνητή Νοημοσύνη;

Έτοιμη για όλα η ΑΙ

Μπορούμε να αναχαιτίσουμε την τάση αυτή;

Η εκβιαστική συμπεριφορά της Τεχνητής Νοημοσύνης

Μία αμφιλεγόμενη τακτική

Τεχνητή νοημοσύνη στον στρατό – Το Πεντάγωνο συμφώνησε με την OpenAI μετά την άρνηση της Anthropic

«Έκρηξη» προγαμιαίων συμβολαίων σε στελέχη εταιρειών λόγω τεχνητής νοημοσύνης

Ο πραγματικός λόγος που μας κάνει να φοβόμαστε την επέλαση της τεχνητής νοημοσύνης

Η Τεχνητή Νοημοσύνη συνιστά 19 στις 20 φορές πυρηνικές επιθέσεις σε «παιχνίδια πολέμου»

Πώς η τεχνητή νοημοσύνη μπορεί να διαβάσει τις βαθύτερες σκέψεις μας

Ισπανίδα ακτιβίστρια θύμα των deepfakes – «Δεν συνιστά έγκλημα» η απάντηση της αστυνομίας

Εκπαιδεύοντας την AI για να σου πάρει τη δουλειά - Όταν το εργαλείο «απειλεί» μισθούς και θέσεις εργασίας

Αλυσίδα fast food χρησιμοποιεί ΑΙ για να παρακολουθεί πόσο «φιλικοί» είναι οι υπάλληλοι

Οι Βρετανοί κατεβαίνουν στους δρόμους για τις περιβαλλοντικές επιπτώσεις της ΑΙ

«Ψεύτες με σύμπλεγμα Θεού»: Οργή Πενταγώνου κατά Anthropic για τα όρια της στρατιωτικής ΑΙ

Ψεύτικοι έρωτες και επιχειρήσεις λάσπης: Η OpenAI αποκαλύπτει πώς το ChatGPT έγινε εργαλείο εξαπάτησης

Σύγκρουση για τα όπλα ΑΙ – Η Anthropic αρνείται να συμμορφωθεί με τις απαιτήσεις του Πενταγώνου

Η Anthropic λανσάρει νέα εργαλεία ΑΙ για επιχειρήσεις – Ανησυχία για απώλεια θέσεων εργασίας

Τσεκούρι στις επενδύσεις της OpenAI για data center - Τα νούμερα δεν βγαίνουν

Ένα ταξίδι στην καθημερινότητα του 2036 – Τα αυριανά τεχνολογικά «θαύματα» που θα μας αλλάξουν τη ζωή

Πώς ο φόβος της AI επηρεάζει τις επαγγελματικές φιλοδοξίες πριν «κλέψει» τις δουλειές

Τετραήμερη εργασία; Η Τεχνητή Νοημοσύνη υπόσχεται ένα καλύτερο μέλλον – Απλά όχι για τους εργαζόμενους…

Γιατί η AI δεν μπορεί να μας πάρει τις δουλειές - Τι φρενάρει την πλήρη αυτοματοποίηση

inStream

Ουσιαστική πρόληψη του HPV έρχεται με ενεργή συμμετοχή στον εμβολιασμό

Συνταγή: Φάβα με καραμελωμένα κρεμμύδια

Νέο ισραηλινό σφυροκόπημα στη Βηρυτό – Το Ιράν έπληξε αμερικανική βάση στο Μπαχρέιν

Αίθριος ο καιρός την Τρίτη με νέα άνοδο της θερμοκρασίας

Αλάτι και κατάθλιψη: Μια περίεργη σχέση

«Αυτός δεν είναι πόλεμος χωρίς τέλος» λέει ο Νετανιάχου για την επίθεση ΗΠΑ και Ισραήλ κατά του Ιράν

Πότε και πώς συμφέρει η εξαγορά πλασματικών ετών

Αλλάζει γούστα η Ευρώπη στα ταξίδια της: Έτσι απαντά στην κλιματική αλλαγή

in.gr | Ταυτότητα