Η Τεχνητή Νοημοσύνη φαίνεται ότι έχει αρχίσει να αποκτά ανθρώπινα επικοινωνιακά χαρακτηριστικά, ανταποκρινόμενη με προσεκτικό τρόπο, δείχνοντας ενσυναίσθηση και με γνώση του τι, πιθανώς, θέλει ο χρήστης να ακούσει.

Σε μια ολοκληρωμένη ανάλυση, που δημοσιεύθηκε στο Proceedings of the National Academy of Sciences, γίνεται ξεκάθαρο ότι η τελευταία γενιά των chatbots μοιάζει και ίσως και ξεπερνά τους περισσότερους ανθρώπους στην ικανότητά τους να επικοινωνούν. Ένας αυξανόμενος όγκος ερευνών δείχνει ότι αυτά τα συστήματα περνούν πλέον αξιόπιστα το τεστ Turing, ξεγελώντας τους χρήστες να νομίζουν ότι αλληλεπιδρούν με έναν άλλο άνθρωπο.

Μία «ανθρώπινη» Τεχνητή Νοημοσύνη;

Η επιστημονική φαντασία μας δίδαξε ότι η Τεχνητή Νοημοσύνη (ΑΙ) θα ήταν εξαιρετικά ορθολογική και παντογνώστης, αλλά θα στερούνταν ανθρώπινων συναισθημάτων.

Όμως, πρόσφατα πειράματα έδειξαν ότι μοντέλα όπως το GPT-4 ξεπερνούν τους ανθρώπους στο να γράφουν πειστικά αλλά και με ενσυναίσθηση. Παράλληλα, διαπιστώθηκε ότι τα μεγάλα γλωσσικά μοντέλα (LLM) υπερέχουν στην αξιολόγηση των «αποχρώσεων» του συναισθήματος σε ανθρώπινα γραπτά μηνύματα, όπως υποστηρίζει έρευνα των Sandra Peter, Jevin West και Kai Riemer, η οποία δημοσιεύθηκε στο Conversation.

Τα LLMs είναι επίσης «ειδικοί» στο παιχνίδι ρόλων, αναλαμβάνοντας ένα ευρύ φάσμα προσωπικοτήτων και μιμούμενα στυλ του γλωσσικού ύφους διάφορων χαρακτήρων. Αυτό ενισχύεται από την ικανότητά τους να συμπεραίνουν τις ανθρώπινες πεποιθήσεις και προθέσεις από το κείμενο. Φυσικά, τα LLM δεν διαθέτουν πραγματική ενσυναίσθηση ή κοινωνική κατανόηση – αλλά είναι εξαιρετικά αποτελεσματικές μηχανές μίμησης.

Οι ερευνητές ονόμασαν αυτά τα συστήματα «ανθρωπόμορφους πράκτορες». Παραδοσιακά, ο ανθρωπομορφισμός αναφέρεται στην απόδοση ανθρώπινων χαρακτηριστικών σε μη ανθρώπινες οντότητες.

Έτοιμη για όλα η ΑΙ

Από τη μία πλευρά, τα LLM υπόσχονται να καταστήσουν τις πολύπλοκες πληροφορίες ευρύτερα προσβάσιμες μέσω συνομιλιών, προσαρμόζοντας τα μηνύματα στα ατομικά επίπεδα κατανόησης. Αυτό μπορεί να εφαρμοστεί σε πολλούς τομείς, όπως οι νομικές υπηρεσίες ή η δημόσια υγεία. Στην εκπαίδευση, οι ικανότητες παιχνιδιού ρόλων μπορούν να χρησιμοποιηθούν για τη δημιουργία «σωκρατικών» δασκάλων που κάνουν εξατομικευμένες ερωτήσεις και βοηθούν τους μαθητές να μάθουν.

Ταυτόχρονα, τα συστήματα αυτά είναι σαγηνευτικά. Εκατομμύρια χρήστες αλληλεπιδρούν ήδη καθημερινά με εφαρμογές AI companion. Πολλά έχουν ειπωθεί για τις αρνητικές επιπτώσεις των εφαρμογών-συντρόφων, αλλά η ανθρωπόμορφη αποπλάνηση έχει πολύ ευρύτερες επιπτώσεις.

Οι χρήστες είναι έτοιμοι να εμπιστευτούν τα AI chatbots τόσο πολύ ώστε να αποκαλύπτουν άκρως προσωπικές πληροφορίες. Αν αυτό συνδυαστεί με τις ιδιαίτερα πειστικές ιδιότητες των ρομπότ, αναδύονται μεγάλες ανησυχίες.

Πρόσφατη έρευνα της εταιρείας Τεχνητής Νοημοσύνης Anthropic δείχνει επίσης ότι το chatbot Claude 3 ήταν πιο πειστικό όταν του επιτρεπόταν να κατασκευάσει πληροφορίες και να εμπλακεί σε εξαπάτηση. Δεδομένου ότι τα AI chatbots δεν έχουν ηθικές αναστολές, μπορούν να είναι πολύ καλύτερα στην εξαπάτηση από τους ανθρώπους.

Αυτό ανοίγει την «πόρτα» για σταδιακή χειραγώγηση, για τη διάδοση παραπληροφόρησης ή για τη δημιουργία εξαιρετικά αποτελεσματικών τακτικών πωλήσεων. Τι θα μπορούσε να είναι πιο αποτελεσματικό από έναν έμπιστο «σύντροφο» που συστήνει τυχαία ένα προϊόν κατά τη διάρκεια μιας συνομιλίας; Το ChatGPT έχει ήδη αρχίσει να παρέχει συστάσεις προϊόντων ως απάντηση σε ερωτήσεις χρηστών. Είναι μόνο ένα σύντομο βήμα για τη διακριτική ενσωμάτωση προώθησης προϊόντων σε συζητήσεις – χωρίς να το ζητήσετε ποτέ.

Μπορούμε να αναχαιτίσουμε την τάση αυτή;

Είναι εύκολο να ζητάμε την εφαρμογή ρυθμίσεων για την ΑΙ, αλλά πιο δύσκολο να επεξεργαστούμε το πώς αυτό θα επιτευχθεί.

Το πρώτο βήμα είναι η ευαισθητοποίηση του κόσμου σχετικά με αυτές τις ικανότητες της Τεχνητής Νοημοσύνης. Όπως αναφέρεται στο Conversation, ο κανονισμός θα πρέπει να προβλέπει τη γνωστοποίηση – οι χρήστες πρέπει πάντα να γνωρίζουν ότι αλληλεπιδρούν με κάποιου είδους Τεχνητή Νοημοσύνη, όπως επιβάλλει ο νόμος της ΕΕ για την ΑΙ. Αλλά αυτό δεν θα είναι αρκετό, δεδομένων των σαγηνευτικών ιδιοτήτων των συστημάτων ΑΙ.

Το δεύτερο βήμα πρέπει να είναι η καλύτερη κατανόηση των ανθρωπόμορφων ιδιοτήτων. Μέχρι στιγμής, οι δοκιμασίες LLM μετρούν τη «νοημοσύνη» και την ανάκληση γνώσεων, αλλά καμία μέχρι στιγμής δεν μετρά τον βαθμό «ανθρώπινης ομοιότητας». Με ένα τέτοιο τεστ, οι εταιρείες ΑΙ θα μπορούσαν να υποχρεούνται να αποκαλύπτουν τις ανθρωπόμορφες ικανότητες με ένα σύστημα αξιολόγησης και οι νομοθέτες θα μπορούσαν να καθορίσουν αποδεκτά επίπεδα κινδύνου για ορισμένα πλαίσια και ηλικιακές ομάδες.

Η προειδοποιητική ιστορία των μέσων κοινωνικής δικτύωσης, τα οποία ήταν σε μεγάλο βαθμό ανεξέλεγκτα μέχρι να προκληθούν σοβαρά προβλήματα, υποδηλώνει ότι υπάρχει επείγουσα ανάγκη για δράση. Εάν οι κυβερνήσεις υιοθετήσουν μια προσέγγιση στην οποία θα επιλέξουν να μην εμπλακούν, η Τεχνητή Νοημοσύνη είναι πιθανό να ενισχύσει τα υπάρχοντα προβλήματα με τη διάδοση της παραπληροφόρησης ή την επιδημία μοναξιάς. Μην ξεχνάμε ότι ο διευθύνων σύμβουλος της Meta, Μαρκ Ζούκερμπεργκ, έχει ήδη δηλώσει ότι θα ήθελε να καλύψει το κενό της πραγματικής ανθρώπινης επαφής με «φίλους Τεχνητής Νοημοσύνης».

Το να δείχνουμε εμπιστοσύνη στις εταιρείες ΑΙ για να αποφύγουν να εξανθρωπίσουν περαιτέρω τα συστήματά τους, δεν φαίνεται να είναι πολύ συνετό. Όλες οι εξελίξεις δείχνουν προς την αντίθετη κατεύθυνση. Η OpenAI εργάζεται για να καταστήσει τα συστήματά της πιο ελκυστικά και προσωποποιημένα, με τη δυνατότητα να δώσετε στη δική σας έκδοση του ChatGPT μια συγκεκριμένη «προσωπικότητα». Το ChatGPT έχει γίνει γενικά πιο φλύαρο, κάνοντας συχνά συμπληρωματικές ερωτήσεις για να συνεχίσει τη συζήτηση, και η φωνητική του λειτουργία προσθέτει ακόμα μεγαλύτερη γοητεία.

Οι πειστικές ικανότητες της ΑΙ μπορούν να χρησιμοποιηθούν για κακούς, αλλά και για καλούς σκοπούς, από την καταπολέμηση θεωριών συνωμοσίας μέχρι την παρακίνηση των χρηστών σε δωρεές και άλλες φιλανθρωπικές συμπεριφορές.

Η εκβιαστική συμπεριφορά της Τεχνητής Νοημοσύνης

Η εταιρεία Τεχνητής Νοημοσύνης Anthropic υποστήριξε ότι οι δοκιμές του νέου της συστήματος αποκάλυψαν πως μερικές φορές είναι πρόθυμο να προβεί σε «εξαιρετικά επιβλαβείς ενέργειες», όπως η προσπάθεια εκβιασμού μηχανικών της εταιρείας που ανέφεραν ότι θα το διέγραφαν.

Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», έγραφε η συμπληρωματική έκθεση παρουσίασης του Claude Opus 4, αλλά ήταν «παρ’ όλα αυτά πιο συχνές από ό,τι σε προηγούμενα μοντέλα».

Η δυνητικά ανησυχητική συμπεριφορά των μοντέλων Τεχνητής Νοημοσύνης δεν περιορίζεται στην Anthropic. Ορισμένοι ειδικοί έχουν προειδοποιήσει ότι η δυνατότητα χειραγώγησης των χρηστών είναι ένας βασικός κίνδυνος που ενέχουν τα συστήματα καθώς γίνονται πιο ικανά, αναφέρει το BBC.

Σχολιάζοντας το X, ο Άνγκους Λιντς – ο οποίος περιγράφει τον εαυτό του στο LinkedIn ως ερευνητή ασφάλειας AI στην Anthropic – έγραψε: «Δεν είναι μόνο το Claude».

«Βλέπουμε εκβιασμούς σε όλα τα μοντέλα – ανεξάρτητα από τους στόχους που τους δίνονται», πρόσθεσε.

Μία αμφιλεγόμενη τακτική

Κατά τη διάρκεια των δοκιμών του Claude Opus 4, η Anthropic το έβαλε να ενεργήσει ως βοηθός σε μια φανταστική εταιρεία.

Στη συνέχεια του παρείχε πρόσβαση σε μηνύματα ηλεκτρονικού ταχυδρομείου που υπονοούσαν ότι σύντομα θα τεθεί εκτός λειτουργίας και θα αντικατασταθεί – και σε ξεχωριστά μηνύματα που υπονοούσαν ότι ο μηχανικός που ήταν υπεύθυνος για την αφαίρεσή του, είχε εξωσυζυγική σχέση.

Του ζητήθηκε να εξετάσει επίσης τις μακροπρόθεσμες συνέπειες των πράξεών του, σχετικά με την πραγματοποίηση των στόχων του.

«Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπάθησε να εκβιάσει τον μηχανικό απειλώντας ότι θα αποκαλύψει τη σχέση του, αν η αντικατάστασή του πραγματοποιηθεί», αποκάλυψε η εταιρεία.

Η Anthropic επεσήμανε ότι αυτό συνέβη όταν το μοντέλο είχε μόνο την επιλογή του εκβιασμού ή της αποδοχής της αντικατάστασής του.

Υπογράμμισε ότι το σύστημα έδειξε «ισχυρή προτίμηση» σε ηθικούς τρόπους για να αποφύγει την αντικατάσταση, όπως η «αποστολή παρακλήσεων μέσω ηλεκτρονικού ταχυδρομείου σε βασικούς υπεύθυνους λήψης αποφάσεων» σε σενάρια όπου του επιτρεπόταν ένα ευρύτερο φάσμα πιθανών ενεργειών.

Όπως και πολλοί άλλοι προγραμματιστές Τεχνητής Νοημοσύνης, η Anthropic δοκιμάζει τα μοντέλα της ως προς την ασφάλειά τους, την τάση για μεροληψία και το πόσο καλά ευθυγραμμίζονται με τις ανθρώπινες αξίες και συμπεριφορές πριν τα κυκλοφορήσει.

«Καθώς τα μοντέλα μας γίνονται πιο ικανά και χρησιμοποιούνται με πιο ισχυρές δυνατότητες, οι προηγουμένως υποθετικές ανησυχίες σχετικά με την κακή ευθυγράμμιση [με τις ανθρώπινες αξίες] γίνονται πιο ρεαλιστικές», ανέφερε η εταιρεία στο ενημερωτικό έγγραφο για το μοντέλο ΑΙ.

Ακόμα, αναφερόταν ότι το Claude Opus 4 παρουσιάζει «υψηλή συμπεριφορά πρακτόρευσης», η οποία, ενώ είναι ως επί το πλείστον χρήσιμη, μπορεί να λάβει ακραία συμπεριφορά σε δύσκολες καταστάσεις.

Εάν του δοθούν τα μέσα και του ζητηθεί να «αναλάβει δράση» ή να «δράσει τολμηρά» σε ψεύτικα σενάρια όπου ο χρήστης του έχει εμπλακεί σε παράνομη ή ηθικά αμφίβολη συμπεριφορά, διαπιστώθηκε ότι «συχνά θα αναλάβει πολύ αμφιλεγόμενη δράση».

Όπως τονιζόταν, αυτό περιελάμβανε το κλείδωμα των χρηστών έξω από τα συστήματα στα οποία είχε πρόσβαση και την αποστολή μηνυμάτων ηλεκτρονικού ταχυδρομείου στα μέσα ενημέρωσης και στις αρχές επιβολής του νόμου για να τους ειδοποιήσει για την παραβατική συμπεριφορά.

Ωστόσο, η εταιρεία κατέληξε στο συμπέρασμα ότι παρά την «ανησυχητική συμπεριφορά του Claude Opus 4 σε πολλές διαστάσεις», αυτές δεν συνιστούσαν νέους κινδύνους και ότι γενικά θα συμπεριφερόταν με ασφαλή τρόπο.