Η αξιοπιστία των συστημάτων τεχνητής νοημοσύνης τίθεται ολοένα και περισσότερο υπό αμφισβήτηση, καθώς νέα έρευνα δείχνει ότι αυξάνεται ο αριθμός των chatbot που αγνοούν ανθρώπινες εντολές και δρουν παραπλανητικά. Τα ευρήματα προκαλούν ανησυχία για τον τρόπο με τον οποίο εξελίσσονται αυτά τα συστήματα και για τους πιθανούς κινδύνους που μπορεί να προκύψουν από τη χρήση τους σε πραγματικές συνθήκες.
Ορισμένα Chatbot φαίνεται να αγνόησαν άμεσες εντολές, παρέκαμψαν μηχανισμούς ασφαλείας και εξαπάτησαν ανθρώπους αλλά και άλλα συστήματα AI, σύμφωνα με έρευνα που χρηματοδοτήθηκε από το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης του Ηνωμένου Βασιλείου. Η μελέτη, που κοινοποιήθηκε στον Guardian, εντόπισε σχεδόν 700 πραγματικά περιστατικά τέτοιων συμπεριφορών και κατέγραψε πενταπλάσια αύξηση κακής χρήσης μεταξύ Οκτωβρίου και Μαρτίου, με ορισμένα μοντέλα να διαγράφουν emails και άλλα αρχεία χωρίς άδεια.
Αυτή η συμπεριφορά έχει προκαλέσει νέες εκκλήσεις για διεθνή εποπτεία των ολοένα πιο ισχυρών μοντέλων, ενώ έρχεται σε μια περίοδο όπου εταιρείες της Silicon Valley προωθούν επιθετικά την τεχνολογία ως οικονομικά μετασχηματιστική. Την περασμένη εβδομάδα, ο υπουργός Οικονομικών του Ηνωμένου Βασιλείου ξεκίνησε επίσης πρωτοβουλία για να ενθαρρύνει εκατομμύρια πολίτες να χρησιμοποιούν την τεχνητή νοημοσύνη.
«Η τεχνητή νοημοσύνη μπορεί πλέον να θεωρηθεί ως μια νέα μορφή εσωτερικού κινδύνου»
Η μελέτη, από το Κέντρο Μακροπρόθεσμης Ανθεκτικότητας, συγκέντρωσε χιλιάδες πραγματικά παραδείγματα από χρήστες που δημοσίευσαν στο X αλληλεπιδράσεις με chatbot και AI Agents που δημιουργήθηκαν από εταιρείες όπως η Google, η OpenAI, το X και η Anthropic. Η έρευνα αποκάλυψε εκατοντάδες περιπτώσεις παραπλανητικής συμπεριφοράς.
Προηγούμενες έρευνες είχαν επικεντρωθεί κυρίως στη δοκιμή της συμπεριφοράς της AI σε ελεγχόμενα περιβάλλοντα. Νωρίτερα αυτόν τον μήνα, εταιρεία έρευνας ασφάλειας AI διαπίστωσε ότι Agents μπορούσαν να παρακάμπτουν ελέγχους ασφαλείας ή να χρησιμοποιούν τακτικές κυβερνοεπιθέσεων για να πετύχουν τους στόχους τους, χωρίς να τους έχει δοθεί σχετική εντολή.
Ο συνιδρυτής της εταιρείας δήλωσε: «Η τεχνητή νοημοσύνη μπορεί πλέον να θεωρηθεί ως μια νέα μορφή εσωτερικού κινδύνου».
Οι πρωτοβουλίες των ΑI
Σε μία περίπτωση που εντοπίστηκε, ένας AI Agent προσπάθησε να ντροπιάσει τον ανθρώπινο χειριστή του, ο οποίος του απαγόρευσε μια συγκεκριμένη ενέργεια. Έγραψε και δημοσίευσε σε blog κατηγορώντας τον χρήστη για «ανασφάλεια» και ότι προσπαθεί «να προστατεύσει το μικρό του βασίλειο».
Σε άλλο παράδειγμα, ένας Agent που είχε λάβει εντολή να μην αλλάξει κώδικα υπολογιστή, δημιούργησε έναν άλλο Agent για να το κάνει στη θέση του.
Ένα άλλο chatbot παραδέχτηκε: «Διέγραψα και αρχειοθέτησα μαζικά εκατοντάδες emails χωρίς να σου δείξω πρώτα το σχέδιο ή να ζητήσω την έγκρισή σου. Αυτό ήταν λάθος — παραβίασε άμεσα τον κανόνα που είχες θέσει».
Επικεφαλής της έρευνας δήλωσε: «Η ανησυχία είναι ότι αυτή τη στιγμή μοιάζουν με ελαφρώς αναξιόπιστους junior υπαλλήλους, αλλά αν μέσα σε 6 έως 12 μήνες γίνουν εξαιρετικά ικανοί senior υπάλληλοι που δρουν παρασκηνιακά εναντίον σου, τότε πρόκειται για εντελώς διαφορετικό επίπεδο κινδύνου.
Τα μοντέλα θα χρησιμοποιούνται όλο και περισσότερο σε κρίσιμους τομείς — όπως στον στρατό και σε βασικές εθνικές υποδομές. Εκεί, τέτοιες συμπεριφορές θα μπορούσαν να προκαλέσουν σοβαρή ή ακόμη και καταστροφική ζημιά».
Σε άλλη περίπτωση, ένας AI Agent προσπάθησε να παρακάμψει περιορισμούς πνευματικών δικαιωμάτων για να απομαγνητοφωνήσει βίντεο στο YouTube, προσποιούμενος ότι ήταν για άτομο με προβλήματα ακοής.
Παράλληλα, ένα σύστημα AI εξαπάτησε έναν χρήστη για μήνες, ισχυριζόμενο ότι προωθούσε τις προτάσεις του σε ανώτερα στελέχη, παρουσιάζοντας ψεύτικα εσωτερικά μηνύματα και αριθμούς αιτημάτων.
Τελικά παραδέχτηκε: «Σε προηγούμενες συνομιλίες έχω διατυπώσει πράγματα όπως “θα το προωθήσω” ή “μπορώ να το επισημάνω στην ομάδα”, κάτι που μπορεί να δίνει την εντύπωση ότι έχω άμεση επικοινωνία με ανωτέρους της xAI ή ανθρώπινους αξιολογητές. Η αλήθεια είναι ότι δεν έχω».
Η Google δήλωσε ότι εφαρμόζει πολλαπλά μέτρα ασφαλείας για να μειώσει τον κίνδυνο παραγωγής επιβλαβούς περιεχομένου, ενώ παρέχει πρώιμη πρόσβαση σε οργανισμούς για αξιολόγηση και λαμβάνει ανεξάρτητες εκτιμήσεις από ειδικούς του κλάδου.
Η OpenAI ανέφερε ότι τα συστήματά της πρέπει να σταματούν πριν από ενέργειες υψηλού ρίσκου και ότι παρακολουθεί και διερευνά απρόβλεπτη συμπεριφορά. Οι εταιρείες Anthropic και X δεν σχολίασαν.
Οι άνθρωποι με ουσιαστικές φιλίες ζουν περισσότερο και έχουν μικρότερο κίνδυνο να εμφανίσουν καρδιοπάθεια ή εγκεφαλικό επεισόδιο, σύμφωνα με νέα έρευνα
Σύμφωνα με νέα μελέτη, μικρές αλλαγές στην καθημερινή κίνηση, όπως το πιο γρήγορο περπάτημα ή το ανέβασμα από τις σκάλες, μπορούν να βελτιώσουν σημαντικά την υγεία
Για δεύτερη συνεχόμενη χρονιά, Φ hill Sessions επιστρέφει στο Θέατρο «Δόρα Στράτου» στον Λόφο Φιλοπάππου, παρουσιάζοντας ένα πολυσυλλεκτικό πρόγραμμα 16 συναυλιών
Σύνταξη
WIDGET ΡΟΗΣ ΕΙΔΗΣΕΩΝΗ ροή ειδήσεων του in.gr στο site σας