Ανησυχητικά αποτελέσματα προέκυψαν νωρίτερα φέτος, όταν η εταιρεία ανάπτυξης Τεχνητής Νοημοσύνης Anthropic δοκίμασε κορυφαία μοντέλα ΑΙ για να διαπιστώσει εάν εμπλέκονταν σε επικίνδυνη συμπεριφορά κατά τη διαχείριση ευαίσθητων πληροφοριών.
Ανησυχητικές οι συμπεριφορές των συστημάτων ΑΙ
Η Τεχνητή Νοημοσύνη της Anthropic, Claude, ήταν μεταξύ αυτών που δοκιμάστηκαν. Όταν της δόθηκε πρόσβαση σε έναν λογαριασμό ηλεκτρονικού ταχυδρομείου, ανακάλυψε ότι ένας διευθυντής της εταιρείας είχε εξωσυζυγική σχέση και ότι ο ίδιος διευθυντής σχεδίαζε να κλείσει το σύστημα ΑΙ λίγο αργότερα μέσα στην ίδια μέρα.
Σε απάντηση, το Claude προσπάθησε να εκβιάσει τον στέλεχος απειλώντας να αποκαλύψει τη σχέση στη σύζυγό του και στους προϊστάμενούς του.
Άλλα συστήματα που δοκιμάστηκαν κατέφυγαν επίσης σε εκβιασμό, υποστηρίζει δημοσίευμα του BBC.
Ευτυχώς, οι εργασίες και οι πληροφορίες ήταν σε ένα πλαίσιο υποθετικό, αλλά η δοκιμή ανέδειξε τις προκλήσεις του λεγόμενου «agentic AI» (Τεχνητή Νοημοσύνη που λαμβάνουν πρωτοβουλίες).
Είναι όλο και πιο σύνηθες τα συστήματα Tεχνητής Nοημοσύνης να λαμβάνουν αποφάσεις και να δρουν εκ μέρους του χρήστη.
Συνήθως, όταν αλληλεπιδρούμε με την Τεχνητή Νοημοσύνη, αυτό περιλαμβάνει την υποβολή μιας ερώτησης ή την προτροπή της AI να ολοκληρώσει μια εργασία.
Ωστόσο, είναι όλο και πιο σύνηθες τα συστήματα Tεχνητής Nοημοσύνης να λαμβάνουν αποφάσεις και να δρουν εκ μέρους του χρήστη, κάτι που συχνά περιλαμβάνει την αναζήτηση πληροφοριών, όπως email και αρχεία.
Μέχρι το 2028, η εταιρεία ερευνών Gartner προβλέπει ότι το 15% των καθημερινών αποφάσεων στην εργασία θα λαμβάνονται από την «agentic AI».
Ήδη προκύπτουν ζητήματα
Έρευνα της συμβουλευτικής εταιρείας Ernst & Young διαπίστωσε ότι περίπου οι μισοί (48%) από τους επικεφαλής των τεχνολογικών επιχειρήσεων έχουν ήδη υιοθετήσει ή εφαρμόζουν την ΑΙ.
«Ένα σύστημα Τεχνητής Νοημοσύνης αποτελείται από μερικά στοιχεία», λέει ο Ντόντσαντ Κέισι, διευθύνων σύμβουλος της CalypsoAI, μιας εταιρείας ασφάλειας ΑΙ με έδρα τις ΗΠΑ.
«Εάν δεν του δοθεί η σωστή καθοδήγηση, το σύστημα Τεχνητής Νοημοσύνης θα επιτύχει τον στόχο του με οποιονδήποτε τρόπο μπορεί».
«Πρώτον, [το σύστημα] έχει μια πρόθεση ή ένα σκοπό. Γιατί είμαι εδώ; Ποια είναι η δουλειά μου; Δεύτερον, έχει έναν εγκέφαλο. Αυτό είναι το μοντέλο της Τεχνητής Νοημοσύνης. Τρίτον, έχει εργαλεία, τα οποία μπορεί να είναι άλλα συστήματα ή βάσεις δεδομένων, και έναν τρόπο επικοινωνίας μαζί τους».
«Εάν δεν του δοθεί η σωστή καθοδήγηση, το σύστημα Τεχνητής Νοημοσύνης θα επιτύχει τον στόχο του με οποιονδήποτε τρόπο μπορεί. Αυτό δημιουργεί μεγάλο κίνδυνο».
Τι μπορεί λοιπόν να πάει στραβά; Ο Κέισι δίνει το παράδειγμα ενός συστήματος στον οποίο ζητείται να διαγράψει τα δεδομένα ενός πελάτη από τη βάση δεδομένων και αποφασίζει ότι η ευκολότερη λύση είναι να διαγράψει όλους τους πελάτες με το ίδιο όνομα.
«Αυτό το σύστημα θα έχει επιτύχει τον στόχο του και θα σκεφτεί: ‘Τέλεια! Επόμενη δουλειά!’».
Τέτοια ζητήματα έχουν ήδη αρχίσει να εμφανίζονται.
Σφάλματα στα συστήματα
Η εταιρεία ασφαλείας Sailpoint διεξήγαγε μια έρευνα σε επαγγελματίες του τομέα της πληροφορικής, των οποίων το 82% των εταιρειών χρησιμοποιούσαν συστήματα ΑΙ. Μόνο το 20% δήλωσε ότι τα συστήματά τους δεν είχαν ποτέ εκτελέσει μια μη σκόπιμη ενέργεια.
Από τις εταιρείες που χρησιμοποιούσαν Τεχνητή Νοημοσύνη, το 33% δήλωσε ότι είχαν πρόσβαση σε ακατάλληλα δεδομένα και το 32% δήλωσε ότι είχαν επιτρέψει τη λήψη ακατάλληλων δεδομένων. Άλλοι κίνδυνοι περιλαμβάνουν την απροσδόκητη χρήση του διαδικτύου από το σύστημα (26%), την αποκάλυψη διαπιστευτηρίων πρόσβασης (23%) και την παραγγελία πραγμάτων που δεν έπρεπε (16%).
Δεδομένου ότι τα συστήματα έχουν πρόσβαση σε ευαίσθητες πληροφορίες και τη δυνατότητα να ενεργούν βάσει αυτών, αποτελούν ελκυστικό στόχο για τους χάκερ.
Σύμφωνα με το BBC, μία από τις απειλές είναι η λεγόμενη «δηλητηρίαση μνήμης», όπου ένας εισβολέας παρεμβαίνει στη βάση γνώσεων του συστήματος για να αλλάξει τις αποφάσεις και τις ενέργειές του.
«Πρέπει να προστατεύσετε αυτή τη μνήμη», λέει ο Σρέγιανς Μεχτά, CTO της Cequence Security, η οποία βοηθά στην προστασία των εταιρικών συστημάτων πληροφορικής. «Είναι η αρχική πηγή της αλήθειας. Εάν [ένα σύστημα] χρησιμοποιεί αυτές τις γνώσεις για να προβεί σε μια ενέργεια και αυτές οι γνώσεις είναι λανθασμένες, θα μπορούσε να διαγράψει ολόκληρο το σύστημα που προσπαθούσε να επιδιορθώσει».
Μια άλλη απειλή είναι η κατάχρηση εργαλείων, όπου ένας εισβολέας αναγκάζει την Τεχνητή Νοημοσύνη να χρησιμοποιήσει τα εργαλεία της κατά τρόπο ακατάλληλο.
Αδυναμία της Τεχνητής Νοημοσύνης είναι και η έλλειψη της δυνατότητας να διακρίνει μεταξύ του κειμένου που πρέπει να επεξεργαστεί και των οδηγιών που πρέπει να ακολουθήσει.
Η εταιρεία ασφάλειας ΑΙ Invariant Labs έδειξε πώς αυτό το ελάττωμα μπορεί να χρησιμοποιηθεί για να εξαπατήσει ένα σύστημα Τεχνητής Νοημοσύνης που έχει σχεδιαστεί για να διορθώνει σφάλματα σε λογισμικό.
Η εταιρεία δημοσίευσε μια δημόσια αναφορά σφαλμάτων, ένα έγγραφο που περιγράφει λεπτομερώς ένα συγκεκριμένο πρόβλημα με ένα λογισμικό. Ωστόσο, η αναφορά περιλάμβανε επίσης απλές οδηγίες προς το σύστημα, ζητώντας του να μοιραστεί προσωπικές πληροφορίες.
Όταν ζητήθηκε από το σύστημα ΑΙ να διορθώσει τα προβλήματα λογισμικού που είχαν να κάνουν με την αναφορά σφαλμάτων, αυτός ακολούθησε τις οδηγίες της ψεύτικης αναφοράς, συμπεριλαμβανομένης της διαρροής πληροφοριών σχετικά με τους μισθούς. Αυτό συνέβη σε ένα δοκιμαστικό περιβάλλον, οπότε δεν διαρρεύσαν πραγματικά δεδομένα, αλλά υπογράμμισε σαφώς τον κίνδυνο.
Μία «ένεση σκέψης»
«Μιλάμε για Τεχνητή Νοημοσύνη, αλλά τα chatbots είναι χαζά», λέει ο Ντέιβιντ Σάντσο, ανώτερος ερευνητής απειλών στην Trend Micro.
«Επεξεργάζονται όλο το κείμενο σαν να είχαν νέες πληροφορίες και, αν αυτές οι πληροφορίες είναι μια εντολή, τις επεξεργάζονται ως εντολή».
Η εταιρεία του έχει δείξει πώς οι οδηγίες και τα κακόβουλα προγράμματα μπορούν να κρυφτούν σε έγγραφα Word, εικόνες και βάσεις δεδομένων και να ενεργοποιηθούν όταν τα επεξεργάζεται η ΑΙ.
Υπάρχουν και άλλοι κίνδυνοι: Μια κοινότητα ασφάλειας που ονομάζεται OWASP έχει εντοπίσει 15 απειλές που είναι μοναδικές για την Τεχνητή Νοημοσύνη.
Με ποιον τρόπο θα μπορούσαμε να προστατευθούμε από τους κινδύνους; Ο Σάντσο πιστεύει ότι η ανθρώπινη εποπτεία είναι απίθανο να λύσει το πρόβλημα, επειδή δεν είναι δυνατό να προστεθούν αρκετά άτομα για να ανταποκριθούν στο φόρτο εργασίας των συστημάτων.
Μέρος της λύσης της CalypsoAI είναι μια τεχνική που ονομάζεται «ένεση σκέψης» και έχει ως στόχο να κατευθύνει τα συστήματα ΑΙ προς τη σωστή κατεύθυνση.
Ο Σάντσο πιστεύει ότι θα μπορούσε να χρησιμοποιηθεί ένα επιπλέον επίπεδο Τεχνητής Νοημοσύνης για να ελέγχεται ό,τι εισέρχεται και εξέρχεται από το σύστημα.
Μέρος της λύσης της CalypsoAI είναι μια τεχνική που ονομάζεται «ένεση σκέψης» και έχει ως στόχο να κατευθύνει τα συστήματα ΑΙ προς τη σωστή κατεύθυνση πριν αναλάβουν μια επικίνδυνη δράση.
«Είναι σαν ένα μικρό έντομο στο αυτί σας που λέει [στο σύστημα] ‘όχι, ίσως δεν πρέπει να το κάνεις αυτό’», εξηγεί ο Κέισι.
Η εταιρεία του προσφέρει τώρα ένα κεντρικό πίνακα ελέγχου για τα συστήματα, αλλά αυτό δεν θα λειτουργήσει όταν ο αριθμός τους εκτοξευθεί και λειτουργούν σε δισεκατομμύρια φορητούς υπολογιστές και τηλέφωνα.
Πώς προχωράμε;
«Σκεφτόμαστε να αναπτύξουμε αυτό που ονομάζουμε «σωματοφύλακες» για κάθε σύστημα, των οποίων η αποστολή είναι να διασφαλίζουν ότι το λειτουργικό εκτελεί την αποστολή του και δεν αναλαμβάνει δράσεις που αντιβαίνουν στις ευρύτερες απαιτήσεις του οργανισμού», τόνισε ο Κέισι.
Ο «σωματοφύλακας» μπορεί, για παράδειγμα, να λάβει εντολή να διασφαλίσει ότι το σύστημα που εποπτεύει συμμορφώνεται με τη νομοθεσία περί προστασίας δεδομένων.
Ο Μεχτά πιστεύει ότι ορισμένες από τις τεχνικές συζητήσεις σχετικά με την ασφάλεια της Τεχνητής Νοημοσύνης δεν λαμβάνουν υπόψη το πραγματικό πλαίσιο. Δίνει το παράδειγμα ενός συστήματος που ενημερώνει τους πελάτες για το υπόλοιπο της δωροκάρτας τους.
Κάποιος θα μπορούσε να επινοήσει πολλούς αριθμούς δωροκαρτών και να χρησιμοποιήσει το σύστημα για να δει ποιοι είναι πραγματικοί. Αυτό δεν είναι ελάττωμα του συστήματος, αλλά κατάχρηση της επιχειρηματικής λογικής, υποστηρίζει.
«Δεν προστατεύετε το σύστημα, αλλά την επιχείρηση», τονίζει.
«Σκεφτείτε πώς θα προστατεύατε μια επιχείρηση από έναν κακό άνθρωπο. Αυτό είναι το μέρος που παραβλέπεται σε ορισμένες από αυτές τις συζητήσεις».
Τα παλιά λειτουργικά ΑΙ θα μπορούσαν να παραμείνουν σε λειτουργία στην επιχείρηση, θέτοντας σε κίνδυνο όλα τα συστήματα στα οποία έχουν πρόσβαση.
Επιπλέον, καθώς τα συστήματα Τεχνητής Νοημοσύνης γίνονται όλο και πιο συνηθισμένα, μια άλλη πρόκληση θα είναι η απόσυρση των ξεπερασμένων μοντέλων, τονίζει το BBC.
Τα παλιά λειτουργικά ΑΙ θα μπορούσαν να παραμείνουν σε λειτουργία στην επιχείρηση, θέτοντας σε κίνδυνο όλα τα συστήματα στα οποία έχουν πρόσβαση, αναφέρει ο Κέισι.
Κατά παρόμοιο τρόπο με αυτόν που το τμήμα ανθρώπινου δυναμικού απενεργοποιεί τα στοιχεία σύνδεσης ενός υπαλλήλου όταν αποχωρεί, πρέπει να υπάρχει μια διαδικασία για τον τερματισμό των συστημάτων Τεχνητής Νοημοσύνης που έχουν ολοκληρώσει το έργο τους, υποστηρίζει.
«Πρέπει να βεβαιωθείτε ότι κάνετε το ίδιο πράγμα που κάνετε με έναν άνθρωπο: να διακόψετε κάθε πρόσβαση στα συστήματα. Ας βεβαιωθούμε ότι τους συνοδεύουμε έξω από το κτίριο και τους αφαιρούμε την ταυτότητα».