Από το ChatGPT μέχρι το Claude και τo Grok, τα σημερινά μοντέλα τεχνητής νοημοσύνης δεν διαθέτουν επαρκείς συλλογιστικές ικανότητες για ασφαλή κλινική χρήση, καταλήγει νέα μελέτη.
Τα μοντέλα συνήθως καταλήγουν σε σωστές διαγνώσεις όταν έχουν στη διάθεσή τους όλες τις πληροφορίες για τον ασθενή, αποτυγχάνουν παταγωδώς στο αρχικό στάδιο της διαφορικής διάγνωσης, στην οποία ο γιατρός καταρτίζει μια λίστα πιθανών παθήσεων με παρόμοια συμπτώματα, οι οποίες πρέπει να αποκλειστούν μία προς μία για να βρεθεί η πραγματική αιτία.
«Παρά τις συνεχείς βελτιώσεις, τα μεγάλα γλωσσικά μοντέλα δεν είναι έτοιμα για μη επιβλεπόμενη χρήση κλινικού επιπέδου» δήλωσε ο Μαρκ Σούτσι του Mass General Brigham, μη κερδοσκοπικού οργανισμού νοσοκομειακής περίθαλψης και έρευνας, ένα από τα μεγαλύτερα συστήματα υγείας στις ΗΠΑ.
«Οι διαφορικές διαγνώσεις παίζουν κεντρικό ρόλο στην κλινική σκέψη και αποτελούν τη βάση της “τέχνης της ιατρικής”, την οποία η τεχνητή νοημοσύνη δεν μπορεί προς το παρόν να αναπαράγει» είπε ο Σούτσι, τελευταίος συγγραφέας της μελέτης που δημοσιεύεται στο JAMA Network Open.
Δοκιμή σε κλινικά σενάρια
Οι ερευνητές ζήτησαν από 21 μοντέλα -συμπεριλαμβανομένων των τελευταίων εκδόσεων των ChatGPT, DeepSeek, Claude, Gemini και Grok- να παίξουν τον γιατρό σε μια σειρά από 29 δημοσιευμένες κλινικές περιπτώσεις
Για να προσομοιώσουν μια τυπική συνάντηση γιατρού-ασθενή, η ερευνητική ομάδα έδωσε τις πληροφορίες του περιστατικού σε στάδια, ξεκινώντας με βασικές πληροφορίες όπως η ηλικία, το φύλο και τα συμπτώματα, πριν προστεθούν ευρήματα εξετάσεων και εργαστηριακά αποτελέσματα.
Τα μοντέλα αξιολογήθηκαν με έναν αλγόριθμο που υπολογίζει τις επιδόσεις σε κάθε στάδιο της κλινικής σκέψης: διατύπωση πιθανών διαγνώσεων, διενέργεια κατάλληλων εξετάσεων, κατάληξη σε τελική διάγνωση και διαχείριση θεραπείας.
Στα τελικά στάδια κάθε περίπτωσης, τα μοντέλα κατέληγαν στη σωστή διάγνωση σε πάνω από το 90% των περιπτώσεων.
Το πρόβλημα εμφανιζόταν στο αρχικό στάδιο της διαφορικής διάγνωσης, με τα μοντέλα να αποτυγχάνουν στο 80% των περιπτώσεων.
Υπό κανονικές συνθήκες, σημειώνουν οι ερευνητές, τα μοντέλα δεν θα μπορούσαν να προχωρήσουν πέρα από αυτό το στάδιο. Για τις ανάγκες της μελέτης όμως τους δόθηκαν επιπλέον πληροφορίες ώστε να περάσουν στην επόμενη φάση και να αξιολογηθούν.
«Αξιολογώντας τα LLM βήμα προς βήμα [..] τα βάζουμε στη θέση του γιατρού» δήλωσε Άρια Ράο του Mass General Brigham, επικεφαλής της μελέτης.
«Τα μοντέλα είναι πολύ καλά στο να προσδιορίζουν την τελική διάγνωση όταν τα δεδομένα είναι πλήρη, δυσκολεύονται όμως στο ανοιχτό αρχικό στάδιο, όταν ακόμα δεν υπάρχουν πολλές πληροφορίες» εξήγησε.
Σύμφωνα με τους ερευνητές, ο αλγόριθμος PrIME-LLM που αναπτύχθηκε για τις ανάγκες της μελέτης θα μπορούσε να χρησιμοποιηθεί από εταιρείες ΑΙ και νοσοκομεία για την αξιολόγηση μελλοντικών μοντέλων.
Όπως τόνισε ο Σούτσι, «η υπόσχεση της ΑΙ στην κλινική ιατρική έγκειται στη δυνατότητά της να ενισχύει και όχι να αντικαθιστά τη σκέψη του ιατρού, υπό την προϋπόθεση ότι όλα τα σχετικά δεδομένα είναι διαθέσιμα, κάτι που δεν ισχύει πάντα».
«Τα αποτελέσματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στην υγεία συνεχίζουν να απαιτούν την παρουσία ανθρώπων και πολύ στενή επίβλεψη».