Τρίτη 14 Απριλίου 2026
weather-icon 17o
Τα μεγάλα μοντέλα ΑΙ πάτωσαν σε τεστ ιατρικών διαγνώσεων

Τα μεγάλα μοντέλα ΑΙ πάτωσαν σε τεστ ιατρικών διαγνώσεων

Τα μοντέλα ΑΙ αποτυγχάνουν στις διαφορικές διαγνώσεις στο 80% των περιπτώσεων, κάτι που σημαίνει ότι δεν είναι έτοιμα για κλινική χρήση.

Από το ChatGPT μέχρι το Claude και τo Grok, τα σημερινά μοντέλα τεχνητής νοημοσύνης δεν διαθέτουν επαρκείς συλλογιστικές ικανότητες για ασφαλή κλινική χρήση, καταλήγει νέα μελέτη.

Τα μοντέλα συνήθως καταλήγουν σε σωστές διαγνώσεις όταν έχουν στη διάθεσή τους όλες τις πληροφορίες για τον ασθενή, αποτυγχάνουν παταγωδώς στο αρχικό στάδιο της διαφορικής διάγνωσης, στην οποία ο γιατρός καταρτίζει μια λίστα πιθανών παθήσεων με παρόμοια συμπτώματα, οι οποίες πρέπει να αποκλειστούν μία προς μία για να βρεθεί η πραγματική αιτία.

«Παρά τις συνεχείς βελτιώσεις, τα μεγάλα γλωσσικά μοντέλα δεν είναι έτοιμα για μη επιβλεπόμενη χρήση κλινικού επιπέδου» δήλωσε ο Μαρκ Σούτσι του Mass General Brigham, μη κερδοσκοπικού οργανισμού νοσοκομειακής περίθαλψης και έρευνας, ένα από τα μεγαλύτερα συστήματα υγείας στις ΗΠΑ.

«Οι διαφορικές διαγνώσεις παίζουν κεντρικό ρόλο στην κλινική σκέψη και αποτελούν τη βάση της “τέχνης της ιατρικής”, την οποία η τεχνητή νοημοσύνη δεν μπορεί προς το παρόν να αναπαράγει» είπε ο Σούτσι, τελευταίος συγγραφέας της μελέτης που δημοσιεύεται στο JAMA Network Open.

Δοκιμή σε κλινικά σενάρια

Οι ερευνητές ζήτησαν από 21 μοντέλα -συμπεριλαμβανομένων των τελευταίων εκδόσεων των ChatGPT, DeepSeek, Claude, Gemini και Grok- να παίξουν τον γιατρό σε μια σειρά από 29 δημοσιευμένες κλινικές περιπτώσεις

Για να προσομοιώσουν μια τυπική συνάντηση γιατρού-ασθενή, η ερευνητική ομάδα έδωσε τις πληροφορίες του περιστατικού σε στάδια, ξεκινώντας με βασικές πληροφορίες όπως η ηλικία, το φύλο και τα συμπτώματα, πριν προστεθούν ευρήματα εξετάσεων και εργαστηριακά αποτελέσματα.

Τα μοντέλα αξιολογήθηκαν με έναν αλγόριθμο που υπολογίζει τις επιδόσεις σε κάθε στάδιο της κλινικής σκέψης: διατύπωση πιθανών διαγνώσεων, διενέργεια κατάλληλων εξετάσεων, κατάληξη σε τελική διάγνωση και διαχείριση θεραπείας.

Στα τελικά στάδια κάθε περίπτωσης, τα μοντέλα κατέληγαν στη σωστή διάγνωση σε πάνω από το 90% των περιπτώσεων.

Το πρόβλημα εμφανιζόταν στο αρχικό στάδιο της διαφορικής διάγνωσης, με τα μοντέλα να αποτυγχάνουν στο 80% των περιπτώσεων.

Υπό κανονικές συνθήκες, σημειώνουν οι ερευνητές, τα μοντέλα δεν θα μπορούσαν να προχωρήσουν πέρα από αυτό το στάδιο. Για τις ανάγκες της μελέτης όμως τους δόθηκαν επιπλέον πληροφορίες ώστε να περάσουν στην επόμενη φάση και να αξιολογηθούν.

«Αξιολογώντας τα LLM βήμα προς βήμα [..] τα βάζουμε στη θέση του γιατρού» δήλωσε Άρια Ράο του Mass General Brigham, επικεφαλής της μελέτης.

«Τα μοντέλα είναι πολύ καλά στο να προσδιορίζουν την τελική διάγνωση όταν τα δεδομένα είναι πλήρη, δυσκολεύονται όμως στο ανοιχτό αρχικό στάδιο, όταν ακόμα δεν υπάρχουν πολλές πληροφορίες» εξήγησε.

Σύμφωνα με τους ερευνητές, ο αλγόριθμος PrIME-LLM που αναπτύχθηκε για τις ανάγκες της μελέτης θα μπορούσε να χρησιμοποιηθεί από εταιρείες ΑΙ και νοσοκομεία για την αξιολόγηση μελλοντικών μοντέλων.

Όπως τόνισε ο Σούτσι, «η υπόσχεση της ΑΙ στην κλινική ιατρική  έγκειται στη δυνατότητά της να ενισχύει και όχι να αντικαθιστά τη σκέψη του ιατρού, υπό την προϋπόθεση ότι όλα τα σχετικά δεδομένα είναι διαθέσιμα, κάτι που δεν ισχύει πάντα».

«Τα αποτελέσματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στην υγεία συνεχίζουν να απαιτούν την παρουσία ανθρώπων και πολύ στενή επίβλεψη».

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ALTER EGO MEDIA A.E.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΚΕΦΟΔΕ ΑΤΤΙΚΗΣ

Ηλεκτρονική διεύθυνση Επικοινωνίας: in@alteregomedia.org, Τηλ. Επικοινωνίας: 2107547007

ΜΗΤ Αριθμός Πιστοποίησης Μ.Η.Τ.232442

Τρίτη 14 Απριλίου 2026
Cookies