Τεχνητή νοημοσύνη και διαδίκτυο – Η νέα τεχνολογία κληρονόμησε προκαταλήψεις και τα «τυφλά» σημεία του Ιστού
Η τεχνητή νοημοσύνη έχει σε μεγάλο βαθμό εκπαιδευτεί από το υλικό του διαδικτύου. Έτσι, οι απαντήσεις της, όσο λεπτομερείς και αν είναι, στερούνται πληροφοριών και ποικιλομορφίας. Είτε αυτό είναι επιστημονικά στοιχεία είτε πολιτισμική ποικιλομορφία.
Η τεχνητή νοημοσύνη ήρθε να αλλάξει, εκτός από τον τρόπο που εργαζόμαστε και δουλεύουμε, και τον τρόπο με τον οποίο αναζητούμε και λαμβάνουμε πληροφορίες. Και από τα «web spiders» ή bots που διέτρεχαν τα εκατομμύρια των ινών που συνδέουν διαδικτυακά τον κόσμο και ευρετηριάζουν ιστοσελίδες, πλέον έχουμε αυτά της ΑΙ.
Είναι αυτά που ήρθαν με την ανάπτυξη των μεγάλων γλωσσικών μοντέλων (LLM), των προγραμμάτων δηλαδή που τροφοδοτούν την τεχνητή νοημοσύνη. Ο ρόλος τους πάει πέρα από το να δημιουργούν ευρετήριο του ιστού. «Ρουφούν» το περιεχόμενο σε τεράστια κλίμακα και με μεγάλη ταχύτητα.
Ζήτημα διαφάνειας
Έτσι τα GPTBot, ClaudeBot, Meta-ExternalAgent και Bytespider ερευνούν αυτή την ανεξάντλητη δεξαμενή γνώσης του διαδικτύου για να δημιουργηθούν γιγαντιαία σώματα δεδομένων κειμένου. Με αυτά τα δεδομένα στη συνέχεια τροφοδοτούν και εκπαιδεύουν τα μεγάλα γλωσσικά μοντέλα των OpenAI, Anthropic, κ.λπ. Από αυτές τις πληροφορίες, οι χρήστες παίρνουν τις «πιο εύλογες» απαντήσεις στα ερωτήματά τους.

Όπως εξηγεί στη γαλλική εφημερίδα Le Monde ο Ζιλιέν Μαζανέ, συνιδρυτής του Internet Archive Europe και πρώην επιμελητής στην Εθνική Βιβλιοθήκη της Γαλλίας, «σε αντίθεση με τα περισσότερα εργαλεία και αλγόριθμους υπολογιστών που έχουν σχεδιαστεί μέχρι σήμερα, των οποίων η συμπεριφορά προερχόταν κυρίως από τον κώδικα στον οποίο γράφτηκαν, οι πράκτορες τεχνητής νοημοσύνης εξαρτώνται σε μεγάλο βαθμό από τα δεδομένα που τους παρέχονται».
Και επίσης η παρακολούθηση των bots που τροφοδοτούν την τεχνητή νοημοσύνη δεν είναι καθόλου εύκολη. Η φρενήρης δραστηριότητά τους στον ιστό δημιουργεί σημαντικές τριβές. «Η πρακτική της ανίχνευσης, δηλαδή της αυτοματοποιημένης εξερεύνησης ιστού, αν και δεν είναι καινούργια, έχει τους άγραφους κανόνες της», εξηγεί ο Πέδρο Ορτίθ Ζουάρεθ, ερευνητής στο Common Crawl Foundation.
Πρόκειται για οργανισμό που συλλέγει σημαντικό μέρος του ιστού από το 2007 και παρέχει ελεύθερα τα αρχεία και τα σύνολα δεδομένων του στο κοινό, τους ερευνητές και τις επιχειρήσεις. Αυτοί οι κανόνες ενθαρρύνουν τους ανιχνευτές να προχωρούν «αργά», ώστε να μην υπερφορτώνουν τους διακομιστές του ιστότοπου που επισκέπτεται. Επίσης, να μην εμποδίζουν άλλους χρήστες να έχουν πρόσβαση σε αυτόν, αλλά και να σέβονται τα όρια που επιβάλλονται στα ρομπότ από τους διαχειριστές ιστότοπων.
Στην τεχνητή νοημοσύνη δεν υπάρχει κανένας έλεγχος. Είναι κάτι σαν τη λαθροθηρία ή την αλιεία με τράτες βυθού. «Σαρώνουν» τα πάντα. Η λογική, λέει ο Σουάρεθ, είναι «να ανακτήσουμε όρο το δυνατόν περισσότερο περιεχόμενο, το συντομότερο δυνατό».
Έτσι, διατηρούν έναν σημαντικό βαθμό αδιαφάνειας σχετικά με την προέλευση και τη φύση του περιεχομένου που συλλέγουν στο διαδίκτυο.

Το μεγάλο κόλπο
Οι CEO της Σίλικον Βάλεϊ είτε παρακάμπτουν αυτή τη συζήτηση είτε, όπως ο Έλον Μασκ, καυχώνται γι’ αυτό. Ο ιδιοκτήτης του X έχει πει πως όλη η ανθρώπινη γνώση είχε συγκεντρωθεί και χρησιμοποιηθεί για να εκπαιδευτεί η τεχνητή νοημοσύνη. Το «κόλπο», σύμφωνα με τον Μπρουνό Μασιμόν, επιστήμονα υπολογιστών, φιλόσοφο και ερευνητή στο Τεχνολογικό Πανεπιστήμιο της Κομπιέν (Oise), είναι ακριβώς αυτό. Αν η συλλογή δεδομένων είναι μια αντικειμενική παρουσίαση του κόσμου, τότε δεν υπάρχει λόγος να την επικρίνουμε. «Στην πραγματικότητα, η συλλογή δεν έχει ως αποτέλεσμα μια παρουσίαση αλλά μια αναπαράσταση του κόσμου», επισημαίνει. Και εξηγεί: «Ας πούμε, μια αυθαίρετη, μερική και προκατειλημμένη ερμηνεία».
Με τη θέση αυτή συμφωνεί και ο Ζιλιέν Μασανέ. «Για να διατηρήσουμε μια κρίσιμη απόσταση από τις απαντήσεις των πρακτόρων ΑΙ είναι απαραίτητο να αναρωτηθούμε ποιες προκαταλήψεις και ασυμμετρίες διαμορφώνουν αυτά τα σύνολα δεδομένων που συλλέγονται στον Ιστό. Αλλά και ποια δεδομένα λείπουν», λέει.
Κατ’ αρχάς τα LLM δεν είναι εκπαιδευμένα σε όλο το περιεχόμενο που είναι διαθέσιμο στον Ιστό. Τα δεδομένα που συλλέγονται από τα προγράμματα ανίχνευσης (crawlers) θα αποτελούν επομένως πάντα μόνο ένα υποσύνολο αυτού που υπάρχει στο διαδίκτυο. Όσο τεράστιο κι αν είναι αυτό το υποσύνολο. Ο Φαμπιάν Γκάντον, Διευθυντής Έρευνας στο Γαλλικό Εθνικό Ινστιτούτο Έρευνας στην Ψηφιακή Επιστήμη και Τεχνολογία, σημειώνει: «Στην πράξη, τα σύνολα δεδομένων εκπαίδευσης είναι τεράστια δείγματα του δημόσιου ιστού. Συχνά εμπλουτισμένα από άλλες πηγές που αγοράζονται από συνεργάτες ή εξειδικευμένες εταιρείες, αντί για έναν αδύνατο, πλήρη καθρέφτη ολόκληρου του ιστού».

Δύσκολη η συλλογή δεδομένων
Πόσο μακριά μπορούν να φτάσουν πραγματικά αυτοί οι ακόρεστοι ανιχνευτές ιστού; Σύμφωνα με τον Φαμπιάν Γκαντόν, έχουν πρόσβαση μόνο σε αυτό που ονομάζεται «επιφανειακός ιστός», δηλαδή στο δημόσια ευρετηριασμένο τμήμα του ιστού. Οι πόρτες προς τον «βαθύ ιστό» παραμένουν κλειστές. Και όπου βαθύς ιστός, σελίδες προσβάσιμες μόνο μέσω αναζήτησης, πύλες που απαιτούν πληρωμή (όπως ορισμένα ΜΜΕ) ή ασφαλή πρόσβαση.
Και αυτό ισχύει ακόμη και για τα πιο επιθετικά bots. Ο σκοτεινός ιστός (dark web), το τμήμα του ιστού που είναι σκόπιμα μη ευρετηριασμένο και δύσκολο να βρεθεί, είναι επίσης εκτός εμβέλειας τους. Συνεπώς, λέει ο ερευνητής, «η μέση κάλυψη, ανάλογα με τον τύπο του ανιχνευτή, εκτιμάται σε ποσοστό μεταξύ 40% και 80% του επιφανειακού ιστού». Δηλαδή λιγότερο από το 10% ολόκληρου του ιστού.
Μια προκατειλημμένη μέθοδος
Σύμφωνα με τον Ζιλιέν Μασανέ, η μέθοδος ανίχνευσης από την τεχνητή νοημοσύνη «είναι πρακτική, αλλά έχει τις προκαταλήψεις της». Δεν επιτρέπει την πρόσβαση σε ιστοσελίδες που δεν συνδέονται με καμία άλλη. Διότι οι ανιχνευτές πλοηγούνται από σύνδεσμο σε σύνδεσμο ξεκινώντας από μια κύρια διεύθυνση URL (seed). Δεν μπορούν να φτάσουν σε μια απομονωμένη σελίδα.
Επίσης, «οι σελίδες με τους περισσότερους συνδέσμους που οδηγούν σε αυτές είναι στατιστικά πιο πιθανό να ανιχνευθούν, επειδή περισσότερα μονοπάτια οδηγούν σε αυτές». Αυτό εισάγει στην τεχνητή νοημοσύνη την «προκατάληψη δημοτικότητας».
Κατά τον Πέδρο Σουάρεθ, «το διαδίκτυο δεν είναι τόσο καλά συνδεδεμένο όσο νομίζουμε. Αν π.χ. οι διευθύνσεις URL seed είναι ιστότοποι γραμμένοι στα αγγλικά, θα είναι δύσκολο, ακολουθώντας τους συνδέσμους, να βρεθεί ένας γαλλικός ιστότοπος». Επίσης, για τεχνικούς λόγους, επιβάλλονται πλέον όρια βάθους (όρια απόστασης) στους crawlers. Έτσι, περιορίζουν περαιτέρω την ικανότητά τους να κάνουν απροσδόκητες ανακαλύψεις.

Επίσης, η εξέλιξη του Ιστού καθιστά τη συλλογή δεδομένων πιο δύσκολη από πριν. «Έχει αλλάξει πολύ τα τελευταία δεκαπέντε χρόνια, με την εμφάνιση των κοινωνικών δικτύων», λέει ο Ζιλιέν Μασανέ. «Αυτές οι πλατφόρμες είναι καλά προστατευμένες. Η ανίχνευση στο Facebook καθίσταται σκόπιμα εξαιρετικά δύσκολη». Επιθυμώντας να αποκτήσουν πλεονέκτημα έναντι των ανταγωνιστών τους, εταιρείες όπως η Meta έχουν καταστήσει τους τεράστιους όγκους δεδομένων που παράγονται από αυτές τις πλατφόρμες αποκλειστικό τους τομέα. Και τα χρησιμοποιούν για να εκπαιδεύσουν τα δικά τους γλωσσικά μοντέλα για τεχνητή νοημοσύνη. Η αυξανόμενη σημασία αυτών των πλατφορμών στη χρήση του ιστού δημιουργεί έτσι σημαντικά τυφλά σημεία στα σύνολα δεδομένων που συγκεντρώνονται από προγράμματα ανίχνευσης που δεν έχουν πρόσβαση σε αυτά.
Κι ένας προκατειλημμένος Ιστός
Ούτως ή άλλως, ο Ιστός απέχει από το να αποτελεί πιστή αναπαράσταση της ποικιλομορφίας των ανθρώπινων πολιτισμών και γνώσεων. Είναι ο ίδιος βαθιά προκατειλημμένος. Συνεπώς, δεν τροφοδοτεί την τεχνητή νοημοσύνη με αντιπροσωπευτικές πληροφορίες.
Παράδειγμα, η χρήση των γλωσσών που ομιλούνται ανά τον κόσμο. Ο υποψήφιος διδάκτορας του Πανεπιστημίου Κορνέλ στις ΗΠΑ Ντιπάκ Βαρουβέλ Ντένισον, διαπίστωσε το εξής: Από τις σχεδόν 7.000 γλώσσες που αναφέρονται παγκοσμίως, μόνο 343 είναι καταγεγραμμένες στο διαδίκτυο. Λιγότερο από το 5% αυτών έχουν σημαντική ψηφιακή παρουσία. Αυτό οφείλεται στην κυρίως προφορική φύση πολλών γλωσσών και διαλέκτων. Αλλά και στην άνιση πρόσβαση στο Διαδίκτυο για πληθυσμούς σε όλο τον κόσμο.
Ακόμα και οι γλώσσες που εκπροσωπούνται καλύτερα στο διαδίκτυο δεν είναι άτρωτες στο ζήτημα της προκατάληψης. Όπως λέει ο Φαμπιάν Γκαντόν, τα γαλλικά που ομιλούνται στο Κεμπέκ του Καναδά είναι πιο πιθανό να εκπροσωπούνται στο διαδίκτυο από τα γαλλικά που ομιλούνται στην Μπουρκίνα Φάσο. Η τεχνητή νοημοσύνη δεν μπορεί να το αντιμετωπίσει αυτό. Θα πάρει αυτό που θα βρει.

Έτσι τίθεται το ερώτημα: Αν η τεχνητή νοημοσύνη παραμένει «κωφή» στις γλώσσες που δεν μπορούν να βρεθούν στον Ιστό, ποιες άλλες μορφές γνώσης της διαφεύγουν;
Χρηματική γνώση
Η γνώση που δεν είναι διαδικτυακή επειδή είναι ιδιωτική ή χρηματική (παράγεται από εταιρείες, εργαστήρια και κυβερνητικές υπηρεσίες) αντιπροσωπεύει σημαντικό όγκο πληροφοριών. Επίσης, η τεχνητή νοημοσύνη δεν μπορεί να φτάσει στη γνώση που μεταδίδεται μέσω προφορικών παραδόσεων.
Αλλά και ένα εγχειρίδιο για τη διδασκαλία της τέχνης της συζήτησης δεν μπορεί ποτέ να αποτυπώσει πλήρως όλα όσα μερικές φορές λέγονται χωρίς να ειπωθεί λέξη. Μια έκφραση του προσώπου, μια αλλαγή στον τόνο της φωνής. Και πολλά άλλα που εκφράζονται χωρίς να ειπωθούν.
Άλλο ζωή, άλλο κείμενο
Οι ειδικοί τονίζουν ότι η τεχνητή νοημοσύνη, επειδή βασίζεται κυρίως σε κείμενο, δεν μπορεί να κατανοήσει τον φυσικό κόσμο. Τουλάχιστον για την ώρα.
Επίσης, υπάρχει το πρόβλημα της χρονικότητας. Παλαιότερες πηγές δεν έχουν ακόμη ψηφιοποιηθεί. Και τα σώματα που εκπαιδεύουν την τεχνητή νοημοσύνη, επειδή δεν ενημερώνονται συνεχώς, δεν μπορούν τεχνικά να συμπεριλάβουν το πιο πρόσφατο περιεχόμενο. Κάποια μοντέλα, λύνουν αυτό το πρόβλημα, ενσωματώνοντας πράκτορες για ανάκτηση πληροφοριών, την ώρα που ο χρήστης ρωτά. Και απαντούν –αν οι πληροφορίες βρίσκονται στο διαδίκτυο.

Επίσης, ο Ιστός δεν είναι τελικά μια γιγαντιαία βιβλιοθήκη. Μια σημαντική ποσότητα πληροφοριών εξαφανίζεται κάθε μέρα. Ο Ζιλιέν Μασανέ εξηγεί: «Ορισμένες ιστοσελίδες που δημιουργήθηκαν πριν από περισσότερα από είκοσι χρόνια μπορεί να παραμένουν σε έναν διακομιστή. Ωστόσο, μερικές φορές όλοι οι διακομιστές που φιλοξενούν έναν ιστότοπο κλείνουν, η ιδιοκτησία του ονόματος τομέα λήγει ή ο διαχειριστής ανακατασκευάζει πλήρως τον ιστότοπο. Και διαγράφει όλες τις παλιές συσχετισμένες διευθύνσεις URL».
Άρα, τα χρονικά «στρώματα» μπορούν να αυτοκαταστραφούν ή να επικαλύπτονται και να μη φτάσουν ποτέ στην τεχνητή νοημοσύνη. Ή, όπως συμβαίνει με τους ιστότοπους ΜΜΕ, να ανανεώνονται πολύ τακτικά. Συνεπώς, η αρχειοθέτησή του στον Ιστό να καθίσταται δύσκολη –έως αδύνατη κάποιες φορές.
Σφάλματα ανακύκλωσης
Ο Μπρουνό Μπασιμόν πιστεύει ότι οι ανιχνευτές που «χτενίζουν» τον Ιστό, δεν θα βρουν ποτέ το απαραίτητο στοιχείο για την κατασκευή μιας ευφυούς μηχανής. «Δεν υπάρχει ούτε μία διαδικασία νοημοσύνης της οποίας το αποτέλεσμα δεν μπορεί να κωδικοποιηθεί, δηλαδή να αναπαρασταθεί», λέει. Ο Ιστός, από τη φύση του, μπορεί μόνο να συλλέγει και να διαδίδει σημάδια, εξηγεί. Λέξεις, κείμενα και εικόνες αποσυνδεδεμένα από το πλαίσιο στο οποίο προέκυψαν και τη διαδικασία με την οποία δημιουργήθηκαν. Και προσθέτει αναφερόμενος στην τεχνητή νοημοσύνη: «Με άλλα λόγια, στον Ιστό, τόσο οι ανιχνευτές όσο και οι χρήστες θα βρίσκουν μόνο τα προϊόντα του νου. Αλλά όχι τη ζωή του νου».

Ωστόσο προειδοποιεί: Αντί να ρωτάμε τι διαφεύγει από τον Ιστό, και επομένως από την τεχνητή νοημοσύνη, θα έπρεπε να ρωτάμε τι θα προκαλέσει η αυξημένη χρήση πρακτόρων ΑΙ. Διότι, η γενετική τεχνητή νοημοσύνη έχει το μοναδικό χαρακτηριστικό να παρέχει άμεσα στον χρήστη τις πληροφορίες που αναζητά. Ανεξάρτητα από το έγγραφο που τις περιείχε προηγουμένως. «Ο κίνδυνος, επομένως, είναι ότι σιγά σιγά τα ίδια τα έγγραφα θα γίνονται ολοένα και πιο σπάνια στον Ιστό, ή ακόμα και αδύνατο να βρεθούν», λέει. Και αυτό γιατί οι χρήστες προτιμούν να στρέφονται απευθείας στην τεχνητή νοημοσύνη.
Κατά τον Ζιλιέν Μασανέ, η τεχνητή νοημοσύνη «έχει νοοτροπία καταναλωτή». Μόνο παίρνει και απορροφά περιεχόμενο. Ακόμα και με τον κίνδυνο να καταστραφεί αυτό που αποτελεί τόσο την πρώτη ύλη όσο και το λειτουργικό τους περιβάλλον. Δηλαδή ο Ιστός.
• Με στοιχεία από τη Le Monde
- Ολλανδία: Άνδρας σκοτώθηκε πηδώντας από αερόστατο
- Τα δεδομένα για το Super Cup της Euroleague: Ο Ολυμπιακός, οι δύο σίγουρες και η… εκκρεμότητα
- Γιώργος Μαζωνάκης: Η ανάρτηση με σημάδια στο πρόσωπο και το ανησυχητικό σχόλιο του
- Καλαμάτα: 41χρονος σκότωσε την 39χρονη σύζυγό του μέσα στο σπίτι τους
- «Ποιες είναι οι δύο επιλογές για να αντικαταστήσουν τον Πίτερς»
- Πάτρα: Θρήνος για πατέρα και γιο που σκοτώθηκαν σε τροχαίο – Ψάχνουν απαντήσεις στην κάμερα του κράνους
- Ο χάρτης ενοικίων στις εμπορικές πιάτσες – Η εκτόξευση της Ερμού
- Ανησυχία για τον Ναδάλ: Η φωτογραφία του θρυλικού τενίστα που έγινε viral στα social media (pics)
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις







![Άκρως Ζωδιακό: Τα Do’s και Don’ts στα ζώδια σήμερα [Δευτέρα 01.06.2026]](https://www.in.gr/wp-content/uploads/2026/05/pexels-moments-11723084-315x220.jpg)












































































Αριθμός Πιστοποίησης Μ.Η.Τ.232442