Τεχνολογία 08 Απριλίου 2024 | 00:20

ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

Μια έκθεση των New York Times περιγράφει λεπτομερώς τους τρόπους με τους οποίους οι μεγάλοι παίκτες της τεχνητής νοημοσύνης επιχειρούν να επεκτείνουν την πρόσβαση τους σε δεδομένα εκπαίδευσης.

Νωρίτερα αυτήν την εβδομάδα, η Wall Street Journal ανέφερε ότι οι εταιρείες τεχνητής νοημοσύνης προσκρούουν σε τοίχο στην προσπάθεια να συγκεντρώσουν υψηλής ποιότητας δεδομένα εκπαίδευσης.

Οι New York Times με τη σειρά τους παρουσίασαν λεπτομερώς ορισμένους από τους τρόπους με τους οποίους οι εταιρείες κλήθηκαν να αντιμετωπίσουν το συγκεκριμένο πρόβλημα. Αφού επισημαίνουν πως πρόκειται για μια «βουτιά» στη γκρίζα ζώνη του νόμου περί πνευματικών δικαιωμάτων ξεδιπλώνουν την ιστορία με την OpenAI, η οποία, απελπισμένη για δεδομένα, φέρεται να ανέπτυξε το μοντέλο μηχανικής μάθησης για αναγνώριση και μεταγραφή ομιλίας «Whisper». Με τον τρόπο αυτό κατάφερε να ξεπεράσει το εμπόδιο, μεταγράφοντας πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube για να εκπαιδεύσει το GPT-4.

Σύμφωνα με τους ΝΥΤ η εταιρεία γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο, αλλά πίστευε ότι η χρήση που έκανε είναι θεμιτή. Η εκπρόσωπος της OpenAI, Lindsay Held, δήλωσε στο The Verge ότι η εταιρεία επιμελείται «μοναδικά» σύνολα δεδομένων για κάθε ένα από τα μοντέλα της για να «βοηθήσει στην κατανόηση του κόσμου» και να διατηρήσει την παγκόσμια ερευνητική της ανταγωνιστικότητα. Η Held πρόσθεσε ότι η εταιρεία χρησιμοποιεί «πολυάριθμες πηγές, συμπεριλαμβανομένων των «δημόσια διαθέσιμων δεδομένων».

Όλα για τη μάθηση…

Το άρθρο των Times αναφέρει ότι η εταιρεία εξάντλησε τα αποθέματα χρήσιμων δεδομένων το 2021 και συζήτησε τη μεταγραφή βίντεο από το YouTube, podcasts και ηχητικά βιβλία. Μέχρι τότε, είχε εκπαιδεύσει τα μοντέλα της σε δεδομένα που περιλάμβαναν κώδικα υπολογιστή από το Github, βάσεις δεδομένων με κινήσεις σκακιού και περιεχόμενο σχολικών εργασιών από το Quizlet.

Ο εκπρόσωπος της Google, Matt Bryant, δήλωσε στο The Verge ότι η εταιρεία έχει «δει ανεπιβεβαίωτες αναφορές» για τη δραστηριότητα του OpenAI, προσθέτοντας ότι «τόσο τα αρχεία robots.txt όσο και οι όροι υπηρεσίας μας απαγορεύουν την μη εξουσιοδοτημένη απόσπαση ή λήψη περιεχομένου του YouTube».

Κάτι παρόμοιο δήλωσε και ο διευθύνων σύμβουλος του YouTube, Neal Mohan, σχετικά με την πιθανότητα η OpenAI να χρησιμοποίησε το YouTube.

Ο Bryant δήλωσε επίσης ότι η Google λαμβάνει «τεχνικά και νομικά μέτρα» για να αποτρέψει μια μη εξουσιοδοτημένη χρήση «όταν έχουμε σαφή νομική ή τεχνική βάση για να το κάνουμε».

Η Google, το OpenAI και όχι μόνο «παλεύουν» με τα δεδομένα καθώς αυτά «εξατμίζονται γρήγορα». Πιθανές λύσεις για το πρόβλημα αυτό περιλαμβάνουν την εκπαίδευση των μοντέλων σε «συνθετικά» δεδομένα (παράγονται από έναν αλγόριθμο υπολογιστή) που δημιουργούνται από τα δικά τους μοντέλα, αναφέρει η Journal. Άλλη επιλογή των εταιρειών είναι να χρησιμοποιούν δεδομένα είτε έχουν άδεια είτε όχι όμως οι πολλαπλές αγωγές που κατατέθηκαν τον τελευταίο περίπου χρόνο, ο τρόπος αυτός, μάλλον αρχίζει να εκλείπει.

Ειδήσεις Σήμερα:

ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

Όλα για τη μάθηση…

Ο ψηφιακός μετασχηματισμός απαιτεί στρατηγική και συνεργασία - Τι σημαίνει στην πράξη «έξυπνη πόλη»

Το παράδειγμα με το στυλό που εξηγεί τα όρια των «έξυπνων μηχανών»

«Απολαύστε τη διαδρομή» – Το μήνυμα Μασκ για την επέλαση της ΑΙ

«Βάλτε κόκκινο κουμπί» – Aνησυχία στις ΗΠΑ μετά την κυβερνοεπίθεση από αυτόνομο σύστημα της OpenAI

Η τεχνητή νοημοσύνη μπορεί να φύγει από τον ανθρώπινο έλεγχο – Γιατί είναι ανησυχητικό το «ατύχημα» της OpenAI

Το επόμενο «κόλπο» του Spotify θα είναι εμπνευσμένο από τη λειτουργία «Now Playing»

Ευρωπαϊκό πρόστιμο 900 εκατ. ευρώ στη Google – Moνοπωλιακές πρακτικές σε αναζήτηση και Play Store

Και η Samsung στην κούρσα των έξυπνων γυαλιών ΑΙ

Μετά τα drone, ΗΠΑ και Ευρώπη ποντάρουν σε μη επανδρωμένα μαχητικά

Τεχνητή νοημοσύνη της OpenAI βρήκε εκτός ελέγχου, εξαπέλυσε κυβερνοεπίθεση σε άλλη εταιρεία

Η Γαλλία ψήφισε το «φρένο» στα social media για τα παιδιά κάτω των 15 ετών

Ευρωπαϊκό πρόστιμο 550 εκατ. ευρώ για «παράνομα» και «επικίνδυνα» προϊόντα στο κινεζικό Alibaba

Ώθηση στην ευρωπαϊκή ΑΙ με μεγάλη επένδυση της Microsoft στη γαλλική Mistral

Αποζημιώσεις 1,5 δισ. δολαρίων θα πληρώσει η Anthropic για τα πειρατικά βιβλία που εκπαίδευσαν το Claude

Νέα κούρσα εξοπλισμών στην Ουκρανία καθώς τα drone γίνονται αεριωθούμενα

«Σοσιαλισμός ή καθολικό εισόδημα» – Ο οικονομολόγος Νουριέλ Ρουμπινί βλέπει θετικά την ΑΙ

Τεχνητή νοημοσύνη: Υπάρχει ένα σενάριο για το τέλος του πολιτισμού, για το οποίο κανείς δεν μιλάει

Μοντέλο ΑΙ της Wall Street ερμηνεύει τους χρησμούς του προέδρου της FED

inStream

Εκτός με αναγκαστική αλλαγή για τον Ολυμπιακό και ο Σάλιακας

Μάχη με τις φλόγες σε Γαλλία και Ισπανία – Ενώθηκαν τα σύννεφα του καπνού από τις δύο πυρκαγιές

Νέα διεθνής πρωτοβουλία για υπεύθυνη και δίκαιη Τεχνητή Νοημοσύνη

Προβάδισμα δύο τερμάτων για τον Ολυμπιακό με τον Κάρμο (vid)

Εγκαταλείπουν την Αττική οι αδειούχοι – Τα στοιχεία των αναχωρήσεων από τα λιμάνια

Σταύρος Γεωργίου: Βρέθηκαν το κινητό τηλέφωνο και το πορτοφόλι του ποινικολόγου

Ο Έσε έγινε αναγκαστική αλλαγή - Ποιος κάλυψε το κενό του (vid)

Ορμούζ: Περιστατικό με τάνκερ αναφέρει το UKMTO – Το Ιράν ανέκοψε τον πλου τεσσάρων πλοίων

in.gr | Ταυτότητα