Μια τεχνητή νοημοσύνη που εκπαιδεύτηκε αρχικά στην κατανόηση κειμένου μπορεί πλέον να δημιουργεί πρωτότυπες εικόνες από απλές περιγραφές που δίνει ο χρήστης.

«Μια πολυθρόνα σε σχήμα αβοκτάντο» είναι μια τέτοια απλή περιγραφή, την οποία η AI δεν έχει πρόβλημα να μετατρέψει σε εικόνες.

Το σύστημα Dall-E (συνδυασμός των ονομάτων Νταλί και Wall-E, το ρομπότ στην ομώνυμη ταινία) είναι μια νέα παραλλαγή του GPT-3, μιας τεχνητής νοημοσύνης που προκάλεσε αίσθηση στη Σίλικον Βάλεϊ όταν παρουσιάστηκε το καλοκαίρι του 2020.

Το GPT-3, μια δημιουργία της εταιρείας OpenAI που χρηματοδοτείται από τον Έλον Μασκ και τη Microsoft, μεταξύ άλλων επενδυτών, έμαθε να διαβάζει και να γράφει καταπίνοντας ολόκληρη την Wikipedia, εκατομμύρια βιβλία και αναρίθμητες ιστοσελίδες.

«Ένα μωρό ραπανάκι που φοράει φούστα βγάζει βόλτα τον σκύλο»

Και χάρη σε αυτή τη γνώση, αντεπεξέρχεται θεαματικά καλά σε ένα και μόνο πράγμα: μπορεί να συνεχίζει μια εργασία που ξεκίνησε ένας άνθρωπος για να δώσει το παράδειγμα.

Αν του πεις «α, β, γ» θα συνεχίσει με όλη την αλφάβητο. Αν γράψεις μια μικρή λίστα εταιρειών και δίπλα τον ισολογισμό τους, θα συνεχίσει τον πίνακα με όλες της εταιρείες του χρηματιστηρίου. Αν περιγράψεις με λόγια μια ιστοσελίδα, θα μπορεί να δημιουργεί νέες ιστοσελίδες σύμφωνα με τις οδηγίες σου.

Το Dall-E έχει και γνώσεις ιστορίας. Εδώ, παραγάγει εικόνες τηλεφώνων από διάφορες δεκαετίες.

To Dall-E, μια νέα ενσάρκωση του GPT-3, μπορεί να δημιουργεί μια ατέλειωτη ποικιλία φανταστικών εικόνων σύμφωνα με τις περιγραφές που δίνουν οι χρήστες.

Όπως το θέτει η OpenAI, «το GPT-3 έδειξε ότι η γλώσσα μπορεί να χρησιμοποιηθεί ως οδηγία για την εκτέλεση μιας ποικιλίας εργασιών παραγωγής κειμένου από ένα μεγάλο νευρωνικό δίκτυο. Το Wall-E δείχνει ότι ο ίδιος τύπος νευρωνικού δικτύου μπορεί επίσης να χρησιμοποιηθεί για την παραγωγή εικόνων υψηλής πιστότητας. Επεκτείνουμε αυτά τα ευρήματα για να δείξουμε ότι ο χειρισμός οπτικών εννοιών μέσω της γλώσσας είναι πλέον εφικτός».

«Ο πίνακας ενός καπιμπάρα που κάθεται σε ένα λιβάδι στη λιακάδα». Η ΑΙ μιμείται διάφορα καλλιτεχνικά στιλ.

H ΑΙ παραγάγει σχέδια σε μια ποικιλία καλλιτεχνικών στιλ, φωτορεαλιστικές απεικονίσεις από διάφορες γωνίες λήψεις, ακόμα και ευφάνταστα καρτούν. Γράψτε για παράδειγμα «μια γάτα με παπιγιόν» και η τεχνητή νοημοσύνη απαντά όχι με μία αλλά με πολλές διαφορετικές απεικονίσεις.

Το Wall-E βασίζεται στην τεχνολογία των νευρωνικών δικτύων, τα οποία μιμούνται τη δομή του ανθρώπινου εγκεφάλου για να επεξεργαστούν μεγάλα σετ δεδομένων και να δίνουν απαντήσεις.

Η εταιρεία παραδέχεται ωστόσο ότι το Dall-E μπορεί να μπερδευτεί όταν η οδηγία που λαμβάνει περιέχει αναφορές σε πολλά αντικείμενα με πολλές διαφορετικές ιδιότητες.

Επιπλέον, το σύστημα παραγάγει διαφορετικές εικόνες αν κανείς αλλάξει ελαφρώς τη διατύπωση της οδηγίας, ακόμα και αν το νόημα παραμένει το ίδιο.

«Το emoji ενός μωρού πιγκουίνου που φοράει μπλε καπέλο, κόκκινα γάντια, πράσινο πουκάμισο και κίτρινο παντελόνι». Η AI μπερδεύεται με τις σύνθετες περιγραφές.

Σύμφωνα με την OpenAI και πολλούς άλλους ερευνητές της τεχνητής νοημοσύνης, ο συνδυασμός της κατανόησης τόσο της γλώσσας όσο και των εικόνων έχει κρίσιμη σημασία για την ανάπτυξη μηχανών που επικοινωνούν όπως οι άνθρωποι.

Αν και παραμένει ασαφές ποιες θα μπορούσαν να είναι οι πρακτικές εφαρμογές της τεχνολογίας, η OpenAI αναγνωρίζει ότι το σύστημα μπορεί να πάσχει από τις ίδιες προκαταλήψεις που στιγματίζουν άλλους αλγόριθμους τεχνητής νοημοσύνης, οι οποίοι για παράδειγμα δυσκολεύονται να αναγνωρίσουν τους μαύρους ή τα γυναικεία πρόσωπα.

Η εταιρεία διαβεβαιώνει ωστόσο πως σκοπεύει να μελετήσει «πώς τα μοντέλα όπως το Dall-E σχετίζονται με οικονομικές επιπτώσεις σε συγκεκριμένα επαγγέλματα, το δυναμικό για προκαταλήψεις στα αποτελέσματα του μοντέλου, και τις μακροπρόθεσμες ηθικές προκλήσεις που φέρνει αυτή η τεχνολογία».

Τι άλλο θα δούμε…

Γράψτε το σχόλιό σας

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, στο