Έχει, άραγε, καλλιτεχνική ή χρηστική αξία ένα baby ραπανάκι που φοράει tutu και πάει βόλτα ένα σκύλο…στην οθόνη του υπολογιστή μας; Μπορεί και ναι, μπορεί και όχι.
Πρόσφατα, πάντως, ένα νέο μοντέλο τεχνητής νοημοσύνης μπορεί να δημιουργήσει τέτοιες weird εικόνες με σαφήνεια και ευγένεια. Την προηγούμενη εβδομάδα, η μη κερδοσκοπική ερευνητική εταιρεία OpenAI κυκλοφόρησε το DALL-E, το οποίο μπορεί να δημιουργήσει πολλές εντυπωσιακές, συχνά σουρεαλιστικές εικόνες από γραπτές οδηγίες όπως «μια πολυθρόνα σε σχήμα αβοκάντο» ή «μια εικόνα ενός υδρόχοιρου που κάθεται σε ένα χωράφι το ξημέρωμα.»
(Και ναι, το όνομα DALL-E είναι ένα portmanteau που αναφέρεται φυσικά στον σουρεαλιστή καλλιτέχνη Salvador Dalí και, συγχρόνως, στην ταινία κινουμένων σχεδίων επιστημονικής φαντασίας «WALL-E.»)
Ενώ η τεχνολογία AI χρησιμοποιείται εδώ και χρόνια για τη δημιουργία εικόνων από κείμενο, τείνει να παράγει εικόνες με blobby, pixelated όμως και με περιορισμένη ομοιότητα με πραγματικά ή φανταστικά θέματα. Ωστόσο, πολλές από τις δημιουργίες DALL-E που παρουσιάστηκαν από το OpenAI σε μια ανάρτηση ιστολογίου φαίνονται καθαρές και καθαρές και είναι από περίπλοκες μέχρι αξιολάτρευτες: το προαναφερθέν ραπανάκι και το σκυλί, αλεπούδες, πολυθρόνες που μοιάζουν με μισά αβοκάντο , οράματα της γέφυρας Golden Gate του Σαν Φρανσίσκο ή το Παλάτι των Καλών Τεχνών.
Το μοντέλο είναι ένα βήμα πιο κοντά στην τεχνητή νοημοσύνη, δήλωσε η Ilya Sutskever, συνιδρυτής του OpenAI και του επικεφαλής επιστήμονα της. Και υπαινίσσεται ένα μέλλον όταν το AI μπορεί να ακολουθήσει πιο περίπλοκες οδηγίες για ορισμένες εφαρμογές – όπως επεξεργασία φωτογραφιών ή δημιουργία εννοιών για νέα έπιπλα ή άλλα αντικείμενα – ενώ δημιουργεί ερωτήματα σχετικά με το τι σημαίνει για έναν υπολογιστή να ασχολείται με την τέχνη και το σχεδιασμό εργασίες που παραδοσιακά πραγματοποιούνταν ως δραστηριότητες από ανθρώπους.
Το DALL-E είναι μια έκδοση ενός υπάρχοντος μοντέλου AI από το OpenAI με την ονομασία GPT-3, το οποίο κυκλοφόρησε πέρυσι σε πολλές εκδηλώσεις. Το GPT-3 εκπαιδεύτηκε στο κείμενο από δισεκατομμύρια ιστοσελίδες, έτσι ώστε να είναι ικανό να απαντά σε γραπτά μηνύματα δημιουργώντας τα πάντα, από άρθρα ειδήσεων έως συνταγές και… ποίηση. Συγκριτικά, το DALL-E εκπαιδεύτηκε σε ζεύγη εικόνων και σχετικού κειμένου με τέτοιο τρόπο ώστε να φαίνεται ικανό να ανταποκρίνεται σε γραπτές οδηγίες με εικόνες που μπορεί να είναι εκπληκτικά παρόμοιες με αυτές που μπορεί να φανταστεί ένα άτομο. Στη συνέχεια, το OpenAI χρησιμοποιεί ένα άλλο νέο μοντέλο AI, το CLIP, για να προσδιορίσει ποια είναι τα καλύτερα αποτελέσματα.
Ο Aditya Ramesh, ο οποίος ηγήθηκε της δημιουργίας του DALL-E, δήλωσε ότι εκπλήσσεται από την ικανότητά του να παίρνει δύο άσχετες έννοιες και να τα συνδυάζει σε λειτουργικά αντικείμενα, όπως καρέκλες σε σχήμα αβοκάντο, και να προσθέτει μέρη σώματος που μοιάζουν με ανθρώπινο σώμα (ένα μουστάκι, για παράδειγμα) σε άψυχα αντικείμενα (πχ. λαχανικά) σε ένα σημείο που έχει νόημα.
Το OpenAI, το οποίο ιδρύθηκε από τον Elon Musk και θεωρεί τη Microsoft ως έναν από τους υποστηρικτές της, δεν έχει ακόμη καθορίσει πώς ή πότε θα κυκλοφορήσει το μοντέλο. Προς το παρόν, ο μόνος τρόπος που μπορείτε να το δοκιμάσετε είναι να επεξεργαστείτε εντολές στην ανάρτηση ιστολογίου DALL-E επιλέγοντας διαφορετικές λέξεις για να τις ολοκληρώσετε από τις αναπτυσσόμενες λίστες: Για παράδειγμα, η εντολή για «μια πολυθρόνα σε σχήμα αβοκάντο» μπορεί να αλλάξει σε «ένα ρολόι με τη μορφή κύβου του Ρούμπικ.» Ακόμα και μέσα σε αυτά τα όρια, ωστόσο, υπάρχουν πολλοί τρόποι χειρισμού των εντολών για να δούμε τι θα παράγει το DALL-E, είτε πρόκειται για ένα κύβο ρολογιού τύπου της δεκαετίας του ’80, ένα ανθρώπινο κεφάλι ή ένα τατουάζ που απεικονίζει μια αγκινάρα.
Ο Mark Riedl, αναπληρωτής καθηγητής στο Ινστιτούτο Τεχνολογίας της Γεωργίας που μελετά την ανθρωποκεντρική τεχνητή νοημοσύνη, δήλωσε ότι οι εικόνες που παράγονται από το μοντέλο εμφανίζονται «πραγματικά συνεκτικές». Παρά το γεγονός ότι δεν μπορεί να έχει άμεση πρόσβαση στο DALL-E, είναι σαφές από την επίδειξη ότι το AI κατανοεί ορισμένες έννοιες και τις εκφράζει οπτικά σχεδόν άρτια.
«Μπορείτε να δείτε ότι καταλαβαίνει τι είναι τα λαχανικά, καταλαβαίνει τι είναι τα tutus και, κυρίως, καταλαβαίνει πώς να βάλει ένα tutu σε ένα λαχανικό», είπε, σημειώνοντας ότι πιθανότατα θα είχε τοποθετήσει ένα tutu σε ένα λαχανικό με παρόμοιο τρόπο.
«Ενώ όμως λειτουργεί με επιτυχία σε ορισμένα πράγματα, είναι επίσης εύθραυστο σε κάποια άλλα», εξήγησε ο Ramesh.
Ο Riedl, επίσης, προσπάθησε να δοκιμάσει το DALL-E δίνοντας εντολή για ένα σχέδιο που θα απεικόνιζε γαρίδες με πιτζάμες να πετούν χαρταετό. Αυτός ο συνδυασμός οδήγησε σε εικόνες που ήταν πιο ασαφείς από αυτές του ραπανάκι στο tutu που περπατούσαν με σκύλο.
Ίσως αυτό συμβαίνει επειδή όσο πιο καλά διαδεδομένη είναι μια ιδέα στο σύνολο δεδομένων – που αντλήθηκε από αυτό που υπάρχει στο Διαδίκτυο – τόσο πιο «άνετα» ένα μοντέλο AI θα παίζει με αυτό, είπε. Άραγε, λοιπόν, πόσες φωτογραφίες λαχανικών κινουμένων σχεδίων θα πρέπει να υπάρχουν στο διαδίκτυο αυτή τη στιγμή;
Με πληροφορίες από το CNN