H AI που εμφανίζει ό,τι ζητήσεις
Το Dall-E είναι ένας μηχανικός Σαλβαντόρ Νταλί
Μια τεχνητή νοημοσύνη που εκπαιδεύτηκε αρχικά στην κατανόηση κειμένου μπορεί πλέον να δημιουργεί πρωτότυπες εικόνες από απλές περιγραφές που δίνει ο χρήστης.
«Μια πολυθρόνα σε σχήμα αβοκτάντο» είναι μια τέτοια απλή περιγραφή, την οποία η AI δεν έχει πρόβλημα να μετατρέψει σε εικόνες.
Το σύστημα Dall-E (συνδυασμός των ονομάτων Νταλί και Wall-E, το ρομπότ στην ομώνυμη ταινία) είναι μια νέα παραλλαγή του GPT-3, μιας τεχνητής νοημοσύνης που προκάλεσε αίσθηση στη Σίλικον Βάλεϊ όταν παρουσιάστηκε το καλοκαίρι του 2020.
Το GPT-3, μια δημιουργία της εταιρείας OpenAI που χρηματοδοτείται από τον Έλον Μασκ και τη Microsoft, μεταξύ άλλων επενδυτών, έμαθε να διαβάζει και να γράφει καταπίνοντας ολόκληρη την Wikipedia, εκατομμύρια βιβλία και αναρίθμητες ιστοσελίδες.
Και χάρη σε αυτή τη γνώση, αντεπεξέρχεται θεαματικά καλά σε ένα και μόνο πράγμα: μπορεί να συνεχίζει μια εργασία που ξεκίνησε ένας άνθρωπος για να δώσει το παράδειγμα.
Αν του πεις «α, β, γ» θα συνεχίσει με όλη την αλφάβητο. Αν γράψεις μια μικρή λίστα εταιρειών και δίπλα τον ισολογισμό τους, θα συνεχίσει τον πίνακα με όλες της εταιρείες του χρηματιστηρίου. Αν περιγράψεις με λόγια μια ιστοσελίδα, θα μπορεί να δημιουργεί νέες ιστοσελίδες σύμφωνα με τις οδηγίες σου.
To Dall-E, μια νέα ενσάρκωση του GPT-3, μπορεί να δημιουργεί μια ατέλειωτη ποικιλία φανταστικών εικόνων σύμφωνα με τις περιγραφές που δίνουν οι χρήστες.
Όπως το θέτει η OpenAI, «το GPT-3 έδειξε ότι η γλώσσα μπορεί να χρησιμοποιηθεί ως οδηγία για την εκτέλεση μιας ποικιλίας εργασιών παραγωγής κειμένου από ένα μεγάλο νευρωνικό δίκτυο. Το Wall-E δείχνει ότι ο ίδιος τύπος νευρωνικού δικτύου μπορεί επίσης να χρησιμοποιηθεί για την παραγωγή εικόνων υψηλής πιστότητας. Επεκτείνουμε αυτά τα ευρήματα για να δείξουμε ότι ο χειρισμός οπτικών εννοιών μέσω της γλώσσας είναι πλέον εφικτός».
H ΑΙ παραγάγει σχέδια σε μια ποικιλία καλλιτεχνικών στιλ, φωτορεαλιστικές απεικονίσεις από διάφορες γωνίες λήψεις, ακόμα και ευφάνταστα καρτούν. Γράψτε για παράδειγμα «μια γάτα με παπιγιόν» και η τεχνητή νοημοσύνη απαντά όχι με μία αλλά με πολλές διαφορετικές απεικονίσεις.
Το Wall-E βασίζεται στην τεχνολογία των νευρωνικών δικτύων, τα οποία μιμούνται τη δομή του ανθρώπινου εγκεφάλου για να επεξεργαστούν μεγάλα σετ δεδομένων και να δίνουν απαντήσεις.
Η εταιρεία παραδέχεται ωστόσο ότι το Dall-E μπορεί να μπερδευτεί όταν η οδηγία που λαμβάνει περιέχει αναφορές σε πολλά αντικείμενα με πολλές διαφορετικές ιδιότητες.
Επιπλέον, το σύστημα παραγάγει διαφορετικές εικόνες αν κανείς αλλάξει ελαφρώς τη διατύπωση της οδηγίας, ακόμα και αν το νόημα παραμένει το ίδιο.
Σύμφωνα με την OpenAI και πολλούς άλλους ερευνητές της τεχνητής νοημοσύνης, ο συνδυασμός της κατανόησης τόσο της γλώσσας όσο και των εικόνων έχει κρίσιμη σημασία για την ανάπτυξη μηχανών που επικοινωνούν όπως οι άνθρωποι.
Αν και παραμένει ασαφές ποιες θα μπορούσαν να είναι οι πρακτικές εφαρμογές της τεχνολογίας, η OpenAI αναγνωρίζει ότι το σύστημα μπορεί να πάσχει από τις ίδιες προκαταλήψεις που στιγματίζουν άλλους αλγόριθμους τεχνητής νοημοσύνης, οι οποίοι για παράδειγμα δυσκολεύονται να αναγνωρίσουν τους μαύρους ή τα γυναικεία πρόσωπα.
Η εταιρεία διαβεβαιώνει ωστόσο πως σκοπεύει να μελετήσει «πώς τα μοντέλα όπως το Dall-E σχετίζονται με οικονομικές επιπτώσεις σε συγκεκριμένα επαγγέλματα, το δυναμικό για προκαταλήψεις στα αποτελέσματα του μοντέλου, και τις μακροπρόθεσμες ηθικές προκλήσεις που φέρνει αυτή η τεχνολογία».
Τι άλλο θα δούμε…
- Άρης: Ξανά ατομικό για Μορόν και Μάγιο, ανεβάζει στροφές ο Κουάισον
- Σκωτία: Φυλακίστηκε ο νεοναζί που διατηρούσε οπλοστάσιο και απειλούσε οργάνωση LGBTQ – «Θα πληρώσουν με αίμα»
- Ο Δήμος Πολυγύρου αποκτά το δικό του λογότυπο
- Δισεκατομμύρια δολάρια σε κρυπτονομίσματα κλάπηκαν από χάκερ το 2024
- Πότε έρχεται στην Ελλάδα για τον Ολυμπιακό o Νέιθαν Μενσά
- Εποχικοί πυροσβέστες: «Όχι» στην τροπολογία από την κυβέρνηση – «Νεοφιλελεύθερες ιδεοληψίες», λέει το ΠΑΣΟΚ