Παρασκευή 22 Νοεμβρίου 2024
weather-icon 21o
ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

Μια έκθεση των New York Times περιγράφει λεπτομερώς τους τρόπους με τους οποίους οι μεγάλοι παίκτες της τεχνητής νοημοσύνης επιχειρούν να επεκτείνουν την πρόσβαση τους σε δεδομένα εκπαίδευσης.

Νωρίτερα αυτήν την εβδομάδα, η Wall Street Journal ανέφερε ότι οι εταιρείες τεχνητής νοημοσύνης προσκρούουν σε τοίχο στην προσπάθεια να συγκεντρώσουν υψηλής ποιότητας δεδομένα εκπαίδευσης.

Οι New York Times με τη σειρά τους παρουσίασαν λεπτομερώς ορισμένους από τους τρόπους με τους οποίους οι εταιρείες κλήθηκαν να αντιμετωπίσουν το συγκεκριμένο πρόβλημα. Αφού επισημαίνουν πως πρόκειται για μια «βουτιά» στη γκρίζα ζώνη του νόμου περί πνευματικών δικαιωμάτων ξεδιπλώνουν την ιστορία με την OpenAI, η οποία, απελπισμένη για δεδομένα, φέρεται να ανέπτυξε το μοντέλο μηχανικής μάθησης για αναγνώριση και μεταγραφή ομιλίας «Whisper». Με τον τρόπο αυτό κατάφερε να ξεπεράσει το εμπόδιο, μεταγράφοντας πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube για να εκπαιδεύσει το GPT-4.

Σύμφωνα με τους ΝΥΤ η εταιρεία γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο, αλλά πίστευε ότι η χρήση που έκανε είναι θεμιτή. Η εκπρόσωπος της OpenAI, Lindsay Held, δήλωσε στο The Verge ότι η εταιρεία επιμελείται «μοναδικά» σύνολα δεδομένων για κάθε ένα από τα μοντέλα της για να «βοηθήσει στην κατανόηση του κόσμου» και να διατηρήσει την παγκόσμια ερευνητική της ανταγωνιστικότητα. Η Held πρόσθεσε ότι η εταιρεία χρησιμοποιεί «πολυάριθμες πηγές, συμπεριλαμβανομένων των «δημόσια διαθέσιμων δεδομένων».

Όλα για τη μάθηση…

Το άρθρο των Times αναφέρει ότι η εταιρεία εξάντλησε τα αποθέματα χρήσιμων δεδομένων το 2021 και συζήτησε τη μεταγραφή βίντεο από το YouTube, podcasts και ηχητικά βιβλία. Μέχρι τότε, είχε εκπαιδεύσει τα μοντέλα της σε δεδομένα που περιλάμβαναν κώδικα υπολογιστή από το Github, βάσεις δεδομένων με κινήσεις σκακιού και περιεχόμενο σχολικών εργασιών από το Quizlet.

Ο εκπρόσωπος της Google, Matt Bryant, δήλωσε στο The Verge ότι η εταιρεία έχει «δει ανεπιβεβαίωτες αναφορές» για τη δραστηριότητα του OpenAI, προσθέτοντας ότι «τόσο τα αρχεία robots.txt όσο και οι όροι υπηρεσίας μας απαγορεύουν την μη εξουσιοδοτημένη απόσπαση ή λήψη περιεχομένου του YouTube».

Κάτι παρόμοιο δήλωσε και ο διευθύνων σύμβουλος του YouTube, Neal Mohan, σχετικά με την πιθανότητα η OpenAI να χρησιμοποίησε το YouTube.

Ο Bryant δήλωσε επίσης ότι η Google λαμβάνει «τεχνικά και νομικά μέτρα» για να αποτρέψει μια μη εξουσιοδοτημένη χρήση «όταν έχουμε σαφή νομική ή τεχνική βάση για να το κάνουμε».

Η Google, το OpenAI και όχι μόνο «παλεύουν» με τα δεδομένα καθώς αυτά «εξατμίζονται γρήγορα». Πιθανές λύσεις για το πρόβλημα αυτό περιλαμβάνουν την εκπαίδευση των μοντέλων σε «συνθετικά» δεδομένα (παράγονται από έναν αλγόριθμο υπολογιστή) που δημιουργούνται από τα δικά τους μοντέλα, αναφέρει η Journal.  Άλλη επιλογή των εταιρειών είναι να χρησιμοποιούν δεδομένα είτε έχουν άδεια είτε όχι όμως οι πολλαπλές αγωγές που κατατέθηκαν τον τελευταίο περίπου χρόνο, ο τρόπος αυτός, μάλλον αρχίζει να εκλείπει.

Must in

Τι σημαίνουν τα εντάλματα σύλληψης για Νετανιάχου και Γκάλαντ

Ανεξαρτήτως πρακτικής εφαρμογής, τα εντάλματα σύλληψης για Νετανιάχου και Γκάλαντ ενισχύουν την πίεση προς τις δυτικές κυβερνήσεις να μετατοπιστούν από την υποστήριξη των ισραηλινών πολεμικών επιχειρήσεων

Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις

in.gr | Ταυτότητα

Διαχειριστής - Διευθυντής: Λευτέρης Θ. Χαραλαμπόπουλος

Διευθύντρια Σύνταξης: Αργυρώ Τσατσούλη

Ιδιοκτησία - Δικαιούχος domain name: ALTER EGO MEDIA A.E.

Νόμιμος Εκπρόσωπος: Ιωάννης Βρέντζος

Έδρα - Γραφεία: Λεωφόρος Συγγρού αρ 340, Καλλιθέα, ΤΚ 17673

ΑΦΜ: 800745939, ΔΟΥ: ΦΑΕ ΠΕΙΡΑΙΑ

Ηλεκτρονική διεύθυνση Επικοινωνίας: in@alteregomedia.org, Τηλ. Επικοινωνίας: 2107547007

ΜΗΤ Αριθμός Πιστοποίησης Μ.Η.Τ.232442

Παρασκευή 22 Νοεμβρίου 2024