Τεχνική εκπαίδευσης σκύλων λειτουργεί και στα ρομπότ
Η πρακτική της «θετικής ενίσχυσης» επιτρέπει στις μηχανές να μαθαίνουν μόνες τους
Χρησιμοποιώντας την τεχνική της επιβράβευσης, που έχει αποδειχθεί άκρως αποτελεσματική στην εκπαίδευση σκύλων, Αμερικανοί ερευνητές δίδαξαν έναν ρομποτικό βραχίονα μια σειρά από νέα κόλπα, όπως το να στήνει πύργους από τουβλάκια.
Στο μέλλον, λένε οι συντάκτες της μελέτης, παρόμοιες τεχνικές ίσως επιτρέψουν στα ρομπότ να μαθαίνουν να εκτελούν περίπλοκες εργασίες όπως το πλύσιμο των πιάτων και η εργασία σε γραμμές παραγωγής.
«Στην αρχή το ρομπότ δεν έχει ιδέα τι κάνει, με την εξάσκηση όμως γίνεται όλο και καλύτερο. Δεν εγκαταλείπει ποτέ και συνεχίζει να προσπαθεί να στήσει τα τουβλάκια μέχρι να πετύχει το στόχο στο 100% των περιπτώσεων» εξηγεί ο Άντριου Χουντ, διδακτορικός φοιτητής του Πανεπιστημίου «Τζονς Χόπκινς» του Κονέκτικατ, πρώτος συγγραφέας της μελέτης.
«Στο παρελθόν είχα σκύλους, οπότε γνωρίζω ότι η επιβράβευση έχει αποτέλεσμα. Αυτό αποτέλεσε την έμπνευση για το σχεδιασμό του αλγόριθμου μάθησης» λέει.
Η δημοσίευση της ομάδας του, με τίτλο «Good Robot!», δημοσιεύεται στην επιθεώρηση IEEE Robotics and Automation Letters.
Οι ερευνητές έπρεπε βέβαια να επινοήσουν ένα σύστημα επιβράβευσης που λειτουργεί όπως οι λιχουδιές στους σκύλους. Εκεί που ένας σκύλος θα κέρδιζε ένα μπισκοτάκι, το ρομπότ επιβραβευόταν με επιπλέουν βαθμούς, σε ένα είδος «πόιντ σίστεμ».
Ο ρομποτικός βραχίονας, με το όνομα Spot, άρχισε σε πρώτη φάση να πειραματίζεται με τους κύβους, χωρίς να γνωρίζει τι ακριβώς έπρεπε να κάνει. Σύντομα έμαθε ότι οι κινήσεις που οδηγούν στο στοίβαγμα των κύβων προσέφεραν πόντους επιβράβευσης, ενώ οι λανθασμένες κινήσεις δεν του προσέφεραν τίποτα.
«Αυτό που θέλει το ρομπότ είναι η υψηλότερη δυνατή βαθμολογία. Μαθαίνει γρήγορα τις σωστές συμπεριφορές για να λάβει την καλύτερη επιβράβευση» εξηγεί ο Χουντ.
Και, όπως επισημαίνει, ο Spot έμαθε να στοιβάζει κυβάκια σε μόλις δύο ημερών, συγκριτικά με τον έναν μήνα που θα απαιτούσαν άλλες τεχνικές μηχανικής μάθησης ή προγραμματισμού.
Η ερευνητική ομάδα ελπίζει τώρα ότι η τεχνική της θετικής ενίσχυσης θα βοηθήσει στην ανάπτυξη ρομπότ που μαθαίνουν περίπλοκες εργασίες, όπως η συναρμολόγηση εξαρτημάτων σε γραμμές παραγωγής ή η αυτόνομη οδήγηση.
Όπως λέει ο Χαντ, «απώτερος στόχος μας είναι να αναπτύξουμε ρομπότ που αναλαμβάνουν σύνθετες εργασίες σε πραγματικό χρόνο, όπως η συναρμολόγηση και η φροντίδα ηλικιωμένων.
«Σήμερα δεν γνωρίζουμε πώς να προγραμματίσουμε τέτοιου είδους εργασίες. Όμως η εργασίας μας δείχνει ότι υπάρχει μέλλον στην ιδέα ότι τα ρομπότ μπορούν να μάθουν να επιτυγχάνουν τέτοιους στόχους σε πραγματικές συνθήκες με τρόπο ασφαλή και αποδοτικό».
- Βασιλιάς Κάρολος: «Είμαι ακόμη ζωντανός» – Το αστείο που έκανε σε επίσκεψή του
- Γαλλία: Θύελλα αντιδράσεων για το ρατσιστικό παραλήρημα του Μακρόν – Διαψεύδει το Ελιζέ
- Οι δήμαρχοι 10 μεγάλων πόλεων ζητούν από την Κομισιόν μέτρα για την στεγαστική κρίση
- Τεράστιο πρόστιμο για παράνομο streaming
- Μια 95χρονη κληρονόμος διαμαντιών και ένας πολύ νεότερος genderfluid ριάλιτι σταρ – Ένας περίεργος έρωτας
- Απόκοσμες εικόνες από το Νέο Δελχί: Η ομίχλη κάλυψε τα πάντα