Τεχνική εκπαίδευσης σκύλων λειτουργεί και στα ρομπότ
Η πρακτική της «θετικής ενίσχυσης» επιτρέπει στις μηχανές να μαθαίνουν μόνες τους
- Κίνα: Αυτοκίνητο έπεσε επάνω σε πλήθος έξω από δημοτικό σχολείο – Τουλάχιστον 10 τραυματίες
- Θα «σπάσει» η Ελλάδα το καλούπι του δεξιού λαϊκισμού στην ΕΕ;
- Η υπερθέρμανση του πλανήτη κοστίζει ζωές - Για πρώτη φορά επιστήμονες υπολογίζουν τους θανάτους
- Το ΠΑΣΟΚ πολιορκεί το κέντρο που «χάνει» η ΝΔ και τη βαφτίζει «γαλάζιο ΣΥΡΙΖΑ»
Χρησιμοποιώντας την τεχνική της επιβράβευσης, που έχει αποδειχθεί άκρως αποτελεσματική στην εκπαίδευση σκύλων, Αμερικανοί ερευνητές δίδαξαν έναν ρομποτικό βραχίονα μια σειρά από νέα κόλπα, όπως το να στήνει πύργους από τουβλάκια.
Στο μέλλον, λένε οι συντάκτες της μελέτης, παρόμοιες τεχνικές ίσως επιτρέψουν στα ρομπότ να μαθαίνουν να εκτελούν περίπλοκες εργασίες όπως το πλύσιμο των πιάτων και η εργασία σε γραμμές παραγωγής.
Το σημαντικό στο νέο πείραμα είναι ότι ο ρομποτικός βραχίονας αρχικά δεν είχε ιδέα τι είναι τα τουβλάκια και πώς πρέπει να τα πιάνει. Έμαθε μόνο του τι έπρεπε να κάνει χάρη στην τεχνική της επιβράβευσης, ή «θετικής ενίσχυσης» όπως την ονομάζουν οι συμπεριφορικοί ψυχολόγοι.
«Στην αρχή το ρομπότ δεν έχει ιδέα τι κάνει, με την εξάσκηση όμως γίνεται όλο και καλύτερο. Δεν εγκαταλείπει ποτέ και συνεχίζει να προσπαθεί να στήσει τα τουβλάκια μέχρι να πετύχει το στόχο στο 100% των περιπτώσεων» εξηγεί ο Άντριου Χουντ, διδακτορικός φοιτητής του Πανεπιστημίου «Τζονς Χόπκινς» του Κονέκτικατ, πρώτος συγγραφέας της μελέτης.
«Στο παρελθόν είχα σκύλους, οπότε γνωρίζω ότι η επιβράβευση έχει αποτέλεσμα. Αυτό αποτέλεσε την έμπνευση για το σχεδιασμό του αλγόριθμου μάθησης» λέει.
Η δημοσίευση της ομάδας του, με τίτλο «Good Robot!», δημοσιεύεται στην επιθεώρηση IEEE Robotics and Automation Letters.
Οι ερευνητές έπρεπε βέβαια να επινοήσουν ένα σύστημα επιβράβευσης που λειτουργεί όπως οι λιχουδιές στους σκύλους. Εκεί που ένας σκύλος θα κέρδιζε ένα μπισκοτάκι, το ρομπότ επιβραβευόταν με επιπλέουν βαθμούς, σε ένα είδος «πόιντ σίστεμ».
Ο ρομποτικός βραχίονας, με το όνομα Spot, άρχισε σε πρώτη φάση να πειραματίζεται με τους κύβους, χωρίς να γνωρίζει τι ακριβώς έπρεπε να κάνει. Σύντομα έμαθε ότι οι κινήσεις που οδηγούν στο στοίβαγμα των κύβων προσέφεραν πόντους επιβράβευσης, ενώ οι λανθασμένες κινήσεις δεν του προσέφεραν τίποτα.
«Αυτό που θέλει το ρομπότ είναι η υψηλότερη δυνατή βαθμολογία. Μαθαίνει γρήγορα τις σωστές συμπεριφορές για να λάβει την καλύτερη επιβράβευση» εξηγεί ο Χουντ.
Και, όπως επισημαίνει, ο Spot έμαθε να στοιβάζει κυβάκια σε μόλις δύο ημερών, συγκριτικά με τον έναν μήνα που θα απαιτούσαν άλλες τεχνικές μηχανικής μάθησης ή προγραμματισμού.
Η ερευνητική ομάδα ελπίζει τώρα ότι η τεχνική της θετικής ενίσχυσης θα βοηθήσει στην ανάπτυξη ρομπότ που μαθαίνουν περίπλοκες εργασίες, όπως η συναρμολόγηση εξαρτημάτων σε γραμμές παραγωγής ή η αυτόνομη οδήγηση.
Όπως λέει ο Χαντ, «απώτερος στόχος μας είναι να αναπτύξουμε ρομπότ που αναλαμβάνουν σύνθετες εργασίες σε πραγματικό χρόνο, όπως η συναρμολόγηση και η φροντίδα ηλικιωμένων.
«Σήμερα δεν γνωρίζουμε πώς να προγραμματίσουμε τέτοιου είδους εργασίες. Όμως η εργασίας μας δείχνει ότι υπάρχει μέλλον στην ιδέα ότι τα ρομπότ μπορούν να μάθουν να επιτυγχάνουν τέτοιους στόχους σε πραγματικές συνθήκες με τρόπο ασφαλή και αποδοτικό».
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις