AlphaFold: Η τεχνητή νοημοσύνη που έλυσε το οριγκάμι της ζωής
Εταιρεία της Google συνεργάζεται με το Ευρωπαϊκό Εργαστήριο Μοριακής Βιολογίας σε μια βάση δεδομένων που θα συγκεντρώνει τις δομές όλων των πρωτεϊνών του ανθρώπινου οργανισμού.
- Τηλεφωνική επικοινωνία Πούτιν και Ερντογάν – Τι είπαν για τις εμπορικές σχέσεις
- Διακινούσαν υλικό παιδικής πορνογραφίας στο διαδίκτυο - Πλάνα σοκ με κακοποίηση νηπίων
- Ισχυροί άνεμοι στη Φθιώτιδα ξερίζωσαν δέντρα και ξήλωσαν τέντες - Σοβαρές ζημιές σε σκάφη
- Economist: Τι θα κάνει ο νέος «τσάρος» της αμερικανικής οικονομίας που επέλεξε ο Τραμπ
Εδώ και πάνω από μισό αιώνα οι πρωτεΐνες παραμένουν μια από τις μεγαλύτερες σπαζοκεφαλιές της Βιολογίας. Η λειτουργία αυτών των μεγάλων μορίων εξαρτάται από το τρισδιάστατο σχήμα τους, το οποίο όμως μόνο εύκολο δεν είναι να προσδιοριστεί: Παρά τις προσπάθειες δεκαετιών, οι επιστήμονες γνώριζαν μέχρι σήμερα τη δομή μόλις του ενός τρίτου των ανθρώπινων πρωτεϊνών. Ωσπου ένας αλγόριθμος τεχνητής νοημοσύνης υπολόγισε τα υπόλοιπα δύο τρίτα μέσα σε λίγους μήνες.
Η DeepMind, λονδρέζικη εταιρεία που εξαγοράστηκε από την Google, εξέπληξε πέρυσι την επιστημονική κοινότητα παρουσιάζοντας το AlphaFold, έναν αλγόριθμο τεχνητής νοημοσύνης που μαντεύει με ικανοποιητική ακρίβεια τη δομή των πρωτεϊνών από τη χημική σύστασή τους. Τώρα, η εταιρεία συνεργάζεται με το Ευρωπαϊκό Εργαστήριο Μοριακής Βιολογίας (EMBL), μια συνεργασία που έκανε θεαματικό ντεμπούτο τον Ιούλιο. Τα δύο μέρη παρουσίασαν – και διέθεσαν δωρεάν σε κάθε επιστήμονα – μια βάση δεδομένων που καλύπτει τις δομές του 98,5% των ανθρώπινων πρωτεϊνών (πάνω από 20.000) αλλά και δεκάδων χιλιάδων πρωτεϊνών από 20 οργανισμούς μεγάλης βιολογικής σημασίας, όπως το παράσιτο της ελονοσίας και το βακτήριο της φυματίωσης. Οι συνολικά 350.000 καταχωρίσεις στη βάση AlphaFold DB σχεδιάζεται να αυξηθούν τελικά στα 130 εκατομμύρια τρισδιάστατα μοντέλα, ανέφερε το EMBL. O αριθμός αυτός είναι 700 φορές μεγαλύτερος σε σχέση με τις καταχωρίσεις του Protein Data Bank, της μεγαλύτερης βάσης τρισδιάστατων μοντέλων.
Απεριόριστες δυνατότητες
«Μέσα σε λίγους μήνες μάθαμε τις δομές διπλάσιων πρωτεϊνών από ό,τι είχαμε βρει σε πενήντα χρόνια. Αυτό θα επηρεάσει σε τεράστιο βαθμό τη μελέτη των πρωτεϊνών και τον σχεδιασμό φαρμάκων, βιοτεχνολογικών εργαλείων και βιοϋλικών – κάθε πτυχή της βιολογικής έρευνας» λέει στο ΒΗΜΑ-Science o Αναστάσης Περράκης, καθηγητής του Πανεπιστημίου της Ουτρέχτης και κύριος ερευνητής στο Ολλανδικό Ινστιτούτο Καρκίνου. Ο δρ Περράκης, o οποίος έχει εργαστεί στο EMBL, γνωρίζει από πρώτο χέρι το πρόβλημα: επί δύο δεκαετίες η ομάδα του προσπαθούσε να βρει τη δομή μιας πρωτεΐνης που θεωρείται «κλειδί» για την αντιμετώπιση της λεϊσμανίασης και της τρυπανοσωμίασης, παρασιτικών ασθενειών με δεκάδες χιλιάδες θύματα τον χρόνο. «Αν γνωρίζαμε τη δομή της πρωτεΐνης JBP1, θα μπορούσαμε να σχεδιάσουμε μόρια που σταματούν τη λειτουργία της χωρίς να επηρεάζουν τους ασθενείς, περίπου όπως τα αντιβιοτικά» εξηγεί. Ομως η πρωτεΐνη δεν καταδέχθηκε ποτέ να αποκαλυφθεί στις μεθόδους που χρησιμοποιούνται μέχρι σήμερα για τον προσδιορισμό της δομής πρωτεϊνών. Το νέο υπολογιστικό μοντέλο της πρωτεΐνης μπορεί να μην είναι απόλυτα ακριβές, ωστόσο «μας επιτρέπει να αρχίσουμε άμεσα τον σχεδιασμό αναστολέων με βάση τη δομή» λέει ο δρ Περράκης. Σύντομα, επισημαίνει, θα μπορούμε επίσης να προβλέπουμε πώς η δομή μιας πρωτεΐνης επηρεάζεται από μεταλλάξεις στο αντίστοιχο γονίδιο, όπως συμβαίνει τώρα με τις μεταλλάξεις του κορωνοϊού της COVID-19.
H βάση δεδομένων φιλοξενείται στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής στο Χίνξτον της Βρετανίας, ένα από τα επιμέρους εργαστήρια του EMBL σε όλη την Ευρώπη.
Δομή και λειτουργία
Κάθε λειτουργία των κυττάρων θα σταματούσε χωρίς τις πρωτεΐνες, πολυμήχανα μόρια που συναρμολογούνται σύμφωνα με τις οδηγίες των γονιδίων. Χρησιμεύουν ως δομικά στοιχεία των κυττάρων, ως ένζυμα για την κατάλυση χημικών αντιδράσεων, ως ορμόνες ή ως αντισώματα. Οι πρωτεΐνες είναι μακριές αλυσίδες που σχηματίζονται ενώνοντας σε σειρά 20 διαφορετικά αμινοξέα, οργανικές ενώσεις που περιέχουν άζωτο και οξυγόνο. Το τελικό μόριο μπορεί να περιλαμβάνει δεκάδες, εκατοντάδες ή χιλιάδες αμινοξέα και τείνει να αναδιπλώνεται σε μια συγκεκριμένη, τρισδιάστατη δομή. Και η δομή της πρωτεΐνης είναι αυτή που καθορίζει τον τρόπο που αυτή δρα. Για παράδειγμα, η πρωτεΐνη-ακίδα που χρησιμοποιεί ο κορωνοϊός SARS-CoV-2 για να εισβάλει στα ανθρώπινα κύτταρα πρέπει να ταιριάζει σαν κλειδί στην κλειδαριά με τον αντίστοιχο ανθρώπινο υποδοχέα. «Για να παραφράσουμε τον αρχιτέκτονα Λούις Σάλιβαν, η δομή ακολουθεί τη λειτουργία» λέει ο δρ Περράκης.
Αξιόπιστες προβλέψεις
Από τη δεκαετία του 1960, η βασική εργαστηριακή τεχνική για τον προσδιορισμό της δομής πρωτεϊνών παραμένει η κρυσταλλογραφία ακτίνων Χ, ένα είδος μοριακής «ακτινογραφίας». Για να λειτουργήσει όμως το πείραμα, η πρωτεΐνη πρέπει πρώτα να συμπυκνωθεί σε κρυστάλλους, μια χρονοβόρα, επίπονη διαδικασία που μπορεί να απαιτήσει μήνες ή να μη δουλέψει ποτέ, όπως συνέβη με την πρωτεΐνη JBP1 της λεϊσμανίασης. Ανεπαρκής στη συγκεκριμένη περίπτωση αποδείχθηκε και μια δεύτερη, νεότερη τεχνική, η κρυοηλεκτρονική μικροσκοπία, η οποία απεικονίζει πρωτεΐνες σε σχεδόν ατομική ανάλυση, συγκρίσιμη με την ακρίβεια που προσφέρει η κρυσταλλογραφία. Μέχρι πρόσφατα, όμως, ο πειραματικός προσδιορισμός της δομής, όσες προκλήσεις κι αν δημιουργούσε, ήταν η μόνη λύση. Και αυτό παρά το γεγονός ότι οι επιστήμονες είχαν συνειδητοποιήσει από τη δεκαετία του 1960 ότι θεωρητικά θα μπορούσε κανείς να προβλέψει την τρισδιάστατη δομή πρωτεϊνών απλά εξετάζοντας την αλληλουχία αμινοξέων. Στο κάτω-κάτω, οι πρωτεΐνες είναι μόρια και αποτελούνται από άτομα, των οποίων η συμπεριφορά μπορεί να προβλεφθεί με βάση τους νόμους της Φυσικής. Η εφαρμογή της ιδέας στην πράξη αποδείχθηκε όμως δύσκολη υπόθεση, καθώς οι πιθανές διατάξεις των ατόμων μιας πρωτεΐνης στον χώρο είναι αστρονομικά πολλές ακόμα και για τους ισχυρότερους υπερυπολογιστές. Οπως το συνοψίζει ο δρ Περράκης, «ενώ είναι σαφές εδώ και δεκαετίες πως η δομή των πρωτεϊνών εξαρτάται από την ακολουθία τους, κανείς δεν μπορούσε να προβλέψει τη δομή μιας πρωτεΐνης από την ακολουθία της και μόνο». «Το AlphaFold», προσθέτει, «επικυρώνει μια σειρά παλαιών και νέων πειραμάτων της ομάδας μας, αλλά και πολλών άλλων επιστημόνων, που μας δείχνει πως είναι αξιόπιστο, αλλά εξηγεί και τους λόγους που στην περίπτωση της JBP1 η πειραματική μας προσέγγιση δεν έδωσε αποτελέσματα».
Μηχανική μάθηση
Το AlphaFold είναι ένας αλγόριθμος μηχανικής μάθησης, ένα είδος τεχνητής νοημοσύνης που μαθαίνει από παραδείγματα. Το σύστημα τροφοδοτήθηκε με τις πειραματικά επιβεβαιωμένες δομές δεκάδων χιλιάδων πρωτεϊνών και έμαθε να αναγνωρίζει μοτίβα αναδίπλωσης σε πρωτεΐνες με παρόμοια αμινοξική αλληλουχία. Μπορεί επίσης να προσομοιώνει τις φυσικές αλληλεπιδράσεις ανάμεσα σε γειτονικά αμινοξέα. «Πιστεύω ότι είναι η σημαντικότερη μέχρι σήμερα συνεισφορά της τεχνητής νοημοσύνης στην πρόοδο της επιστήμης. Δεν νομίζω ότι είναι υπερβολή να το ισχυριστώ» δήλωσε ο Ντέμις Χασάμπις, ο κυπριακής καταγωγής συνιδρυτής της DeepMind. H εταιρεία του έγινε διάσημη το 2016, όταν μια παραπλήσια τεχνητή νοημοσύνη της, με την ονομασία AlphaGo, νίκησε τον παγκόσμιο πρωταθλητή του γκο, ενός αρχαίου κινεζικού παιχνιδιού που θεωρείται μακράν πιο περίπλοκο από το σκάκι. Η DeepMind επέστρεψε στα φώτα της δημοσιότητας τον Νοέμβριο, όταν το AlphaFold σάρωσε τον ανταγωνισμό στον διεθνή διαγωνισμό αναδίπλωσης πρωτεϊνών CASP. «Ποτέ δεν περίμενα ότι θα έβλεπα τη λύση όσο ζω» σχολίασε τότε στο «Science» ο Τζον Μάουλτ του Πανεπιστημίου του Μέριλαντ, ο οποίος διοργανώνει τον διαγωνισμό από το 1994. Από τον Νοέμβριο μέχρι σήμερα το AlphaFold βελτίωσε περαιτέρω τις επιδόσεις του και μπορεί πλέον να ολοκληρώνει σε μερικά λεπτά ή λίγες ώρες υπολογισμούς για τους οποίους χρειαζόταν αρχικά ολόκληρες ημέρες, λέει η DeepMind.
Η συνεργασία DeepMind – AlphaFold, μια σημαντική επιτυχία για την επιστημονική έρευνα στην Ευρώπη, έρχεται να προστεθεί στις υπόλοιπες προσπάθειες του EMBL για τη μελέτη των πρωτεϊνών. Ο μεγάλος ερευνητικός οργανισμός διαθέτει πειραματικούς σταθμούς κρυσταλλογραφίας στα σύγχροτρα ακτίνων Χ στο Αμβούργο και στην Γκρενόμπλ και σύγχρονες εγκαταστάσεις κρυοηλεκτρονικών μικροσκοπίων στη Χαϊδελβέργη. Η νέα βάση δεδομένων προσφέρει «ένα από τα σημαντικότερα σετ δεδομένων από την εποχή της χαρτογράφησης του ανθρώπινου γονιδιώματος» καμαρώνει ο Γιούαν Μπίρνεϊ, αναπληρωτής γενικός διευθυντής του Ευρωπαϊκού Ινστιτούτου Πληροφορικής. Και όπως επισημαίνει ο δρ Περράκης, η βάση δεδομένων «διατίθεται ελεύθερα σε όλους τους ερευνητές παγκόσμια. Δεν είναι απλά μια πρωτοπορία της ευρωπαϊκής επιστημονικής κοινότητας, είναι και ένας θρίαμβος της ευρωπαϊκής επιστημονικής συνεργασίας, μια και το EMBL συγχρηματοδοτείται από όλες τις ευρωπαϊκές χώρες, συμπεριλαμβανομένης της Ελλάδας».
Οι πρώτοι «καρποί»
Το AlphaFold DB έχει ήδη αρχίσει να αξιοποιείται από επιστήμονες σε όλον τον κόσμο για μια ποικιλία ερευνών: ερευνητές στο Πανεπιστήμιο του Κολοράντο στις ΗΠΑ χρησιμοποιούν τα δεδομένα για τη μελέτη της αντίστασης των μικροβίων στα αντιβιοτικά, ενώ το Πανεπιστήμιο του Πόρτσμουθ στη Βρετανία βασίζεται σε προβλέψεις της τεχνητής νοημοσύνης για την ανάπτυξη ενζύμων που θα ανακυκλώνουν τα πλαστικά απορρίμματα. Στο Πανεπιστήμιο της Καλιφόρνιας στο Σαν Φρανσίσκο ερευνητές μελετούν τα δεδομένα για την καλύτερη κατανόηση του SARS-CoV-2. Οπως φαίνεται, όμως, το AlphaFold είναι μόνο η αρχή: στις 15 Ιουλίου, όταν οι δημιουργοί του συστήματος δημοσίευσαν την εργασία τους στο «Nature», το περιοδικό «Science» φιλοξενούσε μελέτη ερευνητών του Πανεπιστημίου της Ουάσιγκτον στο Σιάτλ, οι οποίοι ανέπτυξαν έναν άλλο αλγόριθμο πρόβλεψης της δομής πρωτεϊνών με την ονομασία RoseTTAFold. Ο νέος αλγόριθμος προσφέρει ακρίβεια που προσεγγίζει αυτή του AlphaFold, παρουσιάζει όμως και νέες δυνατότητες καθώς είναι ικανή να προβλέπει τη δομή όχι μόνο μεμονωμένων πρωτεϊνών, αλλά και συμπλόκων που αποτελούνται από αρκετές πρωτεΐνες.
Έντυπη έκδοση Το Βήμα
Ακολουθήστε το in.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις