Διδακτορικές Διατριβές
Μόνιμο URI για αυτήν τη συλλογήhttps://dspace.library.tuc.gr/handle/123456789/127
Νέα
14
Περιηγούμαι
Πλοήγηση Διδακτορικές Διατριβές ανά Θέμα "Biological informatics"
Τώρα δείχνει 1 - 1 από 1
- Αποτελέσματα ανά σελίδα
- Επιλογές ταξινόμησης
Δημοσίευση Computational methods for knowledge discovery from heterogeneous data sources: methodology and implementation on biological and molecular sources(Πολυτεχνείο Κρήτης, 2014) Koumakis Eleftherios; Κουμακης Ελευθεριος; Moustakis Vasilis; Μουστακης Βασιλης; Bilalis Nikolaos; Μπιλαλης Νικολαος; Zervakis Michalis; Ζερβακης ΜιχαληςΟι σύγχρονες κατευθύνσεις στον τομέα της υγείας και της ιατρικής θέτουν τη πρόληψη, και την εξατομικευμένη ιατρική ως κύριες προτεραιότητες. Ωστόσο αποτελεί κοινή διαπίστωση το γεγονός ότι για να κινηθούμε προς αυτή τη κατεύθυνση πρέπει να ενσωματώσουμε τη γενετική πληροφορία στη καθημερινή πρακτική των επιστημών υγείας. Καθώς εισερχόμαστε στη μεταγονιδωματική εποχή όπου η ακολουθία του ανθρώπινου γονιδιώματος έχει αποκωδικοποιηθεί εξολοκλήρου, η βιολογία διαθέτει πλέον μεθόδους όχι μόνο για την λεπτομερειακή απεικόνιση των αλληλεπιδράσεων των γονιδίων αλλά και την δυνατότητα να επεμβαίνει ώστε να μεταβάλει και να καθορίζει, σε τεχνικό επίπεδο, τη φυσιολογία του ανθρώπινου οργανισμού μέσω των κυττάρων και συνεπώς των ιστών. Για να μπορέσουμε να εκμεταλλευτούμε στο μέγιστο αυτές τις επαναστατικές τεχνολογικές εξελίξεις πρέπει πρώτα να κατανοήσουμε και να αποτυπώσουμε τους χαοτικούς δρόμους που ακολουθεί η γονιδιακή έκφραση, καθώς μια απλή γονιδιακή μετάλλαξη, ή ένας φαινομενικά ασήμαντος περιβαλλοντικός παράγοντας μπορεί να οδηγήσει σε σημαντικές παθολογικές καταστάσεις. Η ευέλικτη, λοιπόν, και αποτελεσματική διαχείριση και επεξεργασία της γονιδιωματικής πληροφορίας με σκοπό την εξατομικευμένη ιατρική είναι η νέα πρόκληση που καλούμαστε να αντιμετωπίσουμε. Τα παραπάνω μαζί με την πρόοδο στον γενικότερο συστημικό και υπολογιστικό τρόπο που διαχειρίζονται οι ερευνητές όλα τα στοιχεία της μοριακής βιολογίας (όπως γονίδια, πρωτεΐνες, ένζυμα, μεταγραφικούς παράγοντες, μεταβολικά και κανονιστικά δίκτυα) έχουν δημιουργήσει μία νέα περιοχή έρευνας, την βιοπληροφορική. Η βιοπληροφορική είναι ο τομέας της θετικής επιστήμης ο οποίος μελετάει τη συμπεριφορά βασικών μονάδων της βιολογικής λειτουργίας μέσω υπολογιστικών μεθόδων. Σκοπός της είναι η εύρεση πρωτότυπων και η εφαρμογή ήδη υπαρχόντων αποδοτικών και ευέλικτων αλγορίθμων επεξεργασίας γενομικών δεδομένων ώστε να εξαχθεί η γνώση που ‘ελλοχεύει’ σε αυτά. Η πρόοδος της βιοπληροφορικής διευρύνθηκε με την πλήρη χαρτογράφηση του ανθρώπινου γονιδιώματος και την εφεύρεση των μικροσυστοιχίων (microarrays). Οι μικροσυστοιχίες είναι συσκευές οι οποίες επιτρέπουν την ταυτόχρονη μέτρηση της έκφρασης δεκάδων χιλιάδων γονιδίων. Μέσω αυτών μπορούμε να μετρήσουμε τη ποσοτική συμμέτοχη ενός μεγάλου μέρους του γονιδιώματος ενός οργανισμού σε κάποιο συγκεκριμένο ιστό. Ο ιστός αυτός μπορεί να είναι υγιείς, καρκινικός, υπό θεραπεία, υπό την επίδραση κάποιου φαρμάκου ή τα κύτταρά του να υποβάλλονται σε κάποια βιολογική διεργασία όπως διαίρεση ή απόπτωση. Σε πειράματα που μετέχουν διαφορετικοί τύποι ιστών μπορούμε να εντοπίσουμε και να μετρήσουμε τη διαφορική έκφραση των γονιδίων. Από την ανακάλυψη των μικροσυστοιχιών (1996) μέχρι σήμερα έχει γίνει μία τεράστια ερευνητική προσπάθεια για την βελτίωση της ακρίβειας τους, την εφαρμογή τους σε περισσότερους ιστούς κάτω από ποικίλες συνθήκες αλλά και για την ολοκλήρωση της γνώσης που παράγεται με άλλα βιολογικά ευρήματα. Αρχικά η προσδοκία ήταν ότι οι μικροσυστοιχίες θα αποκάλυπταν μοναδικά μοτίβα γονίδιων (γονιδιακές υπογραφές) για διάφορους φαινοτύπους, όμως η επαλήθευση των γονιδιακών υπογραφών είναι περιορισμένη, κυρίως λόγω της πολυπλοκότητας και των ετερογένειών που εμφανίζονται σε αυτές. Λόγω των διαφορετικών πλατφορμών που χρησιμοποιούνται στα διάφορα πειραματικά πρωτόκολλα και κυρίως σε πειράματα με μικρά μεγέθη δειγμάτων, η υψηλή διαφορική έκφραση ενός γονιδίου δεν απηχεί κατ’ ανάγκη σε μια μεγαλύτερη πιθανότητα το γονίδιο να σχετίζεται με τη νόσο και, ως εκ τούτου, εστιάζοντας μόνο στα υποψήφια γονίδια με υψηλές διαφορικές εκφράσεις μπορεί να μην είναι η βέλτιστη διαδικασία για τον διαχωρισμό ή την πρόβλεψη ετερογενών φαινοτύπων.Στις μέρες μας η βιοπληροφορική επικεντρώνεται σε πιο ανεπτυγμένες μεθόδους για την επιλογή γονιδίων από μικροσυστοιχίες κυρίως με την προσθήκη και την επεξεργασία γνώσης από άλλες πηγές, όπως τα γονιδιακά ρυθμιστικά δίκτυα (ΓΡΔ) (Gene Regulatory Networks), τα οποία μοντελοποιούν τις αλληλεπιδράσεις των γονιδίων κατά τη διάρκεια βιολογικών διεργασιών. Στο κύτταρο εκατοντάδες ή χιλιάδες γονίδια εκφράζονται και συνεργάζονται από κοινού για να εξασφαλιστεί η λειτουργία και η επιβίωση του. Οι σχέσεις των γονιδίων έχουν χαρτογραφηθεί σε ΓΡΔ τα οποία μπορούν να προσφέρουν γνώση σχετικά με τους μηχανισμούς της γονιδιακής έκφρασης σε επίπεδο συστήματος. Αυτά τα δίκτυα μπορούν επίσης να χρησιμοποιηθούν για την κατανόηση της ροής των πληροφοριών σε ένα βιολογικό σύστημα, για τον εντοπισμό μονοπατιών που μπορούν να χρησιμοποιηθούν για συγκεκριμένο σκοπό, και να μοντελοποιήσουν αλλαγές στην έκφραση γονιδίων κάτω από διαφορετικές συνθήκες. Η μελέτη της λειτουργίας, της δομής και της εξέλιξης των ΓΡΔ σε συνδυασμό με το προφίλ γονιδιακής έκφρασης από μικροσυστοιχίες έχει γίνει απαραίτητη για τη σύγχρονη βιολογική έρευνα.Οι περισσότερες προσπάθειες για την ολοκλήρωση της γνώσης που εμπεριέχουν οι παραπάνω πηγές (μικροσυστοιχίες και ΓΡΔ) αντιμετωπίζουν τα δίκτυα σαν μονοδιάστατες πηγές πληροφορίας όπου οι συσχετίσεις των γονιδίων, όπως αυτά μοντελοποιούνται, δεν εμπερικλείονται και συνεπώς δεν αξιοποιούνται. Πρόσφατα, όλο και περισσότερες μέθοδοι επωφελούνται από την τοπολογία των δικτύων χρησιμοποιώντας μεθόδους της θεωρίας γράφων, αλλά μόνο ένας περιορισμένος αριθμός των επί του παρόντος διαθέσιμων μεθοδολογιών, μπορεί να αξιοποιήσει τις πληροφορίες ρύθμισης εντός των ΓΡΔ όπως η αλληλεπίδραση μεταξύ γονιδίων. Η αλληλεπίδραση αυτή μπορεί να χωριστεί σε πολλές κατηγορίες, με δύο από αυτές να θεωρούνται οι πιο σημαντικές. Η πρώτη είναι η ενεργοποίηση/έκφραση (activation), όπου ένα γονίδιο ενεργοποιεί κάποιο άλλο, και η δεύτερη η αναστολή (inhibition), όπου ένα γονίδιο σταματάει την ενεργοποίηση κάποιου άλλου. Είναι χαρακτηριστικό ότι υπάρχουν γονίδια των οποίων η πρωτεΐνη που κωδικοποιούν δεν έχει κάποιο βιολογικό ρόλο πέρα από την ενεργοποίηση ή απενεργοποίηση άλλων γονιδίων. Τα γονίδια αυτά ονομάζονται μεταγραφικοί παράγοντες (transcription factors).Η παρούσα εργασία στόχο έχει στο να συμβάλει στους σχετικά πρόσφατους τομείς της υπολογιστικής βιολογίας και της βιοπληροφορικής με την υλοποίηση μεθόδων για μοντελοποιήση της συμπεριφοράς των ΓΡΔ και εισαγωγή τρόπων εξόρυξης γνώσης από αυτά. Ο κύριος θεματικός τομέας της διατριβής είναι η υπολογιστική μοντελοποίηση των δυναμικών και συστημικών ιδιοτήτων των ΓΡΔ καθώς και η δυνατότητα εκμετάλλευσης της πληροφορίας που εμπεριέχουν σε συνδυασμό με άλλες σύγχρονες έννοιες της μοριακής βιολογίας όπως είναι η γενετική έκφραση. Ποιο συγκεκριμένα: τα μονοπάτια που εκφράζονται ή υπο-εκφράζονται σε έναν ιστό όπως αυτό αποτυπώνεται από πειράματα με μικροσυστοιχίες θα εντοπιστούν μέσω μεθόδων ανίχνευσης διαφορικής έκφρασης. Χρησιμοποιώντας σύγχρονες τεχνικές βελτιστοποίησης δικτύων για ανίχνευση διαφορικών μονοπατιών από ΓΡΔ αναμένουμε να απαντήσουμε σε ένα σύνολο από βιολογικά ερωτήματα όπως:Ποια δίκτυα ή μονοπάτια «λειτουργούν» και ποια όχι μεταξύ διαφορετικών τύπων ιστών/φαινοτύπων.Ποιες διαδρομές είναι αυτές που ακολουθούνται, και ποιοι παράγοντες/γονίδια ευθύνονται για διαδρομές που δεν φαίνεται να ακολουθούνται σε παθογενείς ιστούς ή ακολουθούνται με διαφορετικό τρόπο.Πως μπορούμε τεχνικά να επέμβουμε με σκοπό την επιτάχυνση μίας διαδρομής που παράγει κάποια επιθυμητή ένωση (π.χ. ινσουλίνης) ή την αποτροπή μίας μη επιθυμητής διαδρομής (π.χ. απόπτωση).Η παρούσα διατριβή δημιούργησε και παρουσιάζει το MinePath (www.minepath.org), μια διαδικτυακή πλατφόρμα, που υλοποιεί μια νέα μεθοδολογία για τον προσδιορισμό και την οπτικοποίηση των διαφορικά ενεργών δικτύων ή μονοπατιών μέσα σε ένα ΓΡΔ, χρησιμοποιώντας δεδομένα γονιδιακής έκφρασης. Η πλατφόρμα εκμεταλλεύεται την τοπολογία και τους ρυθμιστικούς μηχανισμούς των ΓΡΔ, συμπεριλαμβανομένης της κατεύθυνσης και του τύπου των γονιδιακών αλληλεπιδράσεων (π.χ. ενεργοποίηση / έκφραση, αναστολή). Η μεθοδολογία εντοπίζει όλα τα λειτουργικά μονοπάτια που εμφανίζονται σε (επιλεγμένα και στοχευμένα) ΓΡΔ και εξάγει τα συμβατά με τις τιμές έκφρασης των γονιδίων των δειγμάτων που ανήκουν σε διαφορετικό κλινικό φαινότυπο (π.χ., νοσούντα εναντίον υγιούς). Η διαφορική δυναμική των επιλεγμένων μονοπατιών υπολογίζεται και η βιολογική σημασία τους αξιολογείται.Το MinePath λειτουργεί με ΓΡΔ από τη βάση δεδομένων KEGG (Kyoto Encyclopedia of Genes and Genomes). Από την πρώτη τους εμφάνιση το 1995 τα δίκτυα της KEGG έχουν χρησιμοποιηθεί ευρέως ως βάση γνώσεων αναφοράς για την κατανόηση των βιολογικών μονοπατιών και την λειτουργία των κυτταρικών διαδικασιών. Κάθε ΓΡΔ περιγράφεται ως γράφημα, όπου οι κόμβοι αντιπροσωπεύουν γονίδια, ομάδες γονιδίων, ενώσεων ή άλλων δικτύων και οι ακμές αντιπροσωπεύουν γνωστές βιολογικές αλληλεπιδράσεις γονιδίων όπως ενεργοποίηση, αναστολή, έκφραση, φωσφορυλίωση, ένωση, διάσπαση κλπ. Η επεξεργασία των ΓΡΔ στο MinePath λαμβάνει υπόψη όλες τις πιθανές λειτουργικές αλληλεπιδράσεις του δικτύου. Διαφορετικές αλληλεπιδράσεις αντιστοιχούν σε διαφορετικά λειτουργικά μονοπάτια που μπορεί να ακολουθούνται για την ρύθμιση ενός γονιδίου.Κάθε μονοπάτι από τα ΓΡΔ ερμηνεύεται σύμφωνα με τις αρχές και τη σημασιολογία του Kauffman όπου: (i) το δίκτυο είναι ένας κατευθυνόμενος γράφος με κόμβους (γονίδια) και οι ακμές μεταξύ αυτών εκπροσωπούν τις αλληλεπιδράσεις μεταξύ τους, δηλαδή τις ρυθμιστικές αντιδράσεις (ii) κάθε κόμβος μπορεί να αναπαρίσταται με μία από τις δύο καταστάσεις, «ON», το γονίδιο εκφράζεται (δηλαδή το γονίδιο είναι ενεργό), ή «OFF», το γονίδιο δεν εκφράζεται, ή αναστέλλεται από ένα άλλο γονίδιο και (iii) ο χρόνος θεωρείται ως διαδικασία σε διακριτά βήματα - σε κάθε βήμα η νέα κατάσταση ενός κόμβου είναι μια δυαδική λειτουργία των πρότερων καταστάσεων των γονιδίων με ακμές που δείχνουν προς την κατεύθυνση αυτή. Η μεθοδολογία του MinePath μοντελοποιείται σε πέντε διακριτά βήματα:I.Οι τιμές έκφρασης των γονιδίων από τις μικροσυστοιχίες διακριτοποιούνται σε τιμές 1 και 0 για τα εκφρασμένα και υπο-εκφρασμένα γονίδια αντίστοιχα, και σχηματίζεται μια δυαδική μήτρα γονιδίων και φαινοτύπωνII.Κάθε ΓΡΔ αναλύεται σε όλα τα δυνατά μονοπάτια; για παράδειγμα το μονοπάτι A B | C αναλύεται σε τρία μονοπάτια, τα A B, B | C και A B | C III.Κάθε μονοπάτι χαρακτηρίζεται από την λειτουργική ενεργή κατάσταση του με τη χρήση δυαδικού διανύσματος. Για παράδειγμα το μονοπάτι A B | C θεωρείται ενεργό όταν A και B (εκφρασμένα γονίδια) και C (υπο-εκφρασμένο γονίδιο), που μας δίνει το δυαδικό διάνυσμα <1,1,0> για το μονοπάτι A B | CIV.Τα δυαδικά διανύσματα για όλα τα μονοπάτια αντιπαραβάλλονται με την δυαδική έκφραση των γονιδίων από τις μικροσυστοιχίες για κάθε δείγμα. Ένα μονοπάτι θεωρείται ότι είναι ενεργό σε ένα δείγμα, αν και μόνο αν όλα τα αντίστοιχα γονίδια στο μονοπάτι έχουν την ίδια ενεργό κατάσταση στο δείγμα, δηλαδή, τα γονίδια Α, Β είναι εκφρασμένα και το γονίδιο C υπο-εκφρασμένο, που αντιστοιχεί στο διάνυσμα <1,1,0> για τα γονίδια στο δείγμα. Επιπλέον, μια δυαδική μήτρα σχηματίζεται με τις σειρές να αναπαριστούν μονοπάτια, τις στήλες τα δείγματα, και οι τιμές των κελιών να είναι δυαδικές (1, 0) όπου 1 όταν το αντίστοιχο μονοπάτι είναι ενεργό για το αντίστοιχο δείγμα ή 0 αν δεν είναι. Με άλλα λόγια, τα μονοπάτια παίρνουν τη θέση χαρακτηριστικών του δείγματος και χρησιμοποιούνται για την κατασκευή μοντέλων πρόβλεψης φαινοτύπων.V.Στο τελικό βήμα, η διαφορική δυναμική κάθε μονοπατιού υπολογίζεται χρησιμοποιώντας ειδικά διαμορφωμένες φόρμουλες. Τα μονοπάτια με τη μέγιστη διαφορική δυναμική και πάνω από ένα όριο θεωρούνται τα μονοπάτια που μπορούν να διαχωρίσουν τους δύο φαινοτύπους. Επιπρόσθετα, τα μονοπάτια με θετική διαφορική δυναμική χαρακτηρίζουν τον ένα φαινότυπο (π.χ. ασθενής) ενώ τα μονοπάτια με αρνητική διαφορική δυναμική χαρακτηρίζουν τον δεύτερο φαινότυπο (π.χ υγιής). Το αποτέλεσμα είναι ένας πίνακας μονοπατιών με δυαδικές τιμές για κάθε δείγμα. Στη συνέχεια υπολογίζουμε την ικανότητα πρόβλεψης των επιλεγμένων μονοπατιών χρησιμοποιώντας την τεχνική αξιολόγησης 10 fold cross validation σε αλγόριθμους μηχανικής μάθησης, όπως C4.5 δέντρο αποφάσεων, naïve Bays, ή support vector machine. Το σύστημα επίσης αναγνωρίζει και εξάγει και τα μονοπάτια που είναι πάντα ενεργά (και για τους δύο φαινοτύπους) χωρίς να τα λαμβάνει υπόψιν του στα μοντέλα πρόβλεψης.Το MinePath χρησιμοποιεί δυαδικές δομές δεδομένων και άλγεβρα Μπουλ για τους υπολογισμούς, καθιστώντας το ικανό να αναλύσει σε πραγματικό χρόνο δεδομένα από μεγάλες κλινικές δοκιμές (με μικροσυστοιχίες) σε συνδυασμό με εκατοντάδες ΓΡΔ και δεκάδες χιλιάδες μονοπάτια. Η μεθοδολογία αυτή αναδεικνύει τα ενεργά και μη ενεργά μονοπάτια σε ΓΡΔ ανα φαινότυπο. Αυτά τα μονοπάτια αναδεικνύουν μοριακούς μηχανισμούς που διέπουν την ίδια την ασθένεια, τον τύπο, την κατάσταση ή άλλους εστιασμένους φαινοτύπους όπως απόκριση ή μη σε ειδικές θεραπείες.Εκτός από την προτεινόμενη μεθοδολογία, μόνο τέσσερα άλλα εργαλεία / μέθοδοι εκμεταλλεύονται τους μηχανισμούς γονιδιακής ρύθμισης στα ΓΡΔ, τα GGEA, SPIA, TEAK και PATHOME. Η κύρια διαφορά της προτεινόμενης μεθοδολογίας από αυτά τα τέσσερα συστήματα είναι ο χειρισμός των γονιδιακών ρυθμιστικών μηχανισμών. Όλες οι άλλες μεθοδολογίες μετράνε με +1 τις ενεργοποιήσεις και -1 τις αναστολές. Κάθε μονοπάτι παίρνει ένα τελικό αποτέλεσμα το οποίο χρησιμοποιείται επίσης ως μια φόρμουλα κατάταξης. Αντίθετα, η προσέγγιση μας ελέγχει και λαμβάνει υπόψη μόνο μονοπάτια που είναι πλήρως λειτουργικά (σύμφωνα με τις σχέσεις των γονιδίων και τις εκφράσεις τους).Ένας άλλος βασικός περιορισμός με τη χρήση αυτών των μεθόδων είναι η έλλειψη ενός παραγωγικού περιβάλλοντος με αποτελεσματικό, δια-δραστικό και φιλικό προς το χρήστη τρόπο απεικόνισης που να προσφέρει διερευνητικές ικανότητες για την κατανόηση των ρυθμιστικών μηχανισμών των φαινοτύπων. Σε αντίθεση με παρόμοιες προσπάθειες, οι οποίες απεικονίζουν την κατάσταση των γονιδίων σε ένα ΓΡΔ, μια βασική καινοτομία της πλατφόρμας MinePath έγκειται στις δυνατότητες απεικόνισης και ειδικά, στην οπτικοποίηση των ενεργών γονιδιακών ρυθμιστικών σχέσεων που διαφοροποιούν τους υπό μελέτη φαινοτύπους. Το MinePath υποστηρίζει ενεργή αλληλεπίδραση με τα οπτικοποιημένα δίκτυα όπως η εκ νέου ρύθμιση της τοπολογίας τους και είναι εξοπλισμένο με ειδικά λειτουργικά χαρακτηριστικά που επιτρέπουν άμεση αλληλεπίδραση, άμεση απεικόνιση των ρυθμιστικών σχέσεων και τη μείωση της πολυπλοκότητας των ΓΡΔ χρησιμοποιώντας ειδικές λειτουργίες τοπολογίας.Επιπρόσθετα, η προτεινόμενη μεθοδολογία είναι η μόνη που λαμβάνει υπόψη και οπτικοποιεί μονοπάτια πλήρως λειτουργικά και για τους δύο φαινοτύπους. Αυτά τα μονοπάτια δεν έχουν καμία διακριτική αξία αλλά μέσα σε ένα ΓΡΔ τα μονοπάτια που είναι πάντα ενεργοποιημένο μπορεί να συνδέσουν το κενό (λειτουργική αλληλεπίδραση) μεταξύ δύο μονοπατιών και να αποκαλύψουν ένα πλήρες λειτουργικό μονοπάτι που είναι βιολογικά πολύτιμο όπως για παράδειγμα η σύνδεση του χάσματος μεταξύ λειτουργικών εξω-κυτταρικών γονιδίων και ενός τελικού μηχανισμού κυτταρικής λειτουργίας (απόπτωση, νέκρωση, πολλαπλασιασμός, κτλ).Η μεθοδολογία του MinePath και η διαδικτυακή της υλοποίηση έχει ως στόχο την αποτελεσματική αντιμετώπιση αυτών των ζητημάτων. Η μεθοδολογία εφαρμόστηκε σε μικροσυστοιχίες γονιδίων και miRNAs με στόχο την ανάδειξη πιθανών μηχανισμών που διέπουν και ρυθμίζουν την ανταπόκριση σε θεραπεία συγκεκριμένων φαινοτύπων (π.χ. ασθενείς με καρκίνο του μαστού, σύμφωνα με το προφίλ τους σε υποδοχείς οιστρογόνων, ή την πρόβλεψη της ασθένειας Wilms' tumor). Τα αποτελέσματα είναι αρκετά ενθαρρυντικά και υποστηρίζονται από τη σχετική βιοϊατρική βιβλιογραφία. Οπλισμένο με τα παραπάνω χαρακτηριστικά, το MinePath εξυπηρετεί διερευνητικές ανάγκες ερευνητών για την ανακάλυψη ρυθμιστικών μηχανισμών που αποτελούν τη βάση και ορίζουν την έκφραση συγκεκριμένων φαινοτύπων.