Potamias GeorgiosΠοταμιάς ΓεώργιοςTsiknakis EmmanouilΤσικνάκης ΕμμανουήλFotiadis DimitriosΦωτιάδης ΔημήτριοςKafetzopoulos DimitriosΚαφετζόπουλος ΔημήτριοςMoustakis VasilisΜουστακης ΒασιληςKoumakis EleftheriosΚουμακης Ελευθεριος2024-10-312024-10-3120142014-11-25Eleftherios Koumakis, "Computational methods for knowledge discovery from heterogeneous data sources: methodology and implementation on biological and molecular sources", Doctoral Dissertation, School of Production Engineering and Management, Technical University of Crete, Chania, Greece, 2014Ελευθέριος Κουμάκης, "Υπολογιστικές προσεγγίσεις για την ανακάλυψη και παραγωγή γνώσης από ετερογενείς πηγές: μεθοδολογία και εφαρμογή σε βάσεις βιολογικών και μοριακών δεδομένων", Διδακτορική Διατριβή, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2014https://dspace.library.tuc.gr/handle/123456789/272Οι σύγχρονες κατευθύνσεις στον τομέα της υγείας και της ιατρικής θέτουν τη πρόληψη, και την εξατομικευμένη ιατρική ως κύριες προτεραιότητες. Ωστόσο αποτελεί κοινή διαπίστωση το γεγονός ότι για να κινηθούμε προς αυτή τη κατεύθυνση πρέπει να ενσωματώσουμε τη γενετική πληροφορία στη καθημερινή πρακτική των επιστημών υγείας. Καθώς εισερχόμαστε στη μεταγονιδωματική εποχή όπου η ακολουθία του ανθρώπινου γονιδιώματος έχει αποκωδικοποιηθεί εξολοκλήρου, η βιολογία διαθέτει πλέον μεθόδους όχι μόνο για την λεπτομερειακή απεικόνιση των αλληλεπιδράσεων των γονιδίων αλλά και την δυνατότητα να επεμβαίνει ώστε να μεταβάλει και να καθορίζει, σε τεχνικό επίπεδο, τη φυσιολογία του ανθρώπινου οργανισμού μέσω των κυττάρων και συνεπώς των ιστών. Για να μπορέσουμε να εκμεταλλευτούμε στο μέγιστο αυτές τις επαναστατικές τεχνολογικές εξελίξεις πρέπει πρώτα να κατανοήσουμε και να αποτυπώσουμε τους χαοτικούς δρόμους που ακολουθεί η γονιδιακή έκφραση, καθώς μια απλή γονιδιακή μετάλλαξη, ή ένας φαινομενικά ασήμαντος περιβαλλοντικός παράγοντας μπορεί να οδηγήσει σε σημαντικές παθολογικές καταστάσεις. Η ευέλικτη, λοιπόν, και αποτελεσματική διαχείριση και επεξεργασία της γονιδιωματικής πληροφορίας με σκοπό την εξατομικευμένη ιατρική είναι η νέα πρόκληση που καλούμαστε να αντιμετωπίσουμε. Τα παραπάνω μαζί με την πρόοδο στον γενικότερο συστημικό και υπολογιστικό τρόπο που διαχειρίζονται οι ερευνητές όλα τα στοιχεία της μοριακής βιολογίας (όπως γονίδια, πρωτεΐνες, ένζυμα, μεταγραφικούς παράγοντες, μεταβολικά και κανονιστικά δίκτυα) έχουν δημιουργήσει μία νέα περιοχή έρευνας, την βιοπληροφορική. Η βιοπληροφορική είναι ο τομέας της θετικής επιστήμης ο οποίος μελετάει τη συμπεριφορά βασικών μονάδων της βιολογικής λειτουργίας μέσω υπολογιστικών μεθόδων. Σκοπός της είναι η εύρεση πρωτότυπων και η εφαρμογή ήδη υπαρχόντων αποδοτικών και ευέλικτων αλγορίθμων επεξεργασίας γενομικών δεδομένων ώστε να εξαχθεί η γνώση που ‘ελλοχεύει’ σε αυτά. Η πρόοδος της βιοπληροφορικής διευρύνθηκε με την πλήρη χαρτογράφηση του ανθρώπινου γονιδιώματος και την εφεύρεση των μικροσυστοιχίων (microarrays). Οι μικροσυστοιχίες είναι συσκευές οι οποίες επιτρέπουν την ταυτόχρονη μέτρηση της έκφρασης δεκάδων χιλιάδων γονιδίων. Μέσω αυτών μπορούμε να μετρήσουμε τη ποσοτική συμμέτοχη ενός μεγάλου μέρους του γονιδιώματος ενός οργανισμού σε κάποιο συγκεκριμένο ιστό. Ο ιστός αυτός μπορεί να είναι υγιείς, καρκινικός, υπό θεραπεία, υπό την επίδραση κάποιου φαρμάκου ή τα κύτταρά του να υποβάλλονται σε κάποια βιολογική διεργασία όπως διαίρεση ή απόπτωση. Σε πειράματα που μετέχουν διαφορετικοί τύποι ιστών μπορούμε να εντοπίσουμε και να μετρήσουμε τη διαφορική έκφραση των γονιδίων. Από την ανακάλυψη των μικροσυστοιχιών (1996) μέχρι σήμερα έχει γίνει μία τεράστια ερευνητική προσπάθεια για την βελτίωση της ακρίβειας τους, την εφαρμογή τους σε περισσότερους ιστούς κάτω από ποικίλες συνθήκες αλλά και για την ολοκλήρωση της γνώσης που παράγεται με άλλα βιολογικά ευρήματα. Αρχικά η προσδοκία ήταν ότι οι μικροσυστοιχίες θα αποκάλυπταν μοναδικά μοτίβα γονίδιων (γονιδιακές υπογραφές) για διάφορους φαινοτύπους, όμως η επαλήθευση των γονιδιακών υπογραφών είναι περιορισμένη, κυρίως λόγω της πολυπλοκότητας και των ετερογένειών που εμφανίζονται σε αυτές. Λόγω των διαφορετικών πλατφορμών που χρησιμοποιούνται στα διάφορα πειραματικά πρωτόκολλα και κυρίως σε πειράματα με μικρά μεγέθη δειγμάτων, η υψηλή διαφορική έκφραση ενός γονιδίου δεν απηχεί κατ’ ανάγκη σε μια μεγαλύτερη πιθανότητα το γονίδιο να σχετίζεται με τη νόσο και, ως εκ τούτου, εστιάζοντας μόνο στα υποψήφια γονίδια με υψηλές διαφορικές εκφράσεις μπορεί να μην είναι η βέλτιστη διαδικασία για τον διαχωρισμό ή την πρόβλεψη ετερογενών φαινοτύπων.Στις μέρες μας η βιοπληροφορική επικεντρώνεται σε πιο ανεπτυγμένες μεθόδους για την επιλογή γονιδίων από μικροσυστοιχίες κυρίως με την προσθήκη και την επεξεργασία γνώσης από άλλες πηγές, όπως τα γονιδιακά ρυθμιστικά δίκτυα (ΓΡΔ) (Gene Regulatory Networks), τα οποία μοντελοποιούν τις αλληλεπιδράσεις των γονιδίων κατά τη διάρκεια βιολογικών διεργασιών. Στο κύτταρο εκατοντάδες ή χιλιάδες γονίδια εκφράζονται και συνεργάζονται από κοινού για να εξασφαλιστεί η λειτουργία και η επιβίωση του. Οι σχέσεις των γονιδίων έχουν χαρτογραφηθεί σε ΓΡΔ τα οποία μπορούν να προσφέρουν γνώση σχετικά με τους μηχανισμούς της γονιδιακής έκφρασης σε επίπεδο συστήματος. Αυτά τα δίκτυα μπορούν επίσης να χρησιμοποιηθούν για την κατανόηση της ροής των πληροφοριών σε ένα βιολογικό σύστημα, για τον εντοπισμό μονοπατιών που μπορούν να χρησιμοποιηθούν για συγκεκριμένο σκοπό, και να μοντελοποιήσουν αλλαγές στην έκφραση γονιδίων κάτω από διαφορετικές συνθήκες. Η μελέτη της λειτουργίας, της δομής και της εξέλιξης των ΓΡΔ σε συνδυασμό με το προφίλ γονιδιακής έκφρασης από μικροσυστοιχίες έχει γίνει απαραίτητη για τη σύγχρονη βιολογική έρευνα.Οι περισσότερες προσπάθειες για την ολοκλήρωση της γνώσης που εμπεριέχουν οι παραπάνω πηγές (μικροσυστοιχίες και ΓΡΔ) αντιμετωπίζουν τα δίκτυα σαν μονοδιάστατες πηγές πληροφορίας όπου οι συσχετίσεις των γονιδίων, όπως αυτά μοντελοποιούνται, δεν εμπερικλείονται και συνεπώς δεν αξιοποιούνται. Πρόσφατα, όλο και περισσότερες μέθοδοι επωφελούνται από την τοπολογία των δικτύων χρησιμοποιώντας μεθόδους της θεωρίας γράφων, αλλά μόνο ένας περιορισμένος αριθμός των επί του παρόντος διαθέσιμων μεθοδολογιών, μπορεί να αξιοποιήσει τις πληροφορίες ρύθμισης εντός των ΓΡΔ όπως η αλληλεπίδραση μεταξύ γονιδίων. Η αλληλεπίδραση αυτή μπορεί να χωριστεί σε πολλές κατηγορίες, με δύο από αυτές να θεωρούνται οι πιο σημαντικές. Η πρώτη είναι η ενεργοποίηση/έκφραση (activation), όπου ένα γονίδιο ενεργοποιεί κάποιο άλλο, και η δεύτερη η αναστολή (inhibition), όπου ένα γονίδιο σταματάει την ενεργοποίηση κάποιου άλλου. Είναι χαρακτηριστικό ότι υπάρχουν γονίδια των οποίων η πρωτεΐνη που κωδικοποιούν δεν έχει κάποιο βιολογικό ρόλο πέρα από την ενεργοποίηση ή απενεργοποίηση άλλων γονιδίων. Τα γονίδια αυτά ονομάζονται μεταγραφικοί παράγοντες (transcription factors).Η παρούσα εργασία στόχο έχει στο να συμβάλει στους σχετικά πρόσφατους τομείς της υπολογιστικής βιολογίας και της βιοπληροφορικής με την υλοποίηση μεθόδων για μοντελοποιήση της συμπεριφοράς των ΓΡΔ και εισαγωγή τρόπων εξόρυξης γνώσης από αυτά. Ο κύριος θεματικός τομέας της διατριβής είναι η υπολογιστική μοντελοποίηση των δυναμικών και συστημικών ιδιοτήτων των ΓΡΔ καθώς και η δυνατότητα εκμετάλλευσης της πληροφορίας που εμπεριέχουν σε συνδυασμό με άλλες σύγχρονες έννοιες της μοριακής βιολογίας όπως είναι η γενετική έκφραση. Ποιο συγκεκριμένα: τα μονοπάτια που εκφράζονται ή υπο-εκφράζονται σε έναν ιστό όπως αυτό αποτυπώνεται από πειράματα με μικροσυστοιχίες θα εντοπιστούν μέσω μεθόδων ανίχνευσης διαφορικής έκφρασης. Χρησιμοποιώντας σύγχρονες τεχνικές βελτιστοποίησης δικτύων για ανίχνευση διαφορικών μονοπατιών από ΓΡΔ αναμένουμε να απαντήσουμε σε ένα σύνολο από βιολογικά ερωτήματα όπως:Ποια δίκτυα ή μονοπάτια «λειτουργούν» και ποια όχι μεταξύ διαφορετικών τύπων ιστών/φαινοτύπων.Ποιες διαδρομές είναι αυτές που ακολουθούνται, και ποιοι παράγοντες/γονίδια ευθύνονται για διαδρομές που δεν φαίνεται να ακολουθούνται σε παθογενείς ιστούς ή ακολουθούνται με διαφορετικό τρόπο.Πως μπορούμε τεχνικά να επέμβουμε με σκοπό την επιτάχυνση μίας διαδρομής που παράγει κάποια επιθυμητή ένωση (π.χ. ινσουλίνης) ή την αποτροπή μίας μη επιθυμητής διαδρομής (π.χ. απόπτωση).Η παρούσα διατριβή δημιούργησε και παρουσιάζει το MinePath (www.minepath.org), μια διαδικτυακή πλατφόρμα, που υλοποιεί μια νέα μεθοδολογία για τον προσδιορισμό και την οπτικοποίηση των διαφορικά ενεργών δικτύων ή μονοπατιών μέσα σε ένα ΓΡΔ, χρησιμοποιώντας δεδομένα γονιδιακής έκφρασης. Η πλατφόρμα εκμεταλλεύεται την τοπολογία και τους ρυθμιστικούς μηχανισμούς των ΓΡΔ, συμπεριλαμβανομένης της κατεύθυνσης και του τύπου των γονιδιακών αλληλεπιδράσεων (π.χ. ενεργοποίηση / έκφραση, αναστολή). Η μεθοδολογία εντοπίζει όλα τα λειτουργικά μονοπάτια που εμφανίζονται σε (επιλεγμένα και στοχευμένα) ΓΡΔ και εξάγει τα συμβατά με τις τιμές έκφρασης των γονιδίων των δειγμάτων που ανήκουν σε διαφορετικό κλινικό φαινότυπο (π.χ., νοσούντα εναντίον υγιούς). Η διαφορική δυναμική των επιλεγμένων μονοπατιών υπολογίζεται και η βιολογική σημασία τους αξιολογείται.Το MinePath λειτουργεί με ΓΡΔ από τη βάση δεδομένων KEGG (Kyoto Encyclopedia of Genes and Genomes). Από την πρώτη τους εμφάνιση το 1995 τα δίκτυα της KEGG έχουν χρησιμοποιηθεί ευρέως ως βάση γνώσεων αναφοράς για την κατανόηση των βιολογικών μονοπατιών και την λειτουργία των κυτταρικών διαδικασιών. Κάθε ΓΡΔ περιγράφεται ως γράφημα, όπου οι κόμβοι αντιπροσωπεύουν γονίδια, ομάδες γονιδίων, ενώσεων ή άλλων δικτύων και οι ακμές αντιπροσωπεύουν γνωστές βιολογικές αλληλεπιδράσεις γονιδίων όπως ενεργοποίηση, αναστολή, έκφραση, φωσφορυλίωση, ένωση, διάσπαση κλπ. Η επεξεργασία των ΓΡΔ στο MinePath λαμβάνει υπόψη όλες τις πιθανές λειτουργικές αλληλεπιδράσεις του δικτύου. Διαφορετικές αλληλεπιδράσεις αντιστοιχούν σε διαφορετικά λειτουργικά μονοπάτια που μπορεί να ακολουθούνται για την ρύθμιση ενός γονιδίου.Κάθε μονοπάτι από τα ΓΡΔ ερμηνεύεται σύμφωνα με τις αρχές και τη σημασιολογία του Kauffman όπου: (i) το δίκτυο είναι ένας κατευθυνόμενος γράφος με κόμβους (γονίδια) και οι ακμές μεταξύ αυτών εκπροσωπούν τις αλληλεπιδράσεις μεταξύ τους, δηλαδή τις ρυθμιστικές αντιδράσεις (ii) κάθε κόμβος μπορεί να αναπαρίσταται με μία από τις δύο καταστάσεις, «ON», το γονίδιο εκφράζεται (δηλαδή το γονίδιο είναι ενεργό), ή «OFF», το γονίδιο δεν εκφράζεται, ή αναστέλλεται από ένα άλλο γονίδιο και (iii) ο χρόνος θεωρείται ως διαδικασία σε διακριτά βήματα - σε κάθε βήμα η νέα κατάσταση ενός κόμβου είναι μια δυαδική λειτουργία των πρότερων καταστάσεων των γονιδίων με ακμές που δείχνουν προς την κατεύθυνση αυτή. Η μεθοδολογία του MinePath μοντελοποιείται σε πέντε διακριτά βήματα:I.Οι τιμές έκφρασης των γονιδίων από τις μικροσυστοιχίες διακριτοποιούνται σε τιμές 1 και 0 για τα εκφρασμένα και υπο-εκφρασμένα γονίδια αντίστοιχα, και σχηματίζεται μια δυαδική μήτρα γονιδίων και φαινοτύπωνII.Κάθε ΓΡΔ αναλύεται σε όλα τα δυνατά μονοπάτια; για παράδειγμα το μονοπάτι A B | C αναλύεται σε τρία μονοπάτια, τα A B, B | C και A B | C III.Κάθε μονοπάτι χαρακτηρίζεται από την λειτουργική ενεργή κατάσταση του με τη χρήση δυαδικού διανύσματος. Για παράδειγμα το μονοπάτι A B | C θεωρείται ενεργό όταν A και B (εκφρασμένα γονίδια) και C (υπο-εκφρασμένο γονίδιο), που μας δίνει το δυαδικό διάνυσμα <1,1,0> για το μονοπάτι A B | CIV.Τα δυαδικά διανύσματα για όλα τα μονοπάτια αντιπαραβάλλονται με την δυαδική έκφραση των γονιδίων από τις μικροσυστοιχίες για κάθε δείγμα. Ένα μονοπάτι θεωρείται ότι είναι ενεργό σε ένα δείγμα, αν και μόνο αν όλα τα αντίστοιχα γονίδια στο μονοπάτι έχουν την ίδια ενεργό κατάσταση στο δείγμα, δηλαδή, τα γονίδια Α, Β είναι εκφρασμένα και το γονίδιο C υπο-εκφρασμένο, που αντιστοιχεί στο διάνυσμα <1,1,0> για τα γονίδια στο δείγμα. Επιπλέον, μια δυαδική μήτρα σχηματίζεται με τις σειρές να αναπαριστούν μονοπάτια, τις στήλες τα δείγματα, και οι τιμές των κελιών να είναι δυαδικές (1, 0) όπου 1 όταν το αντίστοιχο μονοπάτι είναι ενεργό για το αντίστοιχο δείγμα ή 0 αν δεν είναι. Με άλλα λόγια, τα μονοπάτια παίρνουν τη θέση χαρακτηριστικών του δείγματος και χρησιμοποιούνται για την κατασκευή μοντέλων πρόβλεψης φαινοτύπων.V.Στο τελικό βήμα, η διαφορική δυναμική κάθε μονοπατιού υπολογίζεται χρησιμοποιώντας ειδικά διαμορφωμένες φόρμουλες. Τα μονοπάτια με τη μέγιστη διαφορική δυναμική και πάνω από ένα όριο θεωρούνται τα μονοπάτια που μπορούν να διαχωρίσουν τους δύο φαινοτύπους. Επιπρόσθετα, τα μονοπάτια με θετική διαφορική δυναμική χαρακτηρίζουν τον ένα φαινότυπο (π.χ. ασθενής) ενώ τα μονοπάτια με αρνητική διαφορική δυναμική χαρακτηρίζουν τον δεύτερο φαινότυπο (π.χ υγιής). Το αποτέλεσμα είναι ένας πίνακας μονοπατιών με δυαδικές τιμές για κάθε δείγμα. Στη συνέχεια υπολογίζουμε την ικανότητα πρόβλεψης των επιλεγμένων μονοπατιών χρησιμοποιώντας την τεχνική αξιολόγησης 10 fold cross validation σε αλγόριθμους μηχανικής μάθησης, όπως C4.5 δέντρο αποφάσεων, naïve Bays, ή support vector machine. Το σύστημα επίσης αναγνωρίζει και εξάγει και τα μονοπάτια που είναι πάντα ενεργά (και για τους δύο φαινοτύπους) χωρίς να τα λαμβάνει υπόψιν του στα μοντέλα πρόβλεψης.Το MinePath χρησιμοποιεί δυαδικές δομές δεδομένων και άλγεβρα Μπουλ για τους υπολογισμούς, καθιστώντας το ικανό να αναλύσει σε πραγματικό χρόνο δεδομένα από μεγάλες κλινικές δοκιμές (με μικροσυστοιχίες) σε συνδυασμό με εκατοντάδες ΓΡΔ και δεκάδες χιλιάδες μονοπάτια. Η μεθοδολογία αυτή αναδεικνύει τα ενεργά και μη ενεργά μονοπάτια σε ΓΡΔ ανα φαινότυπο. Αυτά τα μονοπάτια αναδεικνύουν μοριακούς μηχανισμούς που διέπουν την ίδια την ασθένεια, τον τύπο, την κατάσταση ή άλλους εστιασμένους φαινοτύπους όπως απόκριση ή μη σε ειδικές θεραπείες.Εκτός από την προτεινόμενη μεθοδολογία, μόνο τέσσερα άλλα εργαλεία / μέθοδοι εκμεταλλεύονται τους μηχανισμούς γονιδιακής ρύθμισης στα ΓΡΔ, τα GGEA, SPIA, TEAK και PATHOME. Η κύρια διαφορά της προτεινόμενης μεθοδολογίας από αυτά τα τέσσερα συστήματα είναι ο χειρισμός των γονιδιακών ρυθμιστικών μηχανισμών. Όλες οι άλλες μεθοδολογίες μετράνε με +1 τις ενεργοποιήσεις και -1 τις αναστολές. Κάθε μονοπάτι παίρνει ένα τελικό αποτέλεσμα το οποίο χρησιμοποιείται επίσης ως μια φόρμουλα κατάταξης. Αντίθετα, η προσέγγιση μας ελέγχει και λαμβάνει υπόψη μόνο μονοπάτια που είναι πλήρως λειτουργικά (σύμφωνα με τις σχέσεις των γονιδίων και τις εκφράσεις τους).Ένας άλλος βασικός περιορισμός με τη χρήση αυτών των μεθόδων είναι η έλλειψη ενός παραγωγικού περιβάλλοντος με αποτελεσματικό, δια-δραστικό και φιλικό προς το χρήστη τρόπο απεικόνισης που να προσφέρει διερευνητικές ικανότητες για την κατανόηση των ρυθμιστικών μηχανισμών των φαινοτύπων. Σε αντίθεση με παρόμοιες προσπάθειες, οι οποίες απεικονίζουν την κατάσταση των γονιδίων σε ένα ΓΡΔ, μια βασική καινοτομία της πλατφόρμας MinePath έγκειται στις δυνατότητες απεικόνισης και ειδικά, στην οπτικοποίηση των ενεργών γονιδιακών ρυθμιστικών σχέσεων που διαφοροποιούν τους υπό μελέτη φαινοτύπους. Το MinePath υποστηρίζει ενεργή αλληλεπίδραση με τα οπτικοποιημένα δίκτυα όπως η εκ νέου ρύθμιση της τοπολογίας τους και είναι εξοπλισμένο με ειδικά λειτουργικά χαρακτηριστικά που επιτρέπουν άμεση αλληλεπίδραση, άμεση απεικόνιση των ρυθμιστικών σχέσεων και τη μείωση της πολυπλοκότητας των ΓΡΔ χρησιμοποιώντας ειδικές λειτουργίες τοπολογίας.Επιπρόσθετα, η προτεινόμενη μεθοδολογία είναι η μόνη που λαμβάνει υπόψη και οπτικοποιεί μονοπάτια πλήρως λειτουργικά και για τους δύο φαινοτύπους. Αυτά τα μονοπάτια δεν έχουν καμία διακριτική αξία αλλά μέσα σε ένα ΓΡΔ τα μονοπάτια που είναι πάντα ενεργοποιημένο μπορεί να συνδέσουν το κενό (λειτουργική αλληλεπίδραση) μεταξύ δύο μονοπατιών και να αποκαλύψουν ένα πλήρες λειτουργικό μονοπάτι που είναι βιολογικά πολύτιμο όπως για παράδειγμα η σύνδεση του χάσματος μεταξύ λειτουργικών εξω-κυτταρικών γονιδίων και ενός τελικού μηχανισμού κυτταρικής λειτουργίας (απόπτωση, νέκρωση, πολλαπλασιασμός, κτλ).Η μεθοδολογία του MinePath και η διαδικτυακή της υλοποίηση έχει ως στόχο την αποτελεσματική αντιμετώπιση αυτών των ζητημάτων. Η μεθοδολογία εφαρμόστηκε σε μικροσυστοιχίες γονιδίων και miRNAs με στόχο την ανάδειξη πιθανών μηχανισμών που διέπουν και ρυθμίζουν την ανταπόκριση σε θεραπεία συγκεκριμένων φαινοτύπων (π.χ. ασθενείς με καρκίνο του μαστού, σύμφωνα με το προφίλ τους σε υποδοχείς οιστρογόνων, ή την πρόβλεψη της ασθένειας Wilms' tumor). Τα αποτελέσματα είναι αρκετά ενθαρρυντικά και υποστηρίζονται από τη σχετική βιοϊατρική βιβλιογραφία. Οπλισμένο με τα παραπάνω χαρακτηριστικά, το MinePath εξυπηρετεί διερευνητικές ανάγκες ερευνητών για την ανακάλυψη ρυθμιστικών μηχανισμών που αποτελούν τη βάση και ορίζουν την έκφραση συγκεκριμένων φαινοτύπων.More than a decade after the completion of the Human Genome Project, advances in genome research and biotechnology have influenced drastically the concept of disease diagnosis and treatment. In this context, the improvement of high throughput technologies, such as microarrays, caused a fundamental transformation in the research of various diseases (e.g. cancer). Microarrays present a powerful tool to study the molecular basis of the genesis and progression of diseases, and has advanced life scientists’ ability not only to detect but also to quantify simultaneously the expression of thousands of genes for various diseases and phenotypes.Initial expectation was that microarrays would reveal specific gene co-expression patterns (gene signatures or, gene-biomarkers) for various phenotypes, but the utility of gene-expression profiles seems to be bounded by a number of limitations, mainly related to: (a) the variation and heterogeneity of the examined tissues - when comparing two different tissue samples, the potential differences in gene-expression levels is a manifestation of all the cell types present in that sample, making the induced gene-signatures amenable to the specific tissues examined; (b) the different microarray platforms utilised as well as the different experimental protocols followed are facts that make really difficult to combine gene-expression datasets form heterogeneous platforms and different studies; and (c) the great imbalance between the huge number of transcripts and genes (tens of thousands) and the relatively small number of available sample cases (hundreds). In addition, the utilization of ‘knowledge-ignorant’ feature-selection approaches does not guarantee the ‘biological validity’ of the result (selected gene-biomarkers). In other words, focusing just on highly differential genes might not be the optimal process to follow. The aforementioned observations have being reported and justified by various studies in the literature.Currently bioinformatics community focuses on more ‘knowledge-aware’ and enhanced methods for selecting genes from microarray data. These methods, aim to guide the gene-selection process by taking advantage and ‘amalgamating’ knowledge from other established biological sources, such as molecular pathways, and especially gene regulatory networks (GRNs). In cells thousands of genes are expressed and work in concert to ensure the cell's function, fitness, and survival. The gene relationships have been mapped onto GRNs that can be interrogated to gain insight into the mechanisms of differential gene expression at a systems level. These networks can also be used to understand the flow of information in a biological system, to identify circuits that may be used for a specific purpose, and to model changes in gene expression under different conditions. The study of the function, structure and evolution of GRNs in combination with microarray gene-expression profiles has become essential for contemporary biology research. The most prominent research line in the respective fields, called pathway analysis, focus on the identification of the most discriminant GRNs (pathways), or parts of GRNs (sub-paths) that differentiate between specific phenotypes by integrating and coupling the underlying gene regulatory machinery of GRNs and gene-expression profiles from microarray data. The relevant approaches and methodologies increased significantly over the past years, a fact that indicates the importance of such an integration endeavour. In addition, all reported methodologies and developed tools have significantly contributed to the identification of informative associations between GRNs and target phenotypes. One critical drawback of these tools comes from the way the methodologies handle the knowledge encoded in GRNs. In most cases each GRN is represented and manipulated just as the set of the genes engaged in the network. With this approach, and following the gene enrichment analysis (GEA) algorithmic processes, one can determine which biological pathways are significantly over-represented (i.e., more than expected by chance) for a specific phenotype. So, the GEA-like methodologies, are unable to access and do not provide information for parts (i.e., sub-paths) of the pathway. Recently, some enhanced GEA-like tools, take advantage and utilize in their analysis the topology of the GRNs (based on graph-theoretic approaches and network visualization techniques) but only a limited number of the reported so-far methodologies take advantage of the signalling information present in a GRN i.e., the topology and the type of involved interactions such as the activation or inhibition relations holding between genes.The work reported in this thesis introduces and presents a novel pathway-analysis methodology. The whole methodology is implanted in a system called MinePath (www.minepath.org), a web-based platform aiming to facilitate and ease the identification and visualization of differentially active paths or sub-paths within a GRN, using gene-expression data. The methodology takes advantage of the topology and the underlying regulatory mechanisms of GRNs, including the direction and the type of the engaged interactions (e.g. activation/expression, inhibition). Each GRN sub-path is interpreted according to Kauffman’s principles and semantics: (i) the network is a directed graph with genes (inputs and outputs) being the graph nodes and the edges between them representing the causal links between them, i.e., the regulatory reactions; (ii) each node can be in one of the two states, ‘ON’, the gene is expressed or up-regulated (i.e., the respective substance being present) or, ‘OFF’, the gene is not-expressed or targeted from a specific gene; and (iii) time is viewed as proceeding in discrete steps - at each step the new state of a node is a Boolean function of the prior states of the nodes with arrows pointing towards it.The method of MinePath unfolds into five modular steps: I.Gene expression values are discretized into two states with values 1 and 0 for up-regulated and down-regulated genes, respectively, and the respective samples’ binary gene-expression sample matrix is formed; II.each target GRN is decomposed into its constituent sub-paths, e.g., the path A B | C is decomposed into three sub-paths, A B, B | C and A B | C (note that the overlapping sub-paths are also identified and formed); III.Each sub-path is interpreted on the basis of its functional active-state, and it is represented by a binary ordered-vector with active states, e.g., sub-path A B | C is considered functional when A and B are up-regulated and C is down-regulated, resulting into its active-state ordered vector <1,1,0> for the corresponding genes; IV.The binary ordered-vector of each sub-path is aligned and matched against all (discretized) binary gene-expression sample profiles. A sub-path is considered to match a sample if and only if all the corresponding genes in the sub-path exhibit the same active-state in the sample, i.e. genes A, B are up-regulated and gene C is down-regulated, resulting into the corresponding sample ordered-vector <1,1,0>, which matches the sub-path vector. In addition, a binary sub-path expression matrix is formed with rows the sub-paths, columns the input samples, and cell-values 1, 0 for the respective sub-path being functional and active (or hold) for the corresponding sample or not. In other words, the sub-paths are taking the place of sample descriptor features and are utilized for the construction of sub-path based phenotype prediction models. V.Finally, the differential power of each sub-path is computed and appropriate parameterized (users may adjust them to his/her exploratory needs). The highly ranked (best matching) sub-paths are kept according to user-defined thresholds. Subsequently each sub-path is characterized about its phenotype inclination; sub-paths with positive differential power values are characterized as inclined to phenotype 1, and those with negative power as phenotype 2. These sub-paths present putative evidential molecular mechanisms that govern the disease itself, its type, its state or other targeted disease phenotypes (e.g., histopathological characterization, positive or negative response to specific drug treatment). The system also identifies the sub-paths that are functional and always active in both phenotypes. The result is a binary sub-path expression matrix analogue to the gene-expression matrix where the sub-paths are taking the place of genes playing the role of sample descriptors. Then the prediction performance of the selected sub-paths is assessed and reported – the reported prediction performance follows a 10-fold cross-validation mode on machine-learning algorithms, such as C4.5 decision-tree, Naïve Bays, or support vector machines (SVMs); as all relevant sub-path expression matrices are saved and stored, the user may utilize them to build other prediction models based on his/her preferences and needs.MinePath uses binary data structures and Boolean algebra for the calculations, a framework that makes it capable to operate in real time even on big datasets with hundreds of pathways and tens of thousands of sub-paths. Apart from the MinePath methodology, only four other tools/methodologies take advantage of the underlying GRN gene regulation mechanisms, namely GGEA, SPIA, TEAK and PATHOME. The main difference that contrasts MinePath with these approaches resides in the handling of the gene regulatory mechanisms. To our knowledge, all aforementioned methodologies score with +1 the activations and -1 the inhibitions relations between genes, and each sub-path gets a final rank. Contrary MinePath methodology strictly checks and assess the differential power of the sub-paths that are functional and hold in one of the phenotypes (as exemplified in step IV, above). Another limitation of the aforementioned tools is that they lack of a productive environment with efficient, interactive and user-friendly visualization operations that offers rich exploratory capabilities to the research biomedical scientists towards their quest to reveal and get insight to key phenotype regulatory mechanisms. A key innovation of MinePath, contrary to similar approaches that visualize just the state of genes in a GRN, rest in its exploratory capabilities and especially in the visualization of active gene–to–gene regulatory relations that differentiate between the target phenotypes. In addition, MinePath supports active interaction and re-adjustment of the visualized network and is equipped with special operational features enabling live interaction, immediate visualization of regulatory relations and the reduction of GRN’s complexity using special topological and network-adjustment functionalities.Furthermore, MinePath is the only tool that takes also into account and visualizes sub-paths that are fully functional and hold for both phenotypes. These sub-paths possess no differential power but they may be utilised to link the gap (functional interaction) between two sub-paths and reveal long and more complex functional routes in molecular pathways, the interpretation and validation of which is biologically more profound e.g. link the gap between extracellular gene interactions and final biological reaction such as apoptosis. This feature serves the biomedical researchers’ exploratory needs to reveal and interpret the regulatory mechanisms that underlie and putatively govern the expression of target phenotypes.MinePath methodology and the web-platform aim to effectively address all the aforementioned issues. MinePath has been thoroughly tested for its stability and the methodology was applied on gene-expression and miRNA expression data with the target of identifying mechanisms that underlie the expression of specific phenotypes (e.g. breast cancer patients according to their ER-status profiles, or Wilms’ tumour prediction). The results are quite indicative and strongly supported by the relevant biomedical literature. In addition, the prediction performance of MinePath, using the selected differential sub-paths as sample descriptors, was tested and contrasted with the corresponding performance when the original gene-expression data are used – the results are quite satisfactory.165 pagesenhttp://creativecommons.org/licenses/by/4.0/Bio-informaticsBiological informaticsbioinformaticsbio informaticsbiological informaticsSystems biologyPathway analysisΥπολογιστική βιολογίαΒιοπληροφορικήComputational methods for knowledge discovery from heterogeneous data sources: methodology and implementation on biological and molecular sourcesΥπολογιστικές προσεγγίσεις για την ανακάλυψη και παραγωγή γνώσης από ετερογενείς πηγές: μεθοδολογία και εφαρμογή σε βάσεις βιολογικών και μοριακών δεδομένωνΔιδακτορική Διατριβή