Machine learning methods for genomic signature extraction

Δεν υπάρχει διαθέσιμη μικρογραφία

Ημερομηνία

2015

Συγγραφείς

Chlis Nikolaos-Kosmas
Χλης Νικολαος-Κοσμας

Τίτλος Εφημερίδας

Περιοδικό ISSN

Τίτλος τόμου

Εκδότης

Πολυτεχνείο Κρήτης

Περίληψη

Η εφαρμογή μεθόδων μηχανικής μάθησης για την ανάλυση δεδομένων από μικροσυστοιχίες DNA έχει γίνει κοινή πρακτική στον τομέα της βιοπληροφορικής. Μικροσυστοιχίες DNA χρησιμοποιούνται προκειμένου να μετρηθεί ταυτόχρονα η τιμή έκφρασης χιλιάδων γονιδίων. Λαμβάνοντας υπ'όψιν τις μετρήσεις της γονιδιακής έκφρασης, μέθοδοι μηχανικής μάθησης μπορούν να χρησιμοποιηθούν για τον εντοπισμό υποψήφιων γονιδίων που σχετίζονται με μία βιολογική κατάσταση ή φαινότυπο ενδιαφέροντος, όπως ο καρκίνος. Αυτές οι λίστες των υποψήφιων γονιδίων συχνά αποκαλούνται “γονιδιακές υπογραφές” στη βιβλιογραφία. Η εφαρμογή των μεθόδων μηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφών είναι αναγκαία, δεδομένου ότι είναι πρακτικά αδύνατο για τους εμπειρογνώμονες να αξιολογήσουν τη σημασία του κάθε γονιδίου ξεχωριστά, λόγω του μεγάλου μεγέθους του γονιδιώματος, το οποίο αποτελείται από περίπου 25.000 γονίδια. Μέθοδοι μηχανικής μάθησης όπως μέθοδοι επιλογής χαρακτηριστικών και μέθοδοι ταξινόμησης αποτελούν δημοφιλείς επιλογές για την εξαγωγή γονιδιακών υπογραφών. Μονομεταβλητές μέθοδοι επιλογής χαρακτηριστικών φιλτράρουν τα γονίδια σύμφωνα με διαφορές στο προφίλ της γονιδιακής τους έκφρασής μεταξύ δειγμάτων που ανήκουν σε διαφορετικές κατηγορίες ενδιαφέροντος, όπως παθολογικά δείγματα και δείγματα αναφοράς. Εφόσον εξετάζουν κάθε γονίδιο ξεχωριστά, οι μονομεταβλητές μέθοδοι είναι υπολογιστικά αποδοτικές και επιλέγουν γονίδια με υψηλή διακριτικότητα. Ωστόσο, αγνοούν τις αλληλεπιδράσεις μεταξύ των γονιδίων. Από την άλλη πλευρά, οι πολυμεταβλητές μέθοδοι αξιολογούν ταυτόχρονα ομάδες γονιδίων και επιλέγουν υποψήφια γονίδια με βάση την προγνωστική απόδοσή τους όταν χρησιμοποιούνται σε συνδυασμό με έναν ταξινομητή. Ως εκ τούτου, είναι πιο αποτελεσματικές στο να λαμβάνουν υπ'όψιν τις λανθάνουσες σχέσεις μεταξύ των γονιδίων και επιλέγουν γονίδια με υψηλή προγνωστική ικανότητα, όμως έχουν υψηλό υπολογιστικό κόστος. Ενώ οι εφαρμοζόμενες μεθοδολογίες επιλογής χαρακτηριστικών και ταξινόμησης έχουν ωριμάσει και αρκετές αποδοτικές μέθοδοι έχουν δημιουργηθεί, η σταθερότητα των εξαγόμενων γονιδιακών υπογραφών συχνά παραβλέπεται. Ως αποτέλεσμα, οι γονιδιακές υπογραφές που εξάγονται από πολλές μεθοδολογίες είναι ασταθείς ως προς παραλλαγές των δειγμάτων εκπαίδευσης. Δηλαδή, οι εξαγόμενες υπογραφές τείνουν να διαφέρουν σημαντικά μεταξύ τους, όταν έχουν χρησιμοποιηθεί ελαφρώς διαφορετικά δεδομένα εκπαίδευσης. Δεδομένου ότι η σταθερότητα των αποτελεσμάτων σχετίζεται με την γενίκευση, αυτή η αστάθεια δημιουργεί σκεπτικισμό στην κοινότητα των εμπειρογνωμόνων, αμφισβητεί την εγκυρότητα και εμποδίζει την κλινική εφαρμογή των ερευνητικών ευρημάτων που προέρχονται από τέτοιου είδους μελέτες γονιδιακής έκφρασης. Η παρούσα εργασία ασχολείται με τις εξής τρεις πτυχές της επιλογής και αξιολόγησης γονιδιακών υπογραφών: τη σταθερότητα, την προβλεπτική ικανότητα και τη στατιστική σημαντικότητα. Ένα πλαίσιο για την εξαγωγή των σταθερών γονιδιακών υπογραφών, που ονομάζεται Stable Bootstrap Validation (SBV) παρουσιάζεται. Η προτεινόμενη μεθοδολογία επιβάλλει σταθερότητα της εξαγόμενης γονιδιακής υπογραφής στο στάδιο της αξιολόγησης (validation). Ως αποτέλεσμα, μπορεί να συνδυαστεί με οποιαδήποτε μέθοδο ταξινόμησης, εφόσον αυτή υποστηρίζει επιλογή χαρακτηριστικών. Τρία ελεύθερα διαθέσιμα σύνολα δεδομένων γονιδιακής έκφρασης χρησιμοποιούνται για να αξιολογηθεί η προτεινόμενη μεθοδολογία. Αρχικά, η διαστατικότητα των συνόλων δεδομένων μειώνεται χρησιμοποιώντας μια μέθοδο φιλτραρίσματος. Στη συνέχεια, bootstrap αναδειγματοληψία χρησιμοποιείται για να δημιουργηθεί μια λίστα υποψήφιων υπογραφών, σύμφωνα με τη συχνότητα επιλογής των γονιδίων στο σύνολο των παραγόμενων bootstrap συνόλων δεδομένων. Στη συνέχεια, μία σταθερή υπογραφή που έχει τη μέγιστη ικανότητα πρόβλεψης όσον αφορά την ακρίβεια, την ευαισθησία και την ειδικότητα εξάγεται και η ικανότητα πρόβλεψης όλων των υποψήφιων υπογραφών συμπυκνώνεται και σχεδιάζεται σε ένα ευδιάκριτο διάγραμμα για περαιτέρω επιθεώρηση. Επίσης, εξετάζεται η εφαρμογή μεθόδων τυχαίας δειγματοληψίας για την αντιμετώπιση των αρνητικών επιπτώσεων της μη ισορροπημένης κατανομής των δειγμάτων σε παθολογικές και μη κατηγορίες στα σύνολα δεδομένων. Η μη ισορροπημένη κατανομή των δεδομένων αποτελεί συχνό φαινόμενο σε μελέτες μικροσυστοιχιών DNA, όπου τα δείγματα αναφοράς συνήθως είναι πολύ λιγότερα από τα παθολογικά. Επιπλέον, υλοποιήθηκε ένα κατάλληλο στατιστικό πλαίσιο, που περιλαμβάνει δύο ξεχωριστά στατιστικά τεστ, προκειμένου να αξιολογηθεί η στατιστική σημαντικότητα της εξαγόμενης υπογραφής όσον αφορά την ακρίβεια της ταξινόμησης, καθώς και τη σύνδεση της υπογραφής με την μεταβλητή απόκρισης (φαινότυπος/παθολογική κατάσταση). Τέλος, η ευρωστία της μεθοδολογίας αξιολογείται μέσω της εκτίμησης του βαθμού “συμφωνίας” μεταξύ των υπογραφών που προέρχονται από ανεξάρτητες εκτελέσεις της μεθοδολογίας.

Περιγραφή

Λέξεις-κλειδιά

Βιοπληροφορική

Παραπομπή

Νικόλαος-Κοσμάς Χλης, "Μέθοδοι ηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφών", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2015

Έχει διάδοχο το τεκμήριο

Είναι διάδοχο του τεκμηρίου

Περιέχει το τεκμήριο

Είναι μέρος του τεκμηρίου

Αναφέρει το τεκμήριο

Αναφέρεται από το τεκμήριο

Έπεται το τεκμήριο

Προηγείται του τεκμηρίου

Έχει ως έκδοση το τεκμήριο

Αποτελεί έκδοση του τεκμηρίου

Έχει ως συμπληρωματικό το τεκμήριο

Είναι συμπληρωματικό του τεκμηρίου

Έχει μετατραπει στο τεκμήριο

Αποτελεί μετατροπή του τεκμηρίου