Zervakis MichalisΖερβακης ΜιχαληςChlis Nikolaos-KosmasΧλης Νικολαος-Κοσμας2024-10-312024-10-3120152015-07-07Nikolaos-Kosmas Chlis, "Machine learning methods for genomic signature extraction", Master Thesis, School of Electronic and Computer Engineering, Technical University of Crete, Chania, Greece, 2015Νικόλαος-Κοσμάς Χλης, "Μέθοδοι ηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφών", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2015https://dspace.library.tuc.gr/handle/123456789/894The application of machine learning methodologies for the analysis of DNA microarray data has become a common practice in the field of bioinformatics. DNA microarrays can be used in order to simultaneously measure the expression value of thousands of genes. Given the measurements of gene expression, machine learning methods can be employed in order to identify candidate genes that are related to a biological state or phenotype of interest, such as cancer. These lists of candidate genes are often called “genomic signatures” in literature. The application of machine learning methods for the extraction of genomic signatures is a necessity, since it is practically impossible for field experts to assess the importance of each gene individually by manual inspection due to the large size of the genome, which consists of approximately 25,000 genes. Machine learning methods such as feature subset selection and classification algorithms are popular choices for the extraction of genomic signatures. Univariate feature selection methods filter genes according to difference in their gene expression profiles among samples belonging to different classes of interest, such as control and disease. Since they test each gene individually, univariate methods are computationally efficient and they select genes with high discrimination ability. However, they ignore associations among genes. On the other hand, multivariate methods simultaneously assess groups of genes and select candidate genes based on their predictive performance when used in conjunction with a classifier. As such, they are more efficient at capturing the latent associations among genes and select genes with high predictive capability, at the cost of being computationally expensive. While the applied feature selection and classification methodologies have matured and several state of the art algorithms have been established, the stability of the extracted genomic signatures is often overlooked. As a result, the genomic signatures extracted by many methodologies are unstable under sample variations. That is, the extracted signatures differ significantly under variations of the training data. Since result stability is related to generalization, this instability raises skepticism in the expert community and hinders the validity and clinical application of research findings extracted from such gene expression studies. This thesis deals with the following three aspects of the selection and evaluation of gene signatures, namely stability, predictive capability and statistical significance. First, a framework for the extraction of stable genomic signatures, called Stable Bootstrap Validation (SBV) is introduced. The proposed methodology enforces stability at the validation step. As a result, it can be combined with any classification method, as long as it supports feature selection. Three publicly available gene expression datasets are used in order to test the proposed methodology. First the dimensionality of the datasets is reduced using a filtering method. Then, bootstrap resampling is utilized in order to generate a list of candidate signatures according to the selection frequency of genes across all bootstrap datasets. Then, a stable signature which has maximal predictive performance in terms of accuracy, sensitivity and specificity is extracted and the predictive performance of all candidate signatures is plotted in an elaborate manner for further inspection. Additionally, the application of random sampling methods for countering the negative effects of imbalanced datasets in classification was investigated, since imbalanced datasets are frequently found in DNA microarray studies where control samples are usually scarce. Moreover, a proper statistical framework was implemented that includes two separate statistical tests, in order to assess the statistical significance of the extracted signature in terms of classification accuracy as well as association to the response variable (phenotype/biological state). Finally, the robustness of the methodology is assessed by testing the degree of “agreement” among signatures extracted from independent executions of the methodology.Η εφαρμογή μεθόδων μηχανικής μάθησης για την ανάλυση δεδομένων από μικροσυστοιχίες DNA έχει γίνει κοινή πρακτική στον τομέα της βιοπληροφορικής. Μικροσυστοιχίες DNA χρησιμοποιούνται προκειμένου να μετρηθεί ταυτόχρονα η τιμή έκφρασης χιλιάδων γονιδίων. Λαμβάνοντας υπ'όψιν τις μετρήσεις της γονιδιακής έκφρασης, μέθοδοι μηχανικής μάθησης μπορούν να χρησιμοποιηθούν για τον εντοπισμό υποψήφιων γονιδίων που σχετίζονται με μία βιολογική κατάσταση ή φαινότυπο ενδιαφέροντος, όπως ο καρκίνος. Αυτές οι λίστες των υποψήφιων γονιδίων συχνά αποκαλούνται “γονιδιακές υπογραφές” στη βιβλιογραφία. Η εφαρμογή των μεθόδων μηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφών είναι αναγκαία, δεδομένου ότι είναι πρακτικά αδύνατο για τους εμπειρογνώμονες να αξιολογήσουν τη σημασία του κάθε γονιδίου ξεχωριστά, λόγω του μεγάλου μεγέθους του γονιδιώματος, το οποίο αποτελείται από περίπου 25.000 γονίδια. Μέθοδοι μηχανικής μάθησης όπως μέθοδοι επιλογής χαρακτηριστικών και μέθοδοι ταξινόμησης αποτελούν δημοφιλείς επιλογές για την εξαγωγή γονιδιακών υπογραφών. Μονομεταβλητές μέθοδοι επιλογής χαρακτηριστικών φιλτράρουν τα γονίδια σύμφωνα με διαφορές στο προφίλ της γονιδιακής τους έκφρασής μεταξύ δειγμάτων που ανήκουν σε διαφορετικές κατηγορίες ενδιαφέροντος, όπως παθολογικά δείγματα και δείγματα αναφοράς. Εφόσον εξετάζουν κάθε γονίδιο ξεχωριστά, οι μονομεταβλητές μέθοδοι είναι υπολογιστικά αποδοτικές και επιλέγουν γονίδια με υψηλή διακριτικότητα. Ωστόσο, αγνοούν τις αλληλεπιδράσεις μεταξύ των γονιδίων. Από την άλλη πλευρά, οι πολυμεταβλητές μέθοδοι αξιολογούν ταυτόχρονα ομάδες γονιδίων και επιλέγουν υποψήφια γονίδια με βάση την προγνωστική απόδοσή τους όταν χρησιμοποιούνται σε συνδυασμό με έναν ταξινομητή. Ως εκ τούτου, είναι πιο αποτελεσματικές στο να λαμβάνουν υπ'όψιν τις λανθάνουσες σχέσεις μεταξύ των γονιδίων και επιλέγουν γονίδια με υψηλή προγνωστική ικανότητα, όμως έχουν υψηλό υπολογιστικό κόστος. Ενώ οι εφαρμοζόμενες μεθοδολογίες επιλογής χαρακτηριστικών και ταξινόμησης έχουν ωριμάσει και αρκετές αποδοτικές μέθοδοι έχουν δημιουργηθεί, η σταθερότητα των εξαγόμενων γονιδιακών υπογραφών συχνά παραβλέπεται. Ως αποτέλεσμα, οι γονιδιακές υπογραφές που εξάγονται από πολλές μεθοδολογίες είναι ασταθείς ως προς παραλλαγές των δειγμάτων εκπαίδευσης. Δηλαδή, οι εξαγόμενες υπογραφές τείνουν να διαφέρουν σημαντικά μεταξύ τους, όταν έχουν χρησιμοποιηθεί ελαφρώς διαφορετικά δεδομένα εκπαίδευσης. Δεδομένου ότι η σταθερότητα των αποτελεσμάτων σχετίζεται με την γενίκευση, αυτή η αστάθεια δημιουργεί σκεπτικισμό στην κοινότητα των εμπειρογνωμόνων, αμφισβητεί την εγκυρότητα και εμποδίζει την κλινική εφαρμογή των ερευνητικών ευρημάτων που προέρχονται από τέτοιου είδους μελέτες γονιδιακής έκφρασης. Η παρούσα εργασία ασχολείται με τις εξής τρεις πτυχές της επιλογής και αξιολόγησης γονιδιακών υπογραφών: τη σταθερότητα, την προβλεπτική ικανότητα και τη στατιστική σημαντικότητα. Ένα πλαίσιο για την εξαγωγή των σταθερών γονιδιακών υπογραφών, που ονομάζεται Stable Bootstrap Validation (SBV) παρουσιάζεται. Η προτεινόμενη μεθοδολογία επιβάλλει σταθερότητα της εξαγόμενης γονιδιακής υπογραφής στο στάδιο της αξιολόγησης (validation). Ως αποτέλεσμα, μπορεί να συνδυαστεί με οποιαδήποτε μέθοδο ταξινόμησης, εφόσον αυτή υποστηρίζει επιλογή χαρακτηριστικών. Τρία ελεύθερα διαθέσιμα σύνολα δεδομένων γονιδιακής έκφρασης χρησιμοποιούνται για να αξιολογηθεί η προτεινόμενη μεθοδολογία. Αρχικά, η διαστατικότητα των συνόλων δεδομένων μειώνεται χρησιμοποιώντας μια μέθοδο φιλτραρίσματος. Στη συνέχεια, bootstrap αναδειγματοληψία χρησιμοποιείται για να δημιουργηθεί μια λίστα υποψήφιων υπογραφών, σύμφωνα με τη συχνότητα επιλογής των γονιδίων στο σύνολο των παραγόμενων bootstrap συνόλων δεδομένων. Στη συνέχεια, μία σταθερή υπογραφή που έχει τη μέγιστη ικανότητα πρόβλεψης όσον αφορά την ακρίβεια, την ευαισθησία και την ειδικότητα εξάγεται και η ικανότητα πρόβλεψης όλων των υποψήφιων υπογραφών συμπυκνώνεται και σχεδιάζεται σε ένα ευδιάκριτο διάγραμμα για περαιτέρω επιθεώρηση. Επίσης, εξετάζεται η εφαρμογή μεθόδων τυχαίας δειγματοληψίας για την αντιμετώπιση των αρνητικών επιπτώσεων της μη ισορροπημένης κατανομής των δειγμάτων σε παθολογικές και μη κατηγορίες στα σύνολα δεδομένων. Η μη ισορροπημένη κατανομή των δεδομένων αποτελεί συχνό φαινόμενο σε μελέτες μικροσυστοιχιών DNA, όπου τα δείγματα αναφοράς συνήθως είναι πολύ λιγότερα από τα παθολογικά. Επιπλέον, υλοποιήθηκε ένα κατάλληλο στατιστικό πλαίσιο, που περιλαμβάνει δύο ξεχωριστά στατιστικά τεστ, προκειμένου να αξιολογηθεί η στατιστική σημαντικότητα της εξαγόμενης υπογραφής όσον αφορά την ακρίβεια της ταξινόμησης, καθώς και τη σύνδεση της υπογραφής με την μεταβλητή απόκρισης (φαινότυπος/παθολογική κατάσταση). Τέλος, η ευρωστία της μεθοδολογίας αξιολογείται μέσω της εκτίμησης του βαθμού “συμφωνίας” μεταξύ των υπογραφών που προέρχονται από ανεξάρτητες εκτελέσεις της μεθοδολογίας.91 pagesenhttp://creativecommons.org/licenses/by-nc-sa/4.0/ΒιοπληροφορικήStructure bioinformaticsstructural bioinformaticsstructure bioinformaticsMachine learning methods for genomic signature extractionΜέθοδοι ηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφώνΜεταπτυχιακή Διατριβή