Please use this identifier to cite or link to this item:
http://hdl.handle.net/10261/284710
Share/Export:
![]() |
|
Visualizar otros formatos: MARC | Dublin Core | RDF | ORE | MODS | METS | DIDL | DATACITE | |
Title: | Exploring the panregulome of grasses with model species Brachypodium distachyon |
Authors: | Abdalrahem, Ammar | Advisor: | Contreras-Moreira, Bruno CSIC ORCID | Issue Date: | Oct-2022 | Publisher: | Instituto Agronómico Mediterráneo de Zaragoza | Abstract: | [EN] Plant pangenomes are now available for a growing number of plant species. However, regulatory sequences get very little attention despite their importance. In this work ,
proximal promoter sequences (-500 upstream of coding genes) are analyzed to test the hypothesis of the existence of polymorphism in regulatory sequences in individuals from different populations of the same species. For this, a pan-gene set of coding sequences (CDS) annotated in a collection of Brachypodium distachyon ecotypes from different locations was modelled. Sequence clusters with the corresponding proximal promoters were also produced in parallel, to which we refer as the pan-regulome. Both CDS and promoter clusters were then analyzed in the context of the pangenome. First, sequence alignments were computed. However, both global and local alignments failed to align about 25% of promoter sequences, probably because a quarter of promoter sequences are repeated sequences. As an alternative, an alignment-free method (Mash) was benchmarked in order to measure the degree of polymorphism of coding and promoter sequences. This approach was successful and highlighted that based-mer-K algorithms might be more appropriate to compare the sequences of proximal promoters of homologous genes. Overall, it was observed that promoters are more diverse than coding sequences, with the complexity increasing in genes found only in some individuals (shell), as compared to genes present in all (core). These observations highlight the value of the pangenome as more efficient way to capture the genetic polymorphism of regulatory sequences in the genome. All the analyses performed in this work are integrated into a Snakemake workflow to facilitate re-use and reproducibility. [ES] Actualmente hay disponibles pangenomas para un número creciente de plantas. Sin embargo, las secuencias reguladoras han recibido poca atención a pesar de su importancia. En este trabajo las secuencias de promotores proximales (-500 aguas arriba de genes codificantes) se analizaron para poner a prueba la hipótesis de que hay polimorfismo en las secuencias reguladoras de individuos de diferentes poblaciones de la misma especie. Para ello, se modeló el conjunto de pan-genes anotados en una colección de ecotipos de Brachypodium distachyon muestreados en distintas localidades. En paralelo se obtuvieron los clústers de secuencias de los correspondientes promotores proximales, a lo que llamamos el pan-reguloma. Los clústers resultantes de se analizaron en el contexto del pangenoma. Primero se calcularon alineamientos de secuencia, observándose que tanto alineamientos globales como locales no lograban alinear el 25% de las secuencias, posiblemente porque un cuarto del espacio que ocupan los promotores se corresponde con secuencias repetidas. Alternativamente se probó un método sin alineamiento (Mash) como forma de estimar el grado de polimorfismo de las secuencias codificantes y promotoras. Esta estrategia funcionó y demuestra que algoritmos basados en conteos de K-meros pueden ser apropiados para comparar las secuencias de promotores de genes homólogos. En conjunto, se observó que los promotores son más diversos que las secuencias codificantes, y que su complejidad aumenta en los genes presentes solamente en algunos individuos (shell), en contraposición con los genes anotados en todos (core). Estas observaciones destacan el valor del pangenoma como una manera más efectiva a la hora de capturar el polimorfismo de las secuencias reguladoras genómicas. Todos los análisis realizados en este trabajo se han integrado en un protocolo Snakemake para facilitar que sean reutilizados. [FR] Les pangénomes d’un nombre croissant d'espèces végétales sont maintenant disponibles. Cependant, les séquences régulatrices reçoivent très peu d'attention malgré leur grande importance. Dans ce travail, les séquences promotrices proximales (-500 en amont des gènes codants) ont été analysées pour tester l'hypothèse de l'existence d'un polymorphisme dans les séquences régulatrices chez des individus issus de différentes populations d'une même espèce. Pour cela, un ensemble pan-génique de séquences codantes (CDS) annotées dans une collection d'écotypes de Brachypodium distachyon provenant de différents endroits a été modélisé. Des clusters de séquences avec les promoteurs proximaux correspondants ont également été produits en parallèle, auxquels nous nous référons en tant que pan-régulome. Les clusters de CDS et de promoteurs ont ensuite été analysés dans le contexte du pangénome. Tout d'abord, les alignements de séquences ont été calculés. Cependant, les alignements globaux et locaux n'ont pas réussi à aligner environ 25% des séquences de promoteurs, probablement parce qu'un quart des séquences de promoteurs sont des séquences répétées. Comme alternative, une méthode sans alignement (Mash) a été évaluée afin de mesurer le degré de polymorphisme des séquences codantes et promotrices. Cette approche a été couronnée de succès et a mis en évidence que les algorithmes basés sur les K-mer pourraient être plus appropriés pour comparer les séquences des promoteurs proximaux de gènes homologues. Dans l'ensemble, il a été observé que les promoteurs sont plus diversifiés que les séquences codantes, la complexité augmentant dans les gènes trouvés seulement chez certains individus (coquille), par rapport aux gènes présents chez tous (noyau). Ces observations soulignent la valeur du pangénome comme moyen plus efficace de capturer le polymorphisme génétique des séquences régulatrices dans le génome. Toutes les analyses réalisées dans ce travail sont intégrées dans un workflow Snakemake pour faciliter la réutilisation et la reproductibilité. |
Description: | 106 Pags. Thesis Master of Science CIHEAM-IAM Zaragoza. Developed into the EEAD-CSIC with the supervision of Bruno Contreras-Moreira (EEAD Researcher). Under a Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) | URI: | http://hdl.handle.net/10261/284710 |
Appears in Collections: | (EEAD) Tesis |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
AbdalrahemA_TM-IAMZ+EEAD_2022.pdf | 2,73 MB | Adobe PDF | ![]() View/Open |
Review this work
Page view(s)
51
checked on Sep 29, 2023
Download(s)
27
checked on Sep 29, 2023
Google ScholarTM
Check
This item is licensed under a Creative Commons License