Participantes TIB2024-1, Taller de Pangenómica y Filogenómica Microbiana, 2024-01-23
Talleres Internacionales de Bioinformática - Centro de Ciencias Genómicas, UNAM, Cuernavaca, México (TIB2024-FILO)
Después de una interrupción de dos años debida a la pandemia de SARS-CoV-2, volvemos a ofrecer regularmente el Taller sobre Pangenómica y Filoinformática microbiana (#TIB2024-FILO) de manera presencial. Este taller ha sido muy solicitado y altamente valorado por l@s participantes de ediciones anteriores, la última en 2022 (TIB2022).
Este taller de nivel intermedio-avanzado te proporcionará una sólida introducción al biocómputo en sistemas Linux para trabajar con eficiencia en inferencia filogenética, evolución molecular y genómica microbiana, con énfasis en pangenómica y filogenómica microbiana. Al término del taller manejarás con soltura el Shell y sabrás usar su poder para parsear y procesar eficientemente datos de diversa naturaleza (tablas, secuencias ...), generar estadísticas de resumen y gráficas con R para analizar distribuciones de datos, y construir tuberías de análisis bioinformáticos.
Además, aprenderás con detalle y profundidad los aspectos teóricos y prácticos para manejar a nivel avanzado diversos programas de la suite BLAST+ desde la línea de comandos, hacer alinemientos múltiples de diversos tipos de secuencias (CDSs, ribosomales, ...), y dominar la selección de modelos paramétricos para DNA y matrices empíricas de proteínas haciendo uso del criterio de optimización de máxima verosimilitud. Aprenderemos a automatizar estos procesos mediante scripts de shell. Después de sentar estas bases, el taller culmina con sesiones avanzadas de pangenómica y filogenómica microbiana, haciendo uso de los paquetes GET_HOMOLOUGES y GET_PHYLOMARKERS desarrollados por el profesor del taller junto con sus colaboradores.
En el taller (~36 hrs) tendremos sesiones teóricas y prácticas que cubrirán un amplio espectro del tópico como:
- introducción al biocómputo en sistemas Linux para procesamiento eficiente de secuencias y datos moleculares
- formateo y escrutinio de bases de datos locales de secuencias mediante BLAST (makeblastdb, blastn, blastp, blastx, blastdbcmd)
- determinación e interpretación de homología (identificación de ortólogos, parálogos, xenólogos, dominios de proteínas, algoritmos BDBH, COGtriangles, OthoMCL), búsqueda de homólogos distantes
- alineamiento de múltiples secuencias y conversión de formatos
- inferencia filogenética estadística bajo el criterio de máxima verosimilitud, con énfasis en selección de modelos para DNA y proteínas
- análisis pangenómico y filogenómico de genomas microbianos
Se darán presentaciones detalladas del uso de programas clave (todos “open source”) para estos análisis, usando datos tomados de las bases de datos. También se presentará el uso de algunos scripts de AWK, Bash y Perl con el objetivo de aprender los aspectos básicos de estos lenguajes para el procesamiento y análisis de datos genómicos.
Al final del curso tendrán una amplia visión sobre el espectro de posibilidades que brindan la filogenética y la evolución molecular en distintos tipos de estudios biológicos y genómicos, que les servirán como herramientas conceptuales y metodológicas de gran utilidad en su carrera como estudiantes o profesionales.
Es recomendable tener conocimientos básicos de Unix/Linux, ya que todas las demostraciones de software se harán en este sistema operativo.
Es necesario que traigas tu computadora personal, de preferencia con Linux (o MacOS X) como sistema operativo.
Si usas Windows, deberás tener instalado MobaXterm (para Ms Windows) antes de llegar al taller!.
Aquí tienes instrucciones para la instalación de MobaXterm en Windows
Hola, me llamo Pablo Vinuesa. Soy investigador titular del Centro de Ciencias Genómicas de la Universidad Nacional Autónoma de México - UNAM.
Puedes seguirme en X: @pvinmex
Mis líneas de investigación integran la genómica y la bioinformática con la biología y genética molecular para entender la evolución y emergencia de patógenos oportunistas a partir de microbios ambientales.
Tenemos el privilegio de contar con la ayuda de Daniela Hernández y Mauricio Osorio como ayudantes del Taller. Ambos son personas con un excelente trato y alumn@s de licenciatura de la Facultade de Ciencias de la UNAM con amplia experiencia en los tópicos de este taller.
Seguiremos estrictas medidas de seguridad para minimizar el riesgo latente de contraer COVID-19
- tendremos un aforo muy reducido, a < 25% de capaciad del auditorio, el cual cuenta con excelente ventilación.
- el uso correcto de cubrebocas KN95 o superior será obligatorio.
- contaremos con varias unidades de filtración de aire Corsi-Rosenthal
A través de estas páginas se distribuyen los apuntes, ejercicios y datos que se usarán en el Taller sobre Pangenómica y Filogenómica Microbiana. Para tu convenienca, se distribuye en formatos pdf y html.
Puedes ver en mi sitio Web el listados de cursos y materiales asociados, que pongo libremente disponible para la comunidad.
Este repositorio contiene el material para el Taller sobre Pangenómica y Filoinformática microbiana de los Talleres Internacionales de Bioinformática - TIB2024, a celebrarse en el Centro de Ciencias Genómicas de la Universidad Nacional Autónoma de México, del 22 al 26 de enero de 2024.
-
Si tienes instalado git en tu computadora, puedes clonar el repositorio con el comando:
-
Para actualizar el repositorio, ejecuta este comando desde dentro del directorio TIBS-filoinfo
En ubuntu y MobaXterm es muy fácil instalar git:
sudo apt install git
Vean además las instrucciones para la instalación de MobaXterm en Windows, que indican cómo instalar el Git plugin de MobaXterm.
El material del Taller, TIB-filoinfo lo distribuyo públicamente a través de este repositorio GitHub bajo la Licencia No Comercial Creative Commons 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0
Quiero agradecer al Nodo Nacional de Bioinformática - UNAM por el apoyo y facilidades prestadas para poder impartir este taller. Quiero explícitamente agradecer, de manera muy especial, a la Dra. Irma Martínez Flores, la M.T.I. Shirley Alquicira Hernández, al M.A.D. Alfredo Hernández Alvarez e Iván Uhthoff Aguilera por su extraordinaria labor y capacidad.
Las clases se imparten del 22 al 26 de enero en el auditorio Guillermo Soberón del CCG-UNAM, Cuernavaca, Morelos de 9 a 17:00 hrs, según el programa del TIB2024
Sesión del Taller TIB2019 en el Auditorio Guillermo Soberón del CCG-UNAM
- presentación - PDF: Primer contacto con un sistema GNU/Linux
- Práctica. Navegación del sistema, uso de comandos básicos y ejercicio de parseo de archivo FASTA
- Lecturas recomendadas:
- Atma Ivancevic. The ten commandments for learning how to code. Carrer Column, Nature, 20 Feb. 2019
- Velez Rueda AJ, Benítez GI, Marchetti J, Hasenahuer MA, Fornasari MS, Palopoli N, Parisi G. Bioinformatics calls the school: Use of smartphones to introduce Python for bioinformatics in high schools. PLoS Comput Biol. 2019 Feb 14;15(2):e1006473.
- Dudley JT, Butte AJ. A quick guide for developing effective bioinformatics programming skills. PLoS Comput Biol. 2009 Dec;5(12):e1000589
- The Linux Command Line - a complete introduction. William E. Shotts, Jr. No Starch Press
- Bioinformatics Data Skills: Reproducible and Robust Research with Open Source Tools. Vince Buffalo. O'Reilly Media 2014
-
presentación - PDF: conceptos básicos de filogenética y evolución
-
Lecturas recomendadas
- Fitch WM. Homology a personal view on some of the problems. Trends Genet. 2000 May;16(5):227-31
- Koonin EV. Orthologs, paralogs, and evolutionary genomics. Annu Rev Genet. 2005;39:309-38
- Glover N, Dessimoz C, Ebersberger I, Forslund SK, Gabaldón T, Huerta-Cepas J, Martin MJ et al. Quest for Orthologs Consortium. Advances and Applications in the Quest for Orthologs. Mol Biol Evol. 2019 Jun 26. pii: msz150. doi: 10.1093/molbev/msz150.
- Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses. Curr Opin Microbiol. 2015 Feb;23:148-54
- McInerney JO, McNally A, O'Connell MJ. Why prokaryotes have pangenomes. Nat Microbiol. 2017 Mar 28;2:17040
- Sela I, Wolf YI, Koonin EV. Theory of prokaryotic genome evolution. Proc Natl Acad Sci U S A. 2016 Oct 11;113(41):11399-11407
- Land M, Hauser L, Jun SR, Nookaew I, Leuze MR, Ahn TH, Karpinets T, Lund O, Kora G, Wassenaar T, Poudel S, Ussery DW. Insights from 20 years of bacterial genome sequencing. Funct Integr Genomics. 2015 Mar;15(2):141-61
- presentación - PDF
- práctica
- Lecturas recomendadas
- Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL. BLAST+: architecture and applications. BMC Bioinformatics. 2009 Dec 15;10:421
-
práctica
- Multiple sequence alignments, and profile hidden Markov models - tutorial
- sequences, tgz
- align_seqs_with_clustal_or_muscle.sh
- convert_alnFormats_using_clustalw.sh
- convert_aln_format_batch_bp.pl
- translate_fastas.pl
- prot2cdnAlns.pl
- extract_N-or_C-terminal_regions_and_compute_counts.pl
- fasta_toolkit.awk
- select_sequences_by_ID.pl
-
Lecturas recomendadas
- Katoh K. ed. (2021). Multiple sequence alignment - methods and protocols. MIMB, volume 2231
- Simossis V, Kleinjung J, Heringa J. An overview of multiple sequence alignment. Curr Protoc Bioinformatics. 2003 Nov;Chapter 3:Unit 3.7
- Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, Lopez R, McWilliam H, Remmert M, Söding J, Thompson JD, Higgins DG. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Mol Syst Biol. 2011 Oct 11;7:539
- Sievers F, Higgins DG. Clustal Omega for making accurate alignments of many protein sequences. Protein Sci. 2018 Jan;27(1):135-145
- Sean R Eddy (1998). Profile hidden Markov models. Bioinformatics 14(9):755-63
- Sean R Eddy (2004). What is a hidden Markov model? Nat Biotechnol 22(10):1315-6
- Söding J. (2005). Protein homology detection by HMM-HMM comparison. Bioinformatics 21(7):951-60
- Sean R Eddy (2011). Accelerated Profile HMM Searches. PLoS Comput Biol; 7(10):e1002195
- HMMER.org
- HMMER3.4 user guide
Sesión 5: Introducción a los métodos filogenéticos, modelos de sustitución y algoritmos de búsqueda de árboles
- presentación - PDF
- Lecturas recomendadas
- Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nat Rev Genet. 2012 Mar 28;13(5):303-14
- Yang Z (2014). Molecular Evolution - a Statistical Approach.Oxford University Press.
- Juan Zurita-Artaloitia, Javier Rivera and Pablo Vinuesa*. Extensive cryptic diversity and ecological associations uncovered among Mexican and global collections of Naegleria and Vermamoeba by 18S rDNA, ITS, and COI sequence analysis. Microbiology Spectrum, 21 March 2023.
- Luz Edith Ochoa-Sanchez and Pablo Vinuesa* (2017). Evolutionary genetic analysis uncovers multiple species with distinct habitat preferences and antibiotic resistance phenotypes in the Stenotrophomonas maltophilia complex. Front. Microbiol. 8: 1548. doi.org/10.3389/fmicb.2017.01548
- Ciro Cubillas, Pablo Vinuesa, María Luisa Tabche and Alejandro García-de los Santos (2013). Phylogenomic analysis of Cation Diffusion Facilitator proteins uncovers Ni2+/Co2+ transporters. Metallomics 5(12):1634-1643.
- Vinuesa P* , Silva C, Werner D, Martínez-Romero E (2005). Population genetics and phylogenetic inference in bacterial molecular systematics: the roles of migration and recombination in Bradyrhizobium species cohesion and delineation. Mol. Phylogenet. Evol. 34(1):29-54.
Sesión 6: Selección de modelos e inferencia de filogenias bajo máxima verosimilitud (teoría y práctica)
- tutorial phyml, comandos - html
- tutorial phyml (secuencias), tgz
- tutorial jmodeltest (presentación) - pdf
- tutorial jmodeltest (comandos y secuencias), tgz
Scripts para selección automática y eficiente de modelos de DNA y proteína y estima de filogenia con PhyML
-
Lecturas recomendadas
- Criscuolo A. morePhyML: improving the phylogenetic tree space exploration with PhyML 3. Mol Phylogenet Evol. 2011 Dec;61(3):944-8
- Guindon S, Dufayard JF, Lefort V, Anisimova M, Hordijk W, Gascuel O. New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. Syst Biol. 2010 May;59(3):307-21
-
Lecturas recomendadas
- Medini D, Donati C, Tettelin H, Masignani V, Rappuoli R. The microbial pan-genome. Curr Opin Genet Dev. 2005 Dec;15(6):589-94
- Vernikos G, Medini D, Riley DR, Tettelin H. Ten years of pan-genome analyses. Curr Opin Microbiol. 2015 Feb;23:148-54
- McInerney JO, McNally A, O'Connell MJ. Why prokaryotes have pangenomes. Nat Microbiol. 2017 Mar 28;2:17040
- Land M, Hauser L, Jun SR, Nookaew I, Leuze MR, Ahn TH, Karpinets T, Lund O, Kora G, Wassenaar T, Poudel S, Ussery DW. Insights from 20 years of bacterial genome sequencing. Funct Integr Genomics. 2015 Mar;15(2):141-61
- Contreras-Moreira B, Vinuesa P. GET_HOMOLOGUES, a versatile software package for scalable and robust microbial pangenome analysis. Appl Environ Microbiol. 2013 Dec;79(24):7696-701
- Bruno Contreras-Moreira, Alvaro Rodríguez del Río, Carlos P. Cantalapiedra, Rubén Sancho, and Pablo Vinuesa (2022). Pangenome Analysis of Plant Transcripts and Coding Sequences. In Plant Comparative Genomics. Alejandro Pereira-Santana, Samuel David Gamboa-Tuz and Luis Carlos Rodríguez-Zapata (eds.), Plant Comparative Genomics. Methods in Molecular Biology, vol. 2512, p121-152. Humana, New York, NY. doi:10.1007/978-1-0716-2429-6_9.
- Vinuesa P, Contreras-Moreira B. Robust identification of orthologues and paralogues for microbial pan-genomics using GET_HOMOLOGUES: a case study of pIncA/C plasmids. Methods Mol Biol. 2015;1231:203-32
- Freschi L, Vincent AT, Jeukens J, Emond-Rheault JG, Kukavica-Ibrulj I, Dupont MJ, Charette SJ, Boyle B, Levesque RC. The Pseudomonas aeruginosa Pan-Genome Provides New Insights on Its Population Structure, Horizontal Gene Transfer, and Pathogenicity. Genome Biol Evol. 2019 Jan 1;11(1):109-120
- Lecturas recomendadas
- Vinuesa P, Ochoa-Sánchez LE, Contreras-Moreira B. GET_PHYLOMARKERS, a Software Package to Select Optimal Orthologous Clusters for Phylogenomics and Inferring Pan-Genome Phylogenies, Used for a Critical Geno-Taxonomic Revision of the Genus Stenotrophomonas. Front Microbiol. 2018 May 1;9:771