Científicos del CABD (centro mixto Universidad Pablo de Olavide-CSIC-Junta de Andalucía) han desarrollado un programa bioinformático, AnABlast, que identifica fragmentos “fósiles” de genes en los genomas, lo que ayudará a entender la historia evolutiva de cada genoma. El estudio, publicado en la revista DNA Research, permitirá aplicar este nuevo método de análisis al genoma humano.
Nada como leer un libro para comprender su contenido, y en eso anda la biología moderna, en plena euforia literaria leyendo genomas a destajo. Las técnicas actuales de secuenciación de ADN hacen que sean miles las secuencias de genomas completos disponibles para su análisis, y como en los libros, leer la secuencia de ADN es posiblemente la mejor forma de entender la información que contienen.
Un aspecto fundamental para entender la información de un genoma consiste en anotar todos sus genes, y en esa tarea es imprescindible el uso de programas bioinformáticos que identifican dónde comienza y dónde termina cada gen. Se conocen ya tantos millones de genes, que una forma práctica para identificar los genes en un nuevo genoma es buscar la existencia de genes parecidos en otros. Pero cuando hablamos de genes muy diferenciados, sin parecido obvio con otros, o genes donde su comienzo y final no es fácil de delimitar, su búsqueda es difícil y con frecuencia estos genes más complejos y novedosos pasan desapercibidos.
Los investigadores Juan Jiménez y Antonio Pérez-Pulido, del Centro Andaluz de Biología del Desarrollo (Universidad Pablo de Olavide-CSIC-Junta de Andalucía), han desarrollado una nueva estrategia in sílico para encontrar genes y fragmentos “fósiles” de genes en los genomas, incluso cuando esos genes o fragmentos no tengan parecido con otros genes conocidos, o estén tan fragmentados que no se identifiquen inicio y fin de su secuencia codificadora. La estrategia es parecida a la que se usa para descifrar mensajes codificados de los espías. Aunque no se sepa lo que significa, una pequeña secuencia que se encuentra con más frecuencia que el azar en un texto posiblemente es una secuencia que significa algo, y esa idea, aplicada al análisis de la secuencia de un genoma, es lo que le ha permitido a los autores desarrollar un programa bioinformático (AnABlast), que discrimina dónde hay información con significado biológico simplemente por su alta frecuencia en las bases de datos respecto a la frecuencia por azar. Así, AnABlast permite discernir regiones con genes (que codifican proteínas) de las que no.
Los autores han aplicado el nuevo método al genoma completo de la levadura de fisión, y aun siendo uno de los organismos modelo mejor estudiados, el análisis con AnABlast les ha permitido identificar varios genes nuevos que pasaron desapercibidos en