El rincón natural

viernes, 30 de octubre de 2009

Introducing...

Bueno, les dejo en este post una imagen de mi nuevo widget de comentarios, aquí pueden dejar sus sugerencias acerca del blog, ya sea cosas de estética, algo que le falte o simplemente quejas o comentarios ajenos a cualquiera de las entradas que he escrito a la fecha, así no gastarán cartuchos escribiendo comentarios que no se relacionen a las entradas del blog.



Sólo ocupan poner su correo, nombre (o nickname) y si quieren el lugar donde se encuentran, luego ponen su comentario y ponen una clave de letras (la parte más difícil) y listo: los comentarios se van apilando uno tras otro y pueden checar todos allí mismo.

Espero la usen y dejen sus comentarios y sugerencias extra-entradas.

Saludillos!

miércoles, 28 de octubre de 2009

Nothing even little is useless... even in DNA

This is my first english-type post, so I hope you enjoy.

Figure 1.click on the image to get the abstract

It was so far accepted that dna-interacting proteins have to recognize some motifs within the DNA sequences that enable this interaction to be specific. It's been known that a DNA molecule is compose of two antiparallel strands that takes a defined tridimensional conformation and possesses two grooves within the molecule called the major groove and the minor groove. A particular sequence of nucleotide letters presents a unique array of hydrogen-bond donors and acceptors in the major groove, providing a clear mechanism for reading that sequence.


Recently, in a paper published in Nature the authors propose that not only the major groove but also the minor groove is responsible for dna-protein interaction due to the defined structure in the minor groove. Lets explain this in the next paragraph.

The width in the minor groove can vary depending on which nucleotides are present in segment of DNA. When the minor groove is narrow, the electric-field lines due to the negatively charged phosphates are focused into the groove, leading to a enhanced electrostatic potential within it (figure 2), allowing for residues like arginine present in the protein to interact with the minor groove. The authors also found that there are motifs of DNA sequences that results in a narrow minor groove, specially the so-called A-tracks (short runs of Adenine nucleotides) which have been implicated in DNA structure and nucleosome recognition.

Figure 2.The minor groove is directly involved in dna recognition.


In the paper cited above, it was used a equation to resolve the electrostatic potential of the minor groove and the difficulty of using this equation is that it requires high-resolution three-dimensional structures of proteins-DNA complexes.

After all, I encourage you to read the paper since it looks quite interesting, because, as many of the recent-published papers within the last months, this one shows us again that there are many stuff hidden in the DNA, waiting to be discovered.

Espero le entiendan, de cualquier forma les dejé los links para el paper y el comentario sobre éste (Figura 1).

Saludillos!!

lunes, 26 de octubre de 2009

Cómo hacer búsquedas en Pfam

Bueno por medio de este post quiero dar un pequeño tutorial de cómo se puede, a partir de una (s) secuencia (s) de aminoacidos de algún (os) gen (es) de interés realizar una búsqueda de dominios a nivel de proteína.

Pero, primero lo primero. ¿Cuál es la explicación detrás de la búsqueda de dominios en proteínas usando el sitio de Pfam? Pues a continuación lo describiré en palabras suaves y comprensibles.

Para empezar, todas las proteínas poseen una o más regiones funcionales, comúnmente denominadas dominios (domains, en inglés). Por tanto, determinar los dominios presentes así como su orden en la secuencia nos permitiría conocer un poco más sobre su función.

Pfam surgió un como un proyecto el cual contempla la creación de una base de datos de dominios presentes en familias de proteínas. Para lograr esto, Pfam utiliza el principio de múltiples alineamientos de secuencias usando modelos ocultos de Markov (HMMs, por sus siglas en inglés. Les dejo este PAPER para que descargen un pequeño paper que describe que es un HHM y sus aplicaciones).

Un Modelo Oculto de Markov, en resumidas cuentas, forma una base probabilistica por medio de la cual se resuelven problemas complejos. Básicamente se generan dos cadenas de información, la primera es el estado de la ruta subyacente (lo que no vemos, por ello es oculto [hidden]) y segundo, la secuencia observada, es decir el resultado de la transición. Si lo pudieramos ejemplificar con una secuencia de DNA, entonces diríamos que la secuencia observada es un cambio de Adeninda a Guanina, y el estado de la ruta estaría dado por la probabilidad de dicha transición. Otra cosa importante de los HMMs es que los estados actuales no dependen de los anteriores, es decir la probabilidad de cambio de un estado a otro no se ve influenciada por el cambio o estado anterior, así se van construyendo cadenas de Markov, que corresponde precisamente al estado de la ruta subyacente; por último, se dice que es un modelo oculto porque no conocemos el estado anterior, es decir si tenemos dos secuencias de dna que tiene un polimorfismo sólo conocemos el estado actual de cada de ellas, pero no la ruta de cambio de dio origen a dicho polimorfismo.

Regresando a Pfam después de este viaje por Markov, hablaremos de cómo está estructurada la base de datos en general. Pfam database se compone de dos niveles de calidad o control: Pfam-A y Pfam-B. Las primeras son generadas a partir de una base de datos de nombre Pfamseq, la cual se construye a partir de las versiones más recientes de UniProtKB. Cada familia de Pfam-A consiste en un alineamiento base (o seed, como se dice en inglés) debidamente corregido que contiene un pequeño set de miembros representativos de la familia (en este caso familias de proteínas claro está, con sus respectivos dominios), así como un perfil de búsqueda por HMMs construido a partir de esta base y un alineamiento completo automatizado, el cual contiene todas las secuencias de proteínas pertenecientes a dicha familia, definido por búsquedas usando perfiles de HMMs de bases de datos de secuencias primarias.

Las familias Pfam-B son familias no anotadas y de baja calidad, generadas a partir de clústers no redundantes obtenidos de un algoritmo conocido como ADDA que identifica dominios en alineamientos de secuencias de proteínas usando máxima verosimilitud. Este tipo de familias se utilizan cuando no se han reconocido dominios usando búsquedas con Pfam-A.

Las entradas en Pfam se clasifican como:

Familia:
Una colección de proteínas relacionadas

Dominio:
Una unidad estructural que puede ser encontrada en múltiples contextos proteícos.

Repetido:
Una corta unidad que es inestable de manera aislada pero que forma una estructura estable cuando múltiples copias están presentes.

Motivos:
Una corta unidad (secuencia) encontrada fuera de dominios globulares.

La base de datos de Pfam agrupa las entradas en clanes, y su relación puede ser definida por similitud en secuencia, estructura o por el perfil de HMM.

Bien, ahora que ya sabemos lo básico sobre Pfam. Es hora de empezar a trabajar con esta base de datos increible. Por cierto no olviden citarlos si alguna vez llegan a utilizar esta base de datos:

The Pfam protein families database: R.D. Finn, J. Tate, J. Mistry, P.C. Coggill, J.S. Sammut, H.R. Hotz, G. Ceric, K. Forslund, S.R. Eddy, E.L. Sonnhammer and A. Bateman Nucleic Acids Research (2008)Database Issue 36:D281-D288.

Podemos emplear Pfam para hacer una búsqueda de dominios de una, dos o todo un set de secuencias de aminoacidos de interés. Pero además, podemos ver estructuras de proteínas, revisar la clasificación de estas, o inclusive descargar toda la base de datos para búsquedas locales.

Figura 1. Página de inicio de Pfam

En fin, el interes de este post es sólo realizar una búsqueda de dominios usando ya sea una secuencia o un set de secuencias.

Primero, si queremos realizar una búsqueda de dominios de una secuencia, entonces ingresamos a la página de Pfam, y veremos un deplegado como el de la figura 1. De alli damos click en el link que dice "SEQUENCE SEARCH" y aparecerá a un costado derecho una caja de texto donde podemos pegar nuestra secuencia de aminoacidos. Si lo hacemos de esta manera, Pfam por default usa criterios de búsqueda convencionales, como valores de e=1, en cuyo caso seguro encontramos los dominios que buscamos y posiblemente algunos otros con valores muy bajos. En fin, después de meter la secuencia, Pfam nos mandará a una ventana donde nos dice cuál es el avance del trabajo que metimos de búsqueda (figura 2.).

Figura 2. Trabajo en espera

Si queremos buscar dominios en una secuencia, pero usando diferentes criterios como búsqueda local o global, o diferentes valores de e-value, entonces en la página inicial damos click en "SEARCH", localizado en la parte superior central. De alli nos mandará a una página (figura 3.) donde esta el recuadro para pegar la secuencia así como los parámetros que quieran modificar.

Figura 3. Búsqueda personalizada

Le damos luego a "submit" y nos mandará a la página que nos dice cómo va la chamba (figura 2.) y posteriomente nos lanzará a nueva página con los resultados de nuestra búsqueda los cuales se parecerán más o menos a los de la figura 4, donde les muestra los dominios con una figura muy pintorezca, así como una tabla con los valores del alineamiento y de la posición de los dominios en la secuencia, así como los valores de E, y los del alineamiento usando el perfil de HMM.

Figura 4. Resultados de la búsqueda de dominios

Si por otro lado, como en mi caso, tenemos un set de secuencias de aminoacidos de genes de los cuales quisieramos buscar dominios, entonces seleccionaremos una búsqueda avanzada en Pfam. Para ello, dentro de la misma ventana en SEARCH, al lado medio izquierdo hay otras opciones (figura 5.), seleccionamos la que dice "BATCH SEARCH", que de igual manera nos permitirá seleccionar los parámetros y subir el archivo que contiene nuestras secuencias. Ojo: hay que tener las secuencias en formato FASTA.

Figura 5. Batch search


Para este último caso, los resultados serán enviados vía correo electrónico. Y es una tabla que denota todos los parámetros, así como los valores para cada uno de ellos y es más o menos algo así:

Tabla 1. Resultados enviados por correo de la búsqueda de dominos


Espero este post les sirva para cuando quieran realizar búsquedas de dominios en sus secuencias de aminoacidos. Tambien pueden usar SMART, pero en lo personal, Pfam me gusta más por su interfaz y por que es más amigable para realizar búsquedas.

Saludillos!


Un poco de humor...



Saludillos!

Nature

Science

Molecular Biology and Evolution - current issue

Genes & Development