Bueno por medio de este post quiero dar un pequeño tutorial de cómo se puede, a partir de una (s) secuencia (s) de aminoacidos de algún (os) gen (es) de interés realizar una búsqueda de dominios a nivel de proteína.
Pero, primero lo primero. ¿Cuál es la explicación detrás de la búsqueda de dominios en proteínas usando el sitio de Pfam? Pues a continuación lo describiré en palabras suaves y comprensibles.
Para empezar, todas las proteínas poseen una o más regiones funcionales, comúnmente denominadas dominios (domains, en inglés). Por tanto, determinar los dominios presentes así como su orden en la secuencia nos permitiría conocer un poco más sobre su función.
Pfam surgió un como un proyecto el cual contempla la creación de una base de datos de dominios presentes en familias de proteínas. Para lograr esto, Pfam utiliza el principio de múltiples alineamientos de secuencias usando modelos ocultos de Markov (HMMs, por sus siglas en inglés. Les dejo este PAPER para que descargen un pequeño paper que describe que es un HHM y sus aplicaciones).
Un Modelo Oculto de Markov, en resumidas cuentas, forma una base probabilistica por medio de la cual se resuelven problemas complejos. Básicamente se generan dos cadenas de información, la primera es el estado de la ruta subyacente (lo que no vemos, por ello es oculto [hidden]) y segundo, la secuencia observada, es decir el resultado de la transición. Si lo pudieramos ejemplificar con una secuencia de DNA, entonces diríamos que la secuencia observada es un cambio de Adeninda a Guanina, y el estado de la ruta estaría dado por la probabilidad de dicha transición. Otra cosa importante de los HMMs es que los estados actuales no dependen de los anteriores, es decir la probabilidad de cambio de un estado a otro no se ve influenciada por el cambio o estado anterior, así se van construyendo cadenas de Markov, que corresponde precisamente al estado de la ruta subyacente; por último, se dice que es un modelo oculto porque no conocemos el estado anterior, es decir si tenemos dos secuencias de dna que tiene un polimorfismo sólo conocemos el estado actual de cada de ellas, pero no la ruta de cambio de dio origen a dicho polimorfismo.
Regresando a Pfam después de este viaje por Markov, hablaremos de cómo está estructurada la base de datos en general. Pfam database se compone de dos niveles de calidad o control: Pfam-A y Pfam-B. Las primeras son generadas a partir de una base de datos de nombre Pfamseq, la cual se construye a partir de las versiones más recientes de UniProtKB. Cada familia de Pfam-A consiste en un alineamiento base (o seed, como se dice en inglés) debidamente corregido que contiene un pequeño set de miembros representativos de la familia (en este caso familias de proteínas claro está, con sus respectivos dominios), así como un perfil de búsqueda por HMMs construido a partir de esta base y un alineamiento completo automatizado, el cual contiene todas las secuencias de proteínas pertenecientes a dicha familia, definido por búsquedas usando perfiles de HMMs de bases de datos de secuencias primarias.
Las familias Pfam-B son familias no anotadas y de baja calidad, generadas a partir de clústers no redundantes obtenidos de un algoritmo conocido como ADDA que identifica dominios en alineamientos de secuencias de proteínas usando máxima verosimilitud. Este tipo de familias se utilizan cuando no se han reconocido dominios usando búsquedas con Pfam-A.
Las entradas en Pfam se clasifican como:
Familia:
Una colección de proteínas relacionadas
Dominio:
Una unidad estructural que puede ser encontrada en múltiples contextos proteícos.
Repetido:
Una corta unidad que es inestable de manera aislada pero que forma una estructura estable cuando múltiples copias están presentes.
Motivos:
Una corta unidad (secuencia) encontrada fuera de dominios globulares.
La base de datos de Pfam agrupa las entradas en clanes, y su relación puede ser definida por similitud en secuencia, estructura o por el perfil de HMM.
Bien, ahora que ya sabemos lo básico sobre Pfam. Es hora de empezar a trabajar con esta base de datos increible. Por cierto no olviden citarlos si alguna vez llegan a utilizar esta base de datos:
The Pfam protein families database: R.D. Finn, J. Tate, J. Mistry, P.C. Coggill, J.S. Sammut, H.R. Hotz, G. Ceric, K. Forslund, S.R. Eddy, E.L. Sonnhammer and A. Bateman Nucleic Acids Research (2008)Database Issue 36:D281-D288.
Podemos emplear Pfam para hacer una búsqueda de dominios de una, dos o todo un set de secuencias de aminoacidos de interés. Pero además, podemos ver estructuras de proteínas, revisar la clasificación de estas, o inclusive descargar toda la base de datos para búsquedas locales.
Figura 1. Página de inicio de Pfam
En fin, el interes de este post es sólo realizar una búsqueda de dominios usando ya sea una secuencia o un set de secuencias.
Primero, si queremos realizar una búsqueda de dominios de una secuencia, entonces ingresamos a la página de Pfam, y veremos un deplegado como el de la figura 1. De alli damos click en el link que dice "SEQUENCE SEARCH" y aparecerá a un costado derecho una caja de texto donde podemos pegar nuestra secuencia de aminoacidos. Si lo hacemos de esta manera, Pfam por default usa criterios de búsqueda convencionales, como valores de e=1, en cuyo caso seguro encontramos los dominios que buscamos y posiblemente algunos otros con valores muy bajos. En fin, después de meter la secuencia, Pfam nos mandará a una ventana donde nos dice cuál es el avance del trabajo que metimos de búsqueda (figura 2.).
Figura 2. Trabajo en espera
Si queremos buscar dominios en una secuencia, pero usando diferentes criterios como búsqueda local o global, o diferentes valores de e-value, entonces en la página inicial damos click en "SEARCH", localizado en la parte superior central. De alli nos mandará a una página (figura 3.) donde esta el recuadro para pegar la secuencia así como los parámetros que quieran modificar.
Figura 3. Búsqueda personalizada
Le damos luego a "submit" y nos mandará a la página que nos dice cómo va la chamba (figura 2.) y posteriomente nos lanzará a nueva página con los resultados de nuestra búsqueda los cuales se parecerán más o menos a los de la figura 4, donde les muestra los dominios con una figura muy pintorezca, así como una tabla con los valores del alineamiento y de la posición de los dominios en la secuencia, así como los valores de E, y los del alineamiento usando el perfil de HMM.
Figura 4. Resultados de la búsqueda de dominios
Si por otro lado, como en mi caso, tenemos un set de secuencias de aminoacidos de genes de los cuales quisieramos buscar dominios, entonces seleccionaremos una búsqueda avanzada en Pfam. Para ello, dentro de la misma ventana en SEARCH, al lado medio izquierdo hay otras opciones (figura 5.), seleccionamos la que dice "BATCH SEARCH", que de igual manera nos permitirá seleccionar los parámetros y subir el archivo que contiene nuestras secuencias. Ojo: hay que tener las secuencias en formato FASTA.
Figura 5. Batch search
Para este último caso, los resultados serán enviados vía correo electrónico. Y es una tabla que denota todos los parámetros, así como los valores para cada uno de ellos y es más o menos algo así:
Tabla 1. Resultados enviados por correo de la búsqueda de dominos
Espero este post les sirva para cuando quieran realizar búsquedas de dominios en sus secuencias de aminoacidos. Tambien pueden usar SMART, pero en lo personal, Pfam me gusta más por su interfaz y por que es más amigable para realizar búsquedas.
Saludillos!
Pero, primero lo primero. ¿Cuál es la explicación detrás de la búsqueda de dominios en proteínas usando el sitio de Pfam? Pues a continuación lo describiré en palabras suaves y comprensibles.
Para empezar, todas las proteínas poseen una o más regiones funcionales, comúnmente denominadas dominios (domains, en inglés). Por tanto, determinar los dominios presentes así como su orden en la secuencia nos permitiría conocer un poco más sobre su función.
Pfam surgió un como un proyecto el cual contempla la creación de una base de datos de dominios presentes en familias de proteínas. Para lograr esto, Pfam utiliza el principio de múltiples alineamientos de secuencias usando modelos ocultos de Markov (HMMs, por sus siglas en inglés. Les dejo este PAPER para que descargen un pequeño paper que describe que es un HHM y sus aplicaciones).
Un Modelo Oculto de Markov, en resumidas cuentas, forma una base probabilistica por medio de la cual se resuelven problemas complejos. Básicamente se generan dos cadenas de información, la primera es el estado de la ruta subyacente (lo que no vemos, por ello es oculto [hidden]) y segundo, la secuencia observada, es decir el resultado de la transición. Si lo pudieramos ejemplificar con una secuencia de DNA, entonces diríamos que la secuencia observada es un cambio de Adeninda a Guanina, y el estado de la ruta estaría dado por la probabilidad de dicha transición. Otra cosa importante de los HMMs es que los estados actuales no dependen de los anteriores, es decir la probabilidad de cambio de un estado a otro no se ve influenciada por el cambio o estado anterior, así se van construyendo cadenas de Markov, que corresponde precisamente al estado de la ruta subyacente; por último, se dice que es un modelo oculto porque no conocemos el estado anterior, es decir si tenemos dos secuencias de dna que tiene un polimorfismo sólo conocemos el estado actual de cada de ellas, pero no la ruta de cambio de dio origen a dicho polimorfismo.
Regresando a Pfam después de este viaje por Markov, hablaremos de cómo está estructurada la base de datos en general. Pfam database se compone de dos niveles de calidad o control: Pfam-A y Pfam-B. Las primeras son generadas a partir de una base de datos de nombre Pfamseq, la cual se construye a partir de las versiones más recientes de UniProtKB. Cada familia de Pfam-A consiste en un alineamiento base (o seed, como se dice en inglés) debidamente corregido que contiene un pequeño set de miembros representativos de la familia (en este caso familias de proteínas claro está, con sus respectivos dominios), así como un perfil de búsqueda por HMMs construido a partir de esta base y un alineamiento completo automatizado, el cual contiene todas las secuencias de proteínas pertenecientes a dicha familia, definido por búsquedas usando perfiles de HMMs de bases de datos de secuencias primarias.
Las familias Pfam-B son familias no anotadas y de baja calidad, generadas a partir de clústers no redundantes obtenidos de un algoritmo conocido como ADDA que identifica dominios en alineamientos de secuencias de proteínas usando máxima verosimilitud. Este tipo de familias se utilizan cuando no se han reconocido dominios usando búsquedas con Pfam-A.
Las entradas en Pfam se clasifican como:
Familia:
Una colección de proteínas relacionadas
Dominio:
Una unidad estructural que puede ser encontrada en múltiples contextos proteícos.
Repetido:
Una corta unidad que es inestable de manera aislada pero que forma una estructura estable cuando múltiples copias están presentes.
Motivos:
Una corta unidad (secuencia) encontrada fuera de dominios globulares.
La base de datos de Pfam agrupa las entradas en clanes, y su relación puede ser definida por similitud en secuencia, estructura o por el perfil de HMM.
Bien, ahora que ya sabemos lo básico sobre Pfam. Es hora de empezar a trabajar con esta base de datos increible. Por cierto no olviden citarlos si alguna vez llegan a utilizar esta base de datos:
The Pfam protein families database: R.D. Finn, J. Tate, J. Mistry, P.C. Coggill, J.S. Sammut, H.R. Hotz, G. Ceric, K. Forslund, S.R. Eddy, E.L. Sonnhammer and A. Bateman Nucleic Acids Research (2008)Database Issue 36:D281-D288.
Podemos emplear Pfam para hacer una búsqueda de dominios de una, dos o todo un set de secuencias de aminoacidos de interés. Pero además, podemos ver estructuras de proteínas, revisar la clasificación de estas, o inclusive descargar toda la base de datos para búsquedas locales.
En fin, el interes de este post es sólo realizar una búsqueda de dominios usando ya sea una secuencia o un set de secuencias.
Primero, si queremos realizar una búsqueda de dominios de una secuencia, entonces ingresamos a la página de Pfam, y veremos un deplegado como el de la figura 1. De alli damos click en el link que dice "SEQUENCE SEARCH" y aparecerá a un costado derecho una caja de texto donde podemos pegar nuestra secuencia de aminoacidos. Si lo hacemos de esta manera, Pfam por default usa criterios de búsqueda convencionales, como valores de e=1, en cuyo caso seguro encontramos los dominios que buscamos y posiblemente algunos otros con valores muy bajos. En fin, después de meter la secuencia, Pfam nos mandará a una ventana donde nos dice cuál es el avance del trabajo que metimos de búsqueda (figura 2.).
Si queremos buscar dominios en una secuencia, pero usando diferentes criterios como búsqueda local o global, o diferentes valores de e-value, entonces en la página inicial damos click en "SEARCH", localizado en la parte superior central. De alli nos mandará a una página (figura 3.) donde esta el recuadro para pegar la secuencia así como los parámetros que quieran modificar.
Le damos luego a "submit" y nos mandará a la página que nos dice cómo va la chamba (figura 2.) y posteriomente nos lanzará a nueva página con los resultados de nuestra búsqueda los cuales se parecerán más o menos a los de la figura 4, donde les muestra los dominios con una figura muy pintorezca, así como una tabla con los valores del alineamiento y de la posición de los dominios en la secuencia, así como los valores de E, y los del alineamiento usando el perfil de HMM.
Si por otro lado, como en mi caso, tenemos un set de secuencias de aminoacidos de genes de los cuales quisieramos buscar dominios, entonces seleccionaremos una búsqueda avanzada en Pfam. Para ello, dentro de la misma ventana en SEARCH, al lado medio izquierdo hay otras opciones (figura 5.), seleccionamos la que dice "BATCH SEARCH", que de igual manera nos permitirá seleccionar los parámetros y subir el archivo que contiene nuestras secuencias. Ojo: hay que tener las secuencias en formato FASTA.
Para este último caso, los resultados serán enviados vía correo electrónico. Y es una tabla que denota todos los parámetros, así como los valores para cada uno de ellos y es más o menos algo así:
Espero este post les sirva para cuando quieran realizar búsquedas de dominios en sus secuencias de aminoacidos. Tambien pueden usar SMART, pero en lo personal, Pfam me gusta más por su interfaz y por que es más amigable para realizar búsquedas.
Saludillos!
0 comentarios:
Publicar un comentario