CDD: La Base De Datos De Dominios Proteicos

★★★★★Valoración: 4.22 (2109 votos)

La Base de Datos de Dominios Conservados (CDD) del NCBI (National Center for Biotechnology Information) es una colección fundamental en el campo de la bioinformática, dedicada al estudio y la clasificación de las proteínas. Su propósito principal es proporcionar una anotación detallada de secuencias proteicas y de nucleótidos traducidos, identificando la ubicación de los dominios proteicos y los sitios funcionales asociados. Esta información es crucial para definir la arquitectura de dominio de una proteína, lo que a su vez sirve de base para asignar nombres a productos génicos y predecir sus funciones putativas.

Bases de datos de dominios y motivos peptídicos

CDD ha sido un recurso público durante más de dos décadas, creciendo significativamente a lo largo del tiempo. Mantener y actualizar esta vasta cantidad de información es un desafío constante, pero esencial para seguir el ritmo del descubrimiento genómico y proteómico.

¿Qué significa — NXDOMAIN (Dominio inexistente): Significa que el nombre de dominio consultado no existe.

¿Qué son los Dominios Conservados?

Los dominios conservados son unidades estructurales y funcionales que se encuentran en diferentes proteínas a lo largo de la evolución. Piensa en ellos como "módulos" que las proteínas pueden combinar para realizar diversas tareas. CDD recopila estos módulos en forma de modelos de dominios y familias proteicas, construidos a partir de alineamientos de secuencias múltiples. Un alineamiento de secuencias múltiples compara secuencias de proteínas relacionadas para identificar regiones que se han mantenido similares (conservadas) a lo largo del tiempo evolutivo, lo que sugiere una importancia funcional o estructural.

El objetivo de CDD es tener un conjunto completo de estos modelos para cubrir una amplia porción del espacio proteico. Aunque la colección puede tener cierta redundancia para asegurar una buena cobertura, los modelos que anotan de manera similar se agrupan en superfamilias de dominios proteicos. Cuando la anotación de un dominio específico no alcanza ciertos umbrales de puntuación, CDD puede reportar la anotación de la superfamilia en su lugar, proporcionando información más general pero aún útil.

Composición y Crecimiento de CDD

CDD no es una colección de secuencias en sí misma, sino una base de datos de modelos que enriquece la anotación funcional de las colecciones de secuencias existentes. La versión v3.20 de CDD, por ejemplo, contenía 59,693 modelos de proteínas y dominios proteicos. Estos modelos provienen de diversas bases de datos externas y de la propia labor de curación interna del NCBI. Las fuentes principales incluyen:

Pfam: Una gran colección de familias proteicas representadas por alineamientos de secuencias múltiples e HMMs (Modelos Ocultos de Markov).
SMART: Una base de datos de dominios proteicos, dominios de arquitectura y regiones repetidas en proteínas.
COGs: Grupos de Ortológicos de Proteínas, que clasifican proteínas de genomas completos.
TIGRFAMs: Una colección de modelos HMM de alta calidad para la anotación de familias de proteínas.
NCBI Protein Clusters: Agrupaciones de secuencias de proteínas similares.
NCBIfam: Modelos curados internamente por el NCBI.
Curación interna de CDD: Modelos nuevos o actualizados creados por el personal de CDD.

La siguiente tabla muestra la composición de la versión v3.20 de CDD, destacando la diversidad de sus fuentes:

Fuente de Datos	Versión	Número de Modelos
Pfam	34	19,178
Curación interna CDD	3.20	18,882
Protein Clusters (25 Oct 2021)		10,140
COGs	1	4,871
TIGRFAM	15	4,488
NCBIfams (25 Oct 2021)		1,125
SMART	6*	1,009
CDD superfamily clusters	3.20	4,541

Cada una de estas fuentes tiene sus propios enfoques y coberturas, lo que contribuye a la exhaustividad de CDD. Sin embargo, el rápido crecimiento de las colecciones de secuencias y los recursos de curación limitados plantean desafíos continuos para mantener la base de datos completamente actualizada.

Curación y Clasificación Jerárquica

El personal de curación de CDD desempeña un papel vital en la organización y expansión de la base de datos. Una de sus tareas importantes es construir clasificaciones jerárquicas para grandes familias de dominios proteicos. Esto implica organizar los modelos en estructuras anidadas, donde los modelos más específicos se agrupan bajo modelos más generales (superfamilias). Estas clasificaciones se revisan periódicamente a medida que se dispone de nueva información, como la identificación de nuevas familias o la determinación de estructuras 3D que pueden sugerir ajustes en los alineamientos de secuencias.

La curación también se enfoca en añadir modelos para nuevas familias de dominios, a menudo identificadas a través de la vigilancia de la 'materia oscura' proteica: secuencias que actualmente carecen de anotación. Al agrupar estas secuencias no anotadas y crear modelos para clústeres relevantes (por ejemplo, aquellos con estructuras 3D conocidas o asociados a publicaciones), CDD expande su cobertura y proporciona información funcional, incluso si es genérica, para proteínas previamente no caracterizadas.

Además de clasificar dominios, los curadores de CDD dedican un esfuerzo considerable a proporcionar nombres y atribuciones para las arquitecturas de dominio conservadas. Más de 4700 modelos curados por el equipo de CDD han sido publicados o actualizados recientemente. También hay anotaciones de sitios funcionales disponibles en una gran cantidad de modelos curados, indicando posiciones específicas dentro del dominio que son importantes para su función.

A continuación, se muestran algunas de las jerarquías de familias de dominios más grandes creadas o actualizadas recientemente en CDD:

Raíz	Modelos	Nombre de la Superfamilia
cd14964	592	Receptor acoplado a proteína G de siete dominios transmembrana
cd00590	586	Motivo de reconocimiento de ARN (RRM)
cd13968	585	Dominio catalítico de la superfamilia de Proteína Quinasa
cd00162	417	Dominio RING finger y dominio U-box
cd00174	328	Dominio Src Homology 3
cd00900	327	Dominio Pleckstrin homology-like
cd00196	311	Pliegue tipo beta-grasp similar a ubiquitina
cd00096	291	Dominio de inmunoglobulina
cd01165	242	Dominio BTB/POZ
cd00648	239	Pliegue de unión periplásmica tipo 2
cd15489	221	Dominio PHD finger
cd00083	202	Dominio básico Helix Loop Helix (bHLH)
cd01391	191	Pliegue de unión periplásmica tipo 1
cd06174	185	Superfamilia del Facilitador Mayor
cd14494	171	Tirosina fosfatasa proteica basada en Cys y superfamilia de fosfatasa de doble especificidad
cd17912	170	Dominio helicasa N-terminal de la superfamilia de helicasas DEAD-box
cd08368	159	Dominio LIM
cd00014	158	Dominio calponin homology (CH)
cd00194	157	Superfamilia UBA domain-like
cd00105	153	Dominio de unión a ARN K homology (KH), tipo I

Optimización del Proceso de Búsqueda

La eficiencia en la búsqueda es clave dada la creciente cantidad de datos. CDD utiliza el algoritmo RPS-BLAST para comparar secuencias de consulta con su base de datos de modelos. Para mejorar el rendimiento, se han implementado umbrales de puntuación por palabra específicos para cada modelo. Anteriormente, se usaba un umbral uniforme, pero este enfoque implicaba una compensación entre velocidad y sensibilidad. Al optimizar los umbrales para cada modelo, se puede acelerar significativamente el tiempo de búsqueda (aproximadamente por un factor de 3) sin afectar negativamente la precisión de la anotación de dominio concisa. Esto es fundamental para seguir proporcionando resultados precalculados a pesar del rápido crecimiento de las bases de datos de secuencias.

¿Cómo puedo saber si un dominio está disponible en Chile? — Para buscar información de un nombre de dominio en . CL, existe la herramienta WHOIS. Además desde esa misma página hay acceso a listados de últimos dominios inscritos.

Arquitecturas de Dominio SPARCLE

La arquitectura de dominio de una proteína se define como la lista secuencial de uno o más dominios conservados encontrados en ella, desde el extremo N-terminal al C-terminal. SPARCLE (Subfamily Protein Architecture Labeling Engine) es una herramienta que agrupa proteínas basándose en su arquitectura de dominio.

SPARCLE considera tanto arquitecturas de dominio específicas como de superfamilia. Las arquitecturas de superfamilia agrupan proteínas que tienen coincidencias significativas con uno o más dominios, incluso si estas coincidencias no alcanzan los umbrales de puntuación más altos (considerados 'específicos'). Las arquitecturas de dominio específicas tienden a agrupar proteínas más estrechamente relacionadas y se les pueden asignar nombres y descripciones funcionales más precisas.

Los curadores de CDD han revisado y asignado nombres y etiquetas funcionales a decenas de miles de arquitecturas bien representadas. Este trabajo es crucial para el nombramiento automatizado de proteínas en recursos como RefSeq y el Prokaryotic Genome Annotation Pipeline (PGAP) del NCBI. SPARCLE permite asignar nombres basados en evidencia a millones de proteínas bacterianas en RefSeq.

Además, CDD ahora proporciona atribución a las arquitecturas de dominio conservadas. Estas atribuciones se pueden mapear a secuencias miembro individuales de la arquitectura y provienen de diversas fuentes:

Citas (IDs de PubMed)
Números E.C. (para enzimas)
Términos GO (Gene Ontology)
Símbolos génicos
Identificadores TCDB (Transporter Classification Database)
Identificadores CAZy (Carbohydrate-Active Enzyme database)
Identificadores MEROPS (para peptidasas)
Identificadores SCOP y/o CATH (clasificaciones de estructura proteica 3D)

Estas atribuciones, validadas por el personal de curación, enriquecen la información disponible para cada arquitectura y son visibles en los resultados de búsqueda.

Acceso y Herramientas

CDD es accesible públicamente a través de varias interfaces y herramientas proporcionadas por el NCBI:

URL/Recurso	Descripción
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi	Interfaz CD-Search para buscar dominios conservados usando RPS-BLAST.
https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi	Interfaz BATCH CD-Search para búsquedas masivas de secuencias (hasta 1000 consultas).
https://www.ncbi.nlm.nih.gov/cdd	Interfaz de búsqueda Entrez para CDD.
https://ftp.ncbi.nih.gov/pub/mmdb/cdd	Sitio FTP de CDD para descargar datos.
https://www.ncbi.nlm.nih.gov/BLAST/download.shtml	Sitio para descargar la herramienta RPS-BLAST para búsquedas locales.
https://www.ncbi.nlm.nih.gov/protfam	Interfaz Entrez para la colección Protein Families, incluyendo arquitecturas SPARCLE.
https://ftp.ncbi.nlm.nih.gov/pub/mmdb/cdd/rpsbproc	Utilidad independiente para formatear y enriquecer resultados de RPS-BLAST local.
https://ftp.ncbi.nlm.nih.gov/pub/mmdb/cdd/SparcleLabel/	Utilidad independiente para nombrar proteínas usando SPARCLE.

Además de las interfaces web, CDD proporciona bases de datos formateadas para RPS-BLAST, permitiendo a los usuarios ejecutar búsquedas de dominios conservados localmente. Herramientas como rpsbproc y sparclbl ayudan a procesar estos resultados locales y a aplicar la lógica de anotación y nombramiento de CDD/SPARCLE.

CDD y el SARS-CoV-2

Un ejemplo notable de la relevancia y la capacidad de respuesta de CDD es su trabajo en la anotación de las proteínas del SARS-CoV-2. A principios de 2020, se lanzaron y actualizaron rápidamente versiones de CDD para incluir modelos curados específicamente para proporcionar una anotación completa de estas proteínas virales. Este esfuerzo resultó en una clasificación detallada del dominio catalítico conservado de la ARN polimerasa dependiente de ARN (RdRp) de los virus de ARN monocatenario de sentido positivo y virus relacionados, disponible bajo el acceso raíz cd23167. Esto demuestra cómo CDD puede adaptarse para abordar necesidades urgentes en la investigación biomédica.

Preguntas Frecuentes (FAQ)

¿Qué información proporciona CDD sobre una secuencia proteica?

CDD anota la ubicación de los dominios conservados dentro de la secuencia, los sitios funcionales asociados a esos dominios y define la arquitectura de dominio de la proteína. También puede proporcionar información de superfamilia si una coincidencia específica es débil y, para arquitecturas curadas, ofrece nombres, descripciones funcionales y atribuciones (citas, números EC, términos GO, etc.).

¿Cuántas clases de dominio hay? — Los dominios se dividen en tres grupos: Dominios de Nivel Superior Genéricos (gTLD, generic Top-Level Domain) Dominios de Nivel Superior Geográfico (ccTLD, country code Top-Level Domain) Dominios de Tercer Nivel.

¿Cuál es la diferencia entre un dominio conservado y una superfamilia de dominios?

Un dominio conservado es una unidad estructural/funcional específica. Una superfamilia de dominios agrupa modelos de dominios que, aunque no idénticos, tienen una relación evolutiva detectable y proporcionan anotaciones significativamente superpuestas. La superfamilia representa un nivel de clasificación más amplio.

¿Cómo se utiliza la arquitectura de dominio en CDD?

La arquitectura de dominio (la secuencia de dominios en una proteína) se utiliza para agrupar proteínas funcionalmente similares (a través de SPARCLE) y para asignar nombres y predicciones funcionales a las proteínas, especialmente en pipelines de anotación de genomas como PGAP.

¿De dónde obtiene CDD sus modelos de dominios?

CDD integra modelos de varias bases de datos externas reconocidas como Pfam, SMART, COGs, TIGRFAMs, NCBI Protein Clusters y NCBIfam, además de modelos desarrollados y curados internamente por el personal de CDD.

¿Puedo usar las herramientas de CDD en mi propio ordenador?

Sí, el NCBI proporciona la herramienta RPS-BLAST como parte de su distribución de software BLAST, junto con las bases de datos de modelos pre-formateadas de CDD. También hay utilidades independientes como rpsbproc y sparclbl disponibles para procesar los resultados de búsqueda localmente.

¿Cómo contribuye CDD a la anotación de genomas?

CDD, a través de SPARCLE y la curación de arquitecturas de dominio, es una fuente clave de evidencia para el nombramiento automatizado de proteínas en pipelines de anotación de genomas, como el PGAP del NCBI, mejorando la calidad y consistencia de las anotaciones proteicas en grandes conjuntos de datos genómicos.

Conclusión

CDD representa un recurso invaluable para la investigación en biología molecular y bioinformática. Al centralizar y curar información sobre dominios proteicos y sus arquitecturas, facilita la comprensión de la función, evolución y clasificación de las proteínas. El continuo esfuerzo en la curación, la incorporación de nuevos modelos, la optimización de las herramientas de búsqueda y el apoyo a la anotación de genomas aseguran que CDD siga siendo una herramienta esencial en la era de los datos genómicos masivos. El compromiso con la sostenibilidad y la mejora constante de la cobertura y precisión son los principales objetivos de CDD, permitiendo a los investigadores desvelar los secretos codificados en las secuencias proteicas.

Si quieres conocer otros artículos parecidos a CDD: La Base de Datos de Dominios Proteicos puedes visitar la categoría Bases de datos.

Ivan

Soy un entusiasta de la tecnología con especialización en bases de datos, particularmente en MySQL. A través de mis tutoriales detallados, busco desmitificar los conceptos complejos y proporcionar soluciones prácticas a los desafíos cotidianos relacionados con la gestión de datos

Aprende mas sobre MySQL