En el vasto universo de la información científica, contar con recursos fiables y accesibles es fundamental. PubChem, una base de datos química pública gestionada por la Biblioteca Nacional de Medicina (NLM), parte de los Institutos Nacionales de Salud (NIH) de Estados Unidos, se ha consolidado como una herramienta indispensable tanto para la comunidad científica como para el público en general. Su misión es recopilar información química de una multitud de fuentes y ponerla a disposición de todos de forma totalmente gratuita.

Con millones de usuarios únicos interactivos al mes, PubChem se posiciona como uno de los sitios web de química más visitados del mundo. Sirve como un recurso clave en diversas áreas de la investigación biomédica, incluyendo la quimioinformática, la biología química, la química medicinal y el descubrimiento de fármacos. Además, su gran volumen de datos la convierte en una fuente esencial para estudios avanzados de aprendizaje automático y ciencia de datos, aplicada a tareas como el cribado virtual, el reposicionamiento de fármacos, la predicción de toxicidad química, la predicción de efectos secundarios y la identificación de metabolitos, entre otros.
Estructura y Contenido de Datos
PubChem organiza su vasta cantidad de información en tres bases de datos principales, cada una con un propósito específico para garantizar la integridad y la accesibilidad de los datos.
Base de Datos Substance (Sustancia): Es un repositorio que archiva los datos químicos tal como son proporcionados por los depositantes. Contiene descripciones de sustancias tal cual fueron enviadas, lo que puede incluir mezclas, formulaciones o materiales específicos, incluso si no tienen una estructura química única y bien definida. A agosto de 2020, albergaba más de 293 millones de descripciones de sustancias.
Base de Datos Compound (Compuesto): Almacena estructuras químicas únicas extraídas de la base de datos Substance. Si múltiples depositantes envían la misma estructura química, esta se representa una sola vez en la base de datos Compound, pero vinculada a todas las sustancias correspondientes. Esta base es fundamental para la búsqueda y análisis de estructuras moleculares. A agosto de 2020, superaba los 111 millones de estructuras de compuestos únicos.
Base de Datos BioAssay (Bioensayo): Contiene descripciones de ensayos biológicos y los resultados de las pruebas asociadas a ellos. Permite a los investigadores entender cómo las sustancias o compuestos interactúan con sistemas biológicos. A agosto de 2020, disponía de más de 271 millones de puntos de datos de bioactividad provenientes de 1.2 millones de experimentos de ensayos biológicos.
Además de estas bases de datos centrales, PubChem proporciona vistas alternativas de los datos a través de páginas dedicadas a genes, proteínas, rutas biológicas (pathways) y patentes, ofreciendo un contexto más amplio para la información química y biológica.
Actualizaciones y Nuevas Fuentes de Datos
En los últimos años, PubChem ha experimentado mejoras sustanciales, integrando datos de más de 100 nuevas fuentes. Estas adiciones han enriquecido enormemente el alcance y la utilidad de la base de datos, mejorando la capacidad de encontrar, acceder, interoperar y reutilizar (FAIR) la información.
Colección de Datos sobre COVID-19
En respuesta a la pandemia de enfermedad por coronavirus 2019 (COVID-19), PubChem creó una colección de datos especial y de acceso rápido relacionada con COVID-19 y el SARS-CoV-2. Esta colección integra datos de diversas fuentes autorizadas, incluyendo bases de datos de NCBI (RefSeq, Gene, Protein, Structure, GenBank, ClinicalTrials.gov) y recursos externos como UniProt, RCSB Protein Data Bank (PDB), IUPHAR/BPS Guide to PHARMACOLOGY, WikiPathways, DrugBank, COVID-19 Disease Map y el Registro Europeo de Ensayos Clínicos. Esta iniciativa subraya la agilidad de PubChem para responder a las necesidades urgentes de la investigación global.
Enlaces a Literatura Química (Thieme Chemistry)
La integración de datos de Thieme Chemistry ha añadido más de 1.35 millones de enlaces entre sustancias químicas y artículos científicos que las mencionan. Esta colaboración ha sido particularmente valiosa porque muchos de estos artículos se centran en la síntesis química y a menudo no se encuentran en bases de datos biomédicas como PubMed. La adición de estos enlaces ha aumentado drásticamente la cantidad de estructuras químicas con vínculos a literatura relevante, mejorando la visibilidad de la información relacionada con la síntesis.
Enlaces a Propiedades Moleculares (SpringerMaterials)
Para miles de compuestos, PubChem ahora ofrece enlaces a cientos de propiedades químicas y físicas relevantes para la ciencia de materiales y campos afines, disponibles a través de SpringerMaterials. Estos enlaces permiten a los usuarios acceder rápidamente a datos detallados sobre las propiedades de los materiales y la literatura asociada, facilitando la investigación en estas áreas.
Enlaces a Patentes (WIPO PATENTSCOPE)
La Organización Mundial de la Propiedad Intelectual (WIPO) ha contribuido con millones de estructuras químicas buscables en su base de datos de patentes, PATENTSCOPE. PubChem proporciona enlaces directos a PATENTSCOPE para estas estructuras, lo que permite a los usuarios encontrar documentos de patentes relevantes para una estructura química específica y analizar los resultados utilizando las herramientas de PATENTSCOPE. Esta integración simplifica la búsqueda de información de patentes para químicos.
Migración de ToxNet
Tras la retirada de ToxNet, una colección de bases de datos de NLM sobre información toxicológica, PubChem ahora aloja datos de toxicología química de varias de sus bases, incluyendo CCRIS, Gene-Tox y HSDB. La información textual de HSDB, ChemIDplus, LactMed y LiverTox se ha integrado como anotaciones en los registros de compuestos. Los resultados de pruebas de toxicidad de CCRIS y Gene-Tox se archivan como registros de bioensayos y sustancias. Esta migración consolida información crucial sobre seguridad y toxicidad química dentro de PubChem.
Interfaces Web y Nuevos Servicios
Para mejorar la experiencia del usuario, la página de inicio de PubChem y las páginas dedicadas a registros individuales han sido rediseñadas. Las nuevas páginas utilizan diseño adaptable (responsive), lo que garantiza que se visualicen correctamente tanto en pantallas grandes (ordenadores de escritorio) como en dispositivos móviles (tabletas y teléfonos inteligentes). Además, se introdujeron temas de color para diferentes colecciones, ayudando a los usuarios a identificar el tipo de información que están viendo.

Búsqueda Mejorada
La nueva página de inicio de PubChem presenta una caja de búsqueda única que permite a los usuarios buscar simultáneamente en múltiples colecciones (compuestos, sustancias, bioensayos, genes, proteínas, rutas, artículos científicos, patentes) con una sola consulta de texto. También acepta consultas de estructuras químicas, permitiendo búsquedas de identidad, similitud, subestructura y superestructura. Las estructuras pueden introducirse como cadenas SMILES o InChI, o dibujarse usando el PubChem Sketcher.
Paneles de Conocimiento
Se han introducido Paneles de Conocimiento para ayudar a los usuarios a identificar rápidamente relaciones importantes entre sustancias químicas, genes y enfermedades. Estos paneles muestran una lista de entidades (químicos, genes o enfermedades) que se mencionan con mayor frecuencia junto con un químico o gen dado en artículos científicos de PubMed. Esta característica se basa en análisis estadísticos de co-ocurrencia y facilita la exploración de conexiones relevantes.
Página de Vista de Rutas Biológicas (Pathway)
Las páginas de Rutas de PubChem proporcionan información sobre sustancias químicas, proteínas, genes y enfermedades involucradas o asociadas con una ruta biológica específica. Estos registros se integran de recursos de rutas existentes (como Reactome, PathBank, etc.). Las páginas de rutas sustituyen a la base de datos BioSystems de NCBI y son completamente buscables dentro de PubChem.
Tabla Periódica y Páginas de Elementos
Se han introducido la Tabla Periódica y las Páginas de Elementos de PubChem para ayudar a los usuarios a navegar por los abundantes datos de elementos químicos. Estas páginas sirven como un punto de entrada conveniente para explorar contenido adicional en PubChem, como actividades biológicas y datos de salud y seguridad para elementos e isótopos específicos. Los datos elementales se integran de fuentes autorizadas y artículos científicos, y están disponibles para descarga y acceso programático.
Acceso Programático y Modelo de Datos
PubChem ofrece varias rutas de acceso programático a sus datos, incluyendo PUG-REST y PUG-View. PUG-View, una interfaz REST-style, proporciona la información necesaria para renderizar las páginas web interactivas, pero también permite el acceso programático a anotaciones químicas y resúmenes. En 2019, se realizaron cambios importantes en el modelo de datos para los objetos JSON/XML devueltos por el servidor PUG-View. Aunque estos cambios no afectan directamente a los usuarios web, los usuarios programáticos deben actualizar sus programas para recuperar e interpretar correctamente los datos de PUG-View.
Ejemplos de Tipos de Registros en PubChem
PubChem organiza la información de diversas maneras para facilitar el acceso. La siguiente tabla muestra algunos ejemplos de los tipos de registros y cómo se identifican:
| Tipo de Registro | Ejemplo de ID |
|---|---|
| Compuesto | CID 1983 (ibuprofeno) |
| Sustancia | SID 138460 |
| BioEnsayo | AID 248 |
| Gen | Gene ID 1956 (EGFR) |
| Proteína | Accession P00533 |
| Ruta (Pathway) | Reactome ID R-BTA-177929 |
| Patente | US7651687 |
| Bioactividad (Combinación) | AID 248 & SID 553777 |
Preguntas Frecuentes sobre PubChem
Aquí respondemos algunas preguntas comunes sobre PubChem:
¿Qué información encuentro en PubChem?
PubChem contiene información detallada sobre sustancias químicas, compuestos (estructuras únicas), resultados de ensayos biológicos (bioactividad), datos toxicológicos, enlaces a literatura científica, información de patentes, propiedades físico-químicas, datos sobre genes y proteínas asociados a sustancias, y rutas biológicas en las que participan.
¿Quién puede usar PubChem?
PubChem está diseñado para ser utilizado por una amplia audiencia, desde investigadores científicos en áreas como química, biología y medicina, hasta educadores, estudiantes y el público en general interesado en información química.
¿Es PubChem gratuito?
Sí, todos los datos, herramientas y servicios de PubChem se proporcionan al público de forma completamente gratuita, sin necesidad de suscripción ni registro.
¿Cómo busco información en PubChem?
Puedes usar la barra de búsqueda en la página principal para buscar por nombre químico, identificador, fórmula, o incluso por estructura química (dibujándola o usando notaciones como SMILES/InChI). La búsqueda es muy potente y permite encontrar información relevante en múltiples colecciones simultáneamente.
¿Qué son las bases de datos Substance, Compound y BioAssay?
Son las tres bases de datos principales de PubChem. Substance archiva las descripciones de las sustancias tal como las depositan los colaboradores. Compound almacena las estructuras químicas únicas extraídas de Substance. BioAssay contiene los datos de experimentos biológicos que prueban la actividad de las sustancias o compuestos.
¿Qué datos relacionados con COVID-19 hay en PubChem?
PubChem ha creado una colección especial que reúne datos relevantes sobre sustancias químicas, genes, proteínas, ensayos y otros elementos relacionados con la enfermedad COVID-19 y el virus SARS-CoV-2, integrando información de diversas fuentes biomédicas y químicas autorizadas.
En resumen, PubChem es un recurso de información química dinámico y en constante crecimiento. Las recientes actualizaciones han ampliado significativamente su contenido de datos con información crucial sobre toxicología, propiedades de materiales y patentes, además de crear una colección específica para la crisis de COVID-19. Las mejoras en las interfaces web, la funcionalidad de búsqueda y la introducción de nuevos servicios como los Paneles de Conocimiento y las páginas de Rutas y Elementos, hacen que el acceso a esta vasta cantidad de datos sea más fácil y eficiente que nunca. PubChem sigue siendo una piedra angular para la investigación química y biomédica a nivel mundial.
Si quieres conocer otros artículos parecidos a PubChem: La Gran Base de Datos Química Pública puedes visitar la categoría Bases de datos.

Aprende mas sobre MySQL