Subconjunto En R: Accede Y Manipula Datos

★★★★★Valoración: 4.16 (4546 votos)

El trabajo con datos en cualquier lenguaje de programación, especialmente en análisis estadístico y ciencia de datos, requiere la capacidad de seleccionar partes específicas de un conjunto de datos más grande. En el lenguaje de programación R, esta operación fundamental se conoce como subconjunto (subsetting). Se trata de una técnica de indexación increíblemente útil y versátil que permite acceder a elementos individuales, filas, columnas o secciones completas de los objetos de R, como vectores, matrices, listas y, lo más común, dataframes.

Comprender y dominar el subsetting es esencial para cualquier usuario de R, ya que es una operación que se realiza constantemente: para limpiar datos, preparar datos para análisis, seleccionar variables de interés, filtrar observaciones basadas en ciertas condiciones, o simplemente explorar una pequeña porción de un gran conjunto de datos. R ofrece múltiples formas de realizar subsetting, cada una con sus particularidades y escenarios de uso óptimo.

¿Cómo acceder a una base de datos en R? — En R, existen dos formas principales de conectarse a bases de datos de Access: mediante la función ODBC (Open DataBase Connectivity), disponible en muchos ordenadores, y mediante el paquete DBI (DataBase Interface) de R. Estas notas se centran exclusivamente en ODBC.

Índice de Contenido

¿Por Qué es Tan Importante el Subconjunto en R?
Métodos Principales de Subconjunto en R
Comparación de Métodos de Subconjunto
Preguntas Frecuentes sobre Subconjunto en R
Conclusión

¿Por Qué es Tan Importante el Subconjunto en R?

La capacidad de seleccionar partes de tus datos es la base de casi cualquier tarea de manipulación y análisis. Sin subsetting, estarías forzado a trabajar siempre con el conjunto de datos completo, lo cual es ineficiente y a menudo inviable, especialmente con grandes volúmenes de información. Permite:

Filtrar filas que cumplen ciertos criterios (ej. todos los clientes mayores de 30 años).
Seleccionar columnas específicas (ej. solo 'Nombre' y 'Edad').
Eliminar filas o columnas con valores faltantes o inconsistentes.
Dividir un conjunto de datos en subconjuntos para análisis separados (ej. análisis por región o por grupo experimental).
Acceder a elementos individuales para modificarlos o inspeccionarlos.

En resumen, el subsetting te da control granular sobre tus datos, permitiéndote aislar la información relevante para tu tarea.

Métodos Principales de Subconjunto en R

R proporciona varias maneras de realizar subsetting, siendo las más comunes la indexación con corchetes [], el operador $, el operador [[]] y la función subset().

Indexación con Corchetes []

Este es quizás el método más fundamental y poderoso en R. Los corchetes se utilizan para indexar o seleccionar elementos de casi cualquier tipo de objeto en R. La forma en que funcionan depende del tipo de objeto al que se aplican.

Subconjunto de Vectores

Los vectores son las estructuras de datos más simples en R. Puedes seleccionar elementos usando:

Posiciones numéricas: Especifica los índices de los elementos que quieres. Puedes usar un vector de enteros.

mi_vector <- c(10, 20, 30, 40, 50)
mi_vector[3] # Selecciona el tercer elemento (30)
mi_vector[c(1, 5)] # Selecciona el primer y quinto elemento (10, 50)
mi_vector[-2] # Selecciona todos menos el segundo elemento (10, 30, 40, 50)

Nombres: Si el vector tiene nombres para sus elementos.

vector_nombrado <- c(a=1, b=2, c=3)
vector_nombrado['b'] # Selecciona el elemento llamado 'b' (2)
vector_nombrado[c('a', 'c')] # Selecciona los elementos 'a' y 'c' (1, 3)

Vectores lógicos: Un vector de TRUE/FALSE con la misma longitud que el vector original. Selecciona los elementos donde el vector lógico es TRUE. Este es extremadamente útil para filtrar basado en condiciones.

mi_vector <- c(10, 20, 30, 40, 50)
mi_vector > 25 # Esto crea un vector lógico: FALSE FALSE TRUE TRUE TRUE
mi_vector[mi_vector > 25] # Selecciona los elementos mayores de 25 (30, 40, 50)

Subconjunto de Matrices y Data Frames

Para objetos bidimensionales como matrices y dataframes, los corchetes se usan típicamente con dos argumentos separados por una coma: [filas, columnas].

Seleccionar Filas y Columnas por Posición:

mi_matriz <- matrix(1:9, nrow=3)
mi_matriz[2, 3] # Elemento en fila 2, columna 3 (6)
mi_matriz[1, ] # Toda la primera fila (1, 4, 7)
mi_matriz[, 2] # Toda la segunda columna (4, 5, 6)
mi_matriz[c(1, 3), c(1, 3)] # Filas 1 y 3, columnas 1 y 3

Seleccionar Filas y Columnas por Nombre: Si las filas y columnas tienen nombres.

df <- data.frame(Nombre = c('A', 'B', 'C'), Edad = c(25, 30, 22), Ciudad = c('X', 'Y', 'X'))
rownames(df) <- c('fila1', 'fila2', 'fila3')
df['fila2', 'Edad'] # Edad de 'fila2' (30)
df[, 'Ciudad'] # Toda la columna 'Ciudad'

Seleccionar Filas Usando Vectores Lógicos: Similar a los vectores, pero el vector lógico debe tener la longitud del número de filas.

df[df$Edad > 25, ] # Selecciona todas las filas donde la edad es mayor de 25 (fila con Nombre 'B')

Seleccionar Columnas Usando Nombres o Posiciones: Puedes usar un vector de nombres de columna o un vector de posiciones numéricas para seleccionar múltiples columnas.

df[, c('Nombre', 'Ciudad')] # Selecciona las columnas 'Nombre' y 'Ciudad'
df[, c(1, 3)] # Lo mismo, por posición

Una nota importante sobre la indexación con [] en dataframes: cuando seleccionas una sola columna con df[, 'Nombre'], R por defecto puede intentar simplificar el resultado a un vector (dropping dimensions). Para evitar esto y asegurarte de que el resultado sea siempre un dataframe (incluso si es de una sola columna), usa el argumento drop = FALSE: df[, 'Nombre', drop = FALSE].

Operador $

Este operador es una forma conveniente y legible de seleccionar una única columna de un dataframe o un elemento de una lista por su nombre.

¿Qué es un MERGE en base de datos? — 1 ¿Qué es SQL MERGE? La instrucción MERGE de SQL es una característica eficaz y versátil que permite combinar la funcionalidad de INSERT, UPDATE y DELETE en una sola instrucción. Puede usarlo para combinar datos de una tabla o consulta de origen en una tabla de destino en función de una condición de combinación.13 feb 2024

df$Edad # Selecciona la columna 'Edad' del dataframe df (devuelve un vector)
mi_lista <- list(a=1, b=c(1,2), c="texto")
mi_lista$b # Selecciona el elemento 'b' de la lista mi_lista (devuelve el vector c(1,2))

Es más sencillo de escribir que df[, 'Edad'], pero solo funciona con nombres y para seleccionar una sola columna/elemento.

Operador [[]]

Este operador se utiliza principalmente para seleccionar un único elemento de una lista por su nombre o posición, o una única columna de un dataframe por su nombre o posición. A diferencia de [], [[]] siempre intenta extraer el *contenido* del elemento seleccionado, simplificando la estructura si es posible.

mi_lista <- list(a=1, b=c(1,2), c="texto")
mi_lista[['b']] # Selecciona el elemento 'b' de la lista (devuelve el vector c(1,2))
mi_lista[[2]] # Selecciona el segundo elemento de la lista (devuelve el vector c(1,2))

Para dataframes, df[['Edad']] es equivalente a df$Edad y df[, 'Edad'] (sin drop=FALSE), devolviendo un vector.

La diferencia clave entre [] y [[]] (o $) es que [] puede seleccionar múltiples elementos y siempre devuelve un objeto del mismo tipo que el original (o un subconjunto de él), manteniendo la estructura. [[]] y $ seleccionan un solo elemento y pueden devolver un objeto de un tipo diferente (por ejemplo, un vector si seleccionas una columna de un dataframe).

Función subset()

La función subset() es una alternativa de alto nivel, a menudo más legible, para realizar subsetting en dataframes. Está diseñada específicamente para seleccionar filas y variables (columnas) basándose en condiciones.

Su sintaxis básica es subset(data, subset, select) donde:

data: El dataframe con el que quieres trabajar.
subset: Un vector lógico (o una expresión que evalúa a uno) que especifica qué filas mantener. Las filas donde la expresión es TRUE son seleccionadas.
select: Un vector que especifica qué columnas mantener. Puede ser un vector de nombres de columna (como caracteres o símbolos sin comillas) o posiciones numéricas. También puedes usar - para excluir columnas.

Retomando el ejemplo del usuario:

# Supongamos que tenemos un dataframe llamado 'datos_personas'
# con columnas ID, Edad, Peso
datos_personas <- data.frame(
ID = 1:5,
Edad = c(5, 22, 35, 8, 28),
Peso = c(15, 60, 75, 20, 68)
)

# Seleccionar filas con Edad >= 20 O Edad < 10, y mantener solo columnas ID y Peso
subconjunto_filtrado <- subset(datos_personas, subset = Edad >= 20 | Edad < 10, select = c(ID, Peso))
print(subconjunto_filtrado)

# Resultado esperado:
# ID Peso
# 1 1 15 (Edad 5 < 10)
# 2 2 60 (Edad 22 >= 20)
# 4 4 20 (Edad 8 < 10)
# 5 5 68 (Edad 28 >= 20)

subset() a menudo hace que el código sea más fácil de leer, especialmente para operaciones de filtrado de filas basadas en condiciones complejas, porque no necesitas repetir el nombre del dataframe dentro de la expresión de la condición.

¿Nos permite buscar un subconjunto de datos que cumplan con ciertos criterios? — Los filtros en Excel nos permiten buscar un subconjunto de datos que cumpla con ciertos criterios. Generalmente todo comienza cuando tenemos un rango de celdas con información y queremos ver solamente aquellas filas que cumplen con ciertas condiciones.

Comparación de Métodos de Subconjunto

Cada método tiene sus fortalezas y debilidades:

Método	Descripción	Ventajas	Desventajas	Casos de Uso Típicos
`[]`	Indexación general con corchetes. Versátil para vectores, matrices, dataframes, listas. Permite seleccionar por posición, nombre o lógico.	Muy flexible y potente. Funciona con muchos tipos de objetos. Permite seleccionar múltiples elementos/filas/columnas.	La sintaxis puede ser menos legible para filtrado complejo de dataframes. Puede cambiar la dimensión (drop=TRUE por defecto en algunos casos).	Selección básica en cualquier objeto. Filtrado lógico de vectores. Selección por nombre/posición en matrices/dataframes.
`$`	Selecciona una única columna de dataframe o elemento de lista por nombre.	Sintaxis muy limpia y legible para una sola columna/elemento por nombre.	Solo funciona con nombres. Solo selecciona un único elemento/columna.	Acceso rápido y legible a una columna específica de un dataframe.
`[[]]`	Selecciona un único elemento de lista o columna de dataframe por nombre o posición.	Puede usar nombre o posición. Siempre intenta extraer el contenido (simplifica).	Solo selecciona un único elemento/columna.	Acceder a elementos de listas. Acceder a columnas de dataframes cuando se necesita el vector subyacente.
`subset()`	Función específica para dataframes para seleccionar filas y columnas.	Código a menudo más legible para filtrado de filas basado en condiciones. No requiere repetir el nombre del dataframe en las condiciones. Maneja automáticamente los valores NA en la condición.	Funciona principalmente con dataframes. Menos flexible que `[]` para otros tipos de subsetting (ej. por posición o nombre en general).	Filtrado de filas y selección de columnas en dataframes basado en expresiones lógicas.

Preguntas Frecuentes sobre Subconjunto en R

¿Cuál es la diferencia principal entre `[]` y `subset()` para dataframes?

La principal diferencia es la sintaxis y el alcance. [] es un operador de indexación general que funciona en muchos tipos de objetos y requiere que especifiques explícitamente tanto las filas como las columnas. subset() es una función diseñada específicamente para dataframes, con argumentos dedicados para la condición de filtrado de filas (subset) y la selección de columnas (select). subset() a menudo resulta en código más legible cuando la condición de filtrado es compleja, ya que no necesitas repetir el nombre del dataframe para cada variable en la condición.

¿Cómo selecciono filas basadas en múltiples condiciones?

Puedes combinar condiciones lógicas usando los operadores & (AND) y | (OR) dentro de la expresión de filtrado. Esto funciona tanto con la indexación con [] como con la función subset().

Usando []:
df[df$Edad > 20 & df$Ciudad == 'X', ]

Usando subset():
subset(df, subset = Edad > 20 & Ciudad == 'X')

¿Cómo puedo seleccionar columnas por nombre en lugar de posición?

Para dataframes, puedes usar un vector de caracteres con los nombres de las columnas dentro de los corchetes [] o en el argumento select de subset().

Usando []:
df[, c('Nombre', 'Peso')]

Usando subset():
subset(df, select = c(Nombre, Peso)) # Nota: en select de subset(), puedes usar los nombres sin comillas si no son palabras reservadas o contienen espacios/caracteres especiales.

¿Cómo elimino columnas en lugar de seleccionarlas?

Con la indexación [], puedes usar un vector de posiciones negativas para eliminar columnas por posición:
df[, -c(2)] # Elimina la segunda columna

Con la función subset(), puedes usar el operador - antes del nombre o vector de nombres en el argumento select:
subset(df, select = -c(Edad)) # Elimina la columna 'Edad'

¿Qué significa el argumento `drop = FALSE` en la indexación con `[]`?

Cuando seleccionas una sola fila o una sola columna de un dataframe o matriz usando [], R por defecto simplifica el resultado. Por ejemplo, seleccionar una sola columna de un dataframe devuelve un vector. drop = FALSE desactiva este comportamiento, asegurando que el resultado sea siempre un objeto del mismo tipo que el original (un dataframe de 1 columna en este caso), preservando su estructura bidimensional.

df[, 'Edad'] # Devuelve un vector
df[, 'Edad', drop = FALSE] # Devuelve un dataframe con 1 columna llamada 'Edad'

Conclusión

El subconjunto es una de las operaciones más frecuentes y fundamentales en R. Dominar las diferentes técnicas – la versátil indexación con [], el conveniente operador $, el específico [[]] y la legible función subset() – te permitirá manipular y preparar tus datos de manera eficiente para cualquier análisis. Elegir el método adecuado dependerá del tipo de objeto con el que trabajas, si necesitas seleccionar uno o varios elementos/columnas, y de la complejidad de las condiciones de filtrado. Practica con cada uno para entender cuándo y cómo usarlos mejor, y verás cómo mejora significativamente tu flujo de trabajo en R.

Si quieres conocer otros artículos parecidos a Subconjunto en R: Accede y Manipula Datos puedes visitar la categoría Bases de datos.

Ivan

Soy un entusiasta de la tecnología con especialización en bases de datos, particularmente en MySQL. A través de mis tutoriales detallados, busco desmitificar los conceptos complejos y proporcionar soluciones prácticas a los desafíos cotidianos relacionados con la gestión de datos

Aprende mas sobre MySQL

Subconjunto en R: Accede y Manipula Datos