Ir al contenido principal

[DATA SCIENCE] Guion de formación en matemáticas y R sobre matrices de confusión, diagramas de mosaico, análisis de componentes principales y diagramas ROC.

Guion de Formación en Matemáticas y R

Guion de Formación en Matemáticas y R

Este guion está diseñado para aprender y consolidar conocimientos sobre matrices de confusión, diagramas de mosaico, análisis de componentes principales (PCA) y diagramas ROC utilizando la plataforma R.

1. Matrices de Confusión

Teoría Matemática:

  • Definición: Una matriz de confusión evalúa el rendimiento de un modelo de clasificación. Consiste en una tabla que compara las predicciones del modelo con los valores reales.
  • Componentes:
    • Verdaderos Positivos (TP)
    • Falsos Positivos (FP)
    • Verdaderos Negativos (TN)
    • Falsos Negativos (FN)
  • Métricas derivadas:
    • Precisión: Precision = TP / (TP + FP)
    • Sensibilidad: Recall = TP / (TP + FN)
    • Especificidad: Specificity = TN / (TN + FP)
    • F1 Score: F1 = 2 * (Precision * Recall) / (Precision + Recall)

Práctica en R:

data(iris)
library(caret)
confusionMatrix(data = factor(c("setosa", "setosa", "versicolor")),
               reference = factor(c("setosa", "versicolor", "versicolor")))

Videos Recomendados:

2. Diagramas de Mosaico

Teoría Matemática:

  • Definición: Representan datos categóricos en forma de rectángulos proporcionales a las frecuencias de las combinaciones de categorías.

Práctica en R:

data(Titanic)
mosaicplot(Titanic, main = "Diagrama de mosaico")

Videos Recomendados:

3. Análisis de Componentes Principales (PCA)

Teoría Matemática:

  • Objetivo: Reducir la dimensionalidad de un conjunto de datos conservando la mayor varianza posible.
  • Cálculos principales:
    • Centrar y escalar los datos.
    • Calcular la matriz de covarianza y obtener autovalores/autovectores.
    • Proyectar los datos en el espacio de componentes principales.

Práctica en R:

data(mtcars)
pca <- prcomp(mtcars, scale = TRUE)
summary(pca)
plot(pca)

Videos Recomendados:

4. Diagramas ROC

Teoría Matemática:

  • Definición: Evalúan la capacidad de un modelo de clasificación binaria para distinguir entre clases.
  • Cálculos:
    • Tasa de Verdaderos Positivos (TPR): TPR = TP / (TP + FN)
    • Tasa de Falsos Positivos (FPR): FPR = FP / (FP + TN)

Práctica en R:

library(pROC)
data(aSAH)
roc_obj <- roc(aSAH$outcome, aSAH$s100b)
plot(roc_obj)

Videos Recomendados:

Orden Sugerido de Aprendizaje

  1. Matrices de Confusión
  2. Diagramas ROC
  3. Diagramas de Mosaico
  4. PCA

Espero que este guion te sea útil para aprender y dominar estos conceptos en matemáticas y R. ¡No dudes en comentar si tienes dudas o necesitas más recursos!

Comentarios

Entradas populares de este blog

[CIVILIZACION][MODELOS] La Civilización Hiper-Avanzada y la Escala Kardashev

La Civilización Hiper-Avanzada y la Escala Kardashev ¿Qué es la Escala Kardashev? La Escala Kardashev es un marco propuesto en 1964 por el astrofísico Nikolai Kardashev para clasificar civilizaciones según su capacidad de aprovechar energía: Tipo I: Aprovecha toda la energía disponible en su planeta (~10¹⁶ watts). Nosotros estamos en ~0,72 según Carl Sagan. Tipo II: Captura toda la energía de su estrella (por ejemplo, con una esfera de Dyson). ~10²⁶ watts. Tipo III: Controla la energía de toda su galaxia (~10³⁶ watts). Carl Sagan propuso una fórmula para grados intermedios: K = [log10(Potencia en watts) - 6] / 10 La humanidad (~1,74 × 10¹³ watts) = ~0,72 en esta escala. ¿Cómo se podría acelerar la transición a Tipo II o III si obviamos la ética? Si ignoramos la moral, la estrategia sería pragmática y extrema: Centralización extrema del poder: Unificación bajo un mando único global tecnocrático. Explotación total de recursos: Minería planetaria masiva, co...

[Validación Cruzada] [Machine Learning] [Evaluación de Modelos] [Ciencia de Datos] [R Programming] [Resampling] Validación Cruzada: Concepto y Técnicas Principales

Validación Cruzada: Concepto y Técnicas Principales Validación Cruzada: Concepto y Técnicas Principales La validación cruzada es un conjunto de técnicas utilizadas para evaluar la capacidad de generalización de un modelo de machine learning. Su objetivo principal es determinar cómo de bien puede el modelo desempeñarse con datos no vistos, proporcionando una evaluación más robusta y fiable en comparación con dividir los datos en un simple conjunto de entrenamiento y prueba. Principales Técnicas de Validación Cruzada 1. K-Fold Cross Validation (Validación Cruzada K-Fold) El conjunto de datos se divide en \(k\) particiones o "pliegues" de igual tamaño. El modelo se entrena \(k\) veces: en cada iteración, un pliegue diferente se utiliza como conjunto de prueba y los \(k-1\) pliegues restantes como conjunto de entrenamiento. La métrica final (por ejemplo, precisión, F1, etc.) se c...

Encontré 42 GB de modelos de IA fosilizados en mi PC: una puesta al día honesta sobre IA local, conceptos y entornos Python en 2026

Hace tiempo que no tocaba nada de IA en mi PC, y al echar un ojo descubrí varios programas que no recordaba para qué eran y, sobre todo, modelos de hace año y medio acumulando polvo en el disco. Lo que empezó como una limpieza acabó siendo una puesta al día completa: Ollama, conceptos fundamentales, mapa del ecosistema, comparativas, y un setup de Python desde cero. Lo dejo aquí ordenado por si a alguien le sirve. 1. El punto de partida: 42 GB de modelos zombi Lo primero que encontré fue Ollama corriendo en segundo plano (ese icono pequeño en la barra de tareas que llevaba meses sin tocar). Un ollama list reveló cinco modelos descargados hacía 18 meses, ocupando casi 42 GB: llama-3-8B-programming-questions — 16 GB SuperNova-Medius-Q8_0 — 15 GB uncensored_wizard_7b — 4.1 GB llama3.2 — 2 GB llama3.1 — 4.7 GB En el mundo de la IA, 18 meses son una eternidad. Han salido Llama 3.3 y 4, Qwen 2.5 y 3, DeepSeek-V3 y R1, Gemma 3 y 4, gpt-oss... cualquiera de los nu...