Ir al contenido principal

Encontré 42 GB de modelos de IA fosilizados en mi PC: una puesta al día honesta sobre IA local, conceptos y entornos Python en 2026

Hace tiempo que no tocaba nada de IA en mi PC, y al echar un ojo descubrí varios programas que no recordaba para qué eran y, sobre todo, modelos de hace año y medio acumulando polvo en el disco. Lo que empezó como una limpieza acabó siendo una puesta al día completa: Ollama, conceptos fundamentales, mapa del ecosistema, comparativas, y un setup de Python desde cero. Lo dejo aquí ordenado por si a alguien le sirve.

1. El punto de partida: 42 GB de modelos zombi

Lo primero que encontré fue Ollama corriendo en segundo plano (ese icono pequeño en la barra de tareas que llevaba meses sin tocar). Un ollama list reveló cinco modelos descargados hacía 18 meses, ocupando casi 42 GB:

  • llama-3-8B-programming-questions — 16 GB
  • SuperNova-Medius-Q8_0 — 15 GB
  • uncensored_wizard_7b — 4.1 GB
  • llama3.2 — 2 GB
  • llama3.1 — 4.7 GB

En el mundo de la IA, 18 meses son una eternidad. Han salido Llama 3.3 y 4, Qwen 2.5 y 3, DeepSeek-V3 y R1, Gemma 3 y 4, gpt-oss... cualquiera de los nuevos rinde mejor que esos modelos viejos. Conclusión rápida: borrar todos.

ollama rm llama-3-8B-programming-questions:latest SuperNova-Medius-Q8_0:latest uncensored_wizard_7b:latest llama3.2:latest llama3.1:latest

De paso descubrí que mi Ollama estaba en la versión 0.9.0 cuando la actual rondaba la 0.23.x. Tras actualizar, me encontré con una app de escritorio renovada: chat integrado (ya no hace falta terminal ni Open WebUI), una sección "Launch" para integrar agentes externos como Claude Code o Codex CLI, y settings con opciones de modelos en la nube y configuración de contexto.

2. Los tres niveles que casi nadie distingue: modelo, motor, interfaz

Antes de seguir con elecciones técnicas, conviene tener claro un mapa mental que mucha gente confunde:

  1. El modelo son los pesos entrenados — un fichero (o conjunto de ficheros) muy grande lleno de números. Es el "cerebro" estático. Ejemplos: Llama 3.3, Qwen 3, DeepSeek-R1, Gemma 3.
  2. El motor de inferencia es el programa que carga ese fichero y lo ejecuta. Hace los cálculos, gestiona la VRAM, aplica la cuantización. Sin motor, el modelo es un archivo muerto. Ejemplos: llama.cpp, vLLM, MLX, TensorRT-LLM.
  3. La interfaz es lo que tú usas para hablar con todo lo anterior: una terminal, una app de chat, una API, un editor de código.

Ollama es las tres capas empaquetadas: motor (basado en llama.cpp), interfaz de chat, y catálogo curado de modelos.

Una buena analogía: el modelo es como un MP3 (la canción grabada), el motor es el códec/reproductor que sabe decodificarlo, y la interfaz es la app con la que le das al play. Ollama sería como Spotify: trae las tres cosas juntas.

3. ¿Quién compite con quién? El mapa del ecosistema

"DeepSeek vs Gemini vs ChatGPT vs Ollama" es una frase que mezcla cosas de distinta naturaleza. La comparación honesta sería:

CapaCompetidores reales
Modelos cerrados de fronteraOpenAI (GPT), Anthropic (Claude), Google (Gemini), xAI (Grok)
Modelos abiertos de fronteraDeepSeek, Meta (Llama), Alibaba (Qwen), Mistral, Google (Gemma), Moonshot (Kimi)
Productos de chat al consumidorChatGPT, Gemini app, Claude.ai, Copilot, DeepSeek chat
Motores/plataformas localesOllama, LM Studio, llama.cpp, vLLM, MLX

El I+D real está en el modelo, no en el motor. Entrenar un modelo frontera cuesta entre 100 millones y más de 1.000 millones de dólares. Una vez entrenado, distribuirlo es prácticamente gratis. Esa asimetría — coste fijo enorme, coste marginal cero — es la economía rara que define este sector. Por eso OpenAI guarda sus pesos como secreto industrial y por eso cuando Meta o DeepSeek publican un modelo abierto, esa ventaja se democratiza para siempre.

4. Los muros del escalado: por qué energía infinita no bastaría

Aunque tuvieras energía ilimitada, hay límites antes:

  • El muro de los datos: la internet pública útil es finita (~10-20 billones de tokens). Se estima que entre 2026 y 2028 se agota el stock de texto humano de calidad disponible para entrenamiento.
  • Diminishing returns: las leyes de escalado son una ley de potencias. Reducir el error a la mitad requiere multiplicar el cómputo por ~10. Y existe una asíntota irreducible que no se baja por mucho cómputo que metas.
  • Colapso del modelo: entrenar modelos sobre sus propios outputs (datos sintéticos) produce degradación matemáticamente demostrable: van perdiendo las "colas" de la distribución y convergen a un promedio cada vez más estrecho.
  • Límites arquitectónicos: la atención del transformer es cuadrática respecto al contexto, y hay tareas donde añadir parámetros simplemente no ayuda.

Por eso la frontera real hoy se está jugando en mejor aprovechamiento de los datos existentes (técnicas tipo o3/R1 con razonamiento explícito) y en arquitecturas alternativas, no solo en "más GPUs".

5. Cerebro humano vs IA: ni iguales ni opuestos

Brevemente, porque da para post aparte. Diferencias clave:

  • El cerebro aprende continuamente; un LLM se entrena una vez y se congela.
  • Tu cerebro funciona con 20 vatios; entrenar GPT-4 consumió decenas de gigavatios-hora.
  • Un niño aprende "gato" con 3 ejemplos; un modelo necesita millones.
  • El cerebro es encarnado: aprendió moviéndose en un mundo físico.
  • El cerebro tiene memorias múltiples (de trabajo, episódica, semántica, procedimental); un LLM tiene pesos + ventana de contexto.

Pero hay paralelos sorprendentes: la corteza también predice constantemente lo que viene a continuación (predictive processing), las representaciones son distribuidas en ambos sistemas, y las redes convolucionales formaron espontáneamente jerarquías parecidas a la corteza visual sin que nadie se lo pidiera.

6. Hugging Face, GGUF, cuantización: cómo funcionan los modelos por dentro

Hugging Face es el "GitHub de los modelos de IA" — la plataforma donde investigadores y empresas suben sus modelos. Un modelo en formato bruto suele venir en safetensors (PyTorch) en precisión fp16 (16 bits por peso). Para Llama 3.1 8B son ~16 GB.

GGUF es el formato optimizado para inferencia eficiente, inventado por la comunidad de llama.cpp. Un único fichero con pesos + tokenizador + config + metadatos.

La cuantización es el truco que permite correr estos modelos en hardware doméstico: representar cada peso con menos bits. Tabla aproximada para un modelo 8B:

CuantizaciónBits/pesoTamañoCalidad
fp16 (sin cuantizar)16~16 GB100%
Q8_08~8.5 GB~99%
Q4_K_M (estándar)4~4.7 GB~95%
Q3_K_M3~3.7 GB~88%
Q2_K2~2.7 GB~70% (canta)

Q4_K_M es el "sweet spot" que casi todo el mundo usa.

Ollama te ahorra todo el proceso: descargar safetensors → convertir a GGUF → cuantizar → configurar llama.cpp → arrancar servidor HTTP → escribir cliente. Lo encapsula en un comando: ollama pull qwen3:32b.

7. ¿Qué merece la pena correr en local si ya tienes Claude Pro?

Honestidad cruda: para chat general, programación, razonamiento, escritura — Claude Pro le pasa por encima a cualquier modelo abierto que corras en local. Montarte un Qwen 32B para hacer peor lo mismo es un acto geek, no de utilidad.

Lo que sí merece la pena en local es lo que Claude no puede hacer:

  • Generación de imágenes con FLUX o Stable Diffusion vía ComfyUI. Una RTX 4090 los mueve sin sudar. Sin cuotas, sin moderación, sin pagar por mes.
  • Transcripción de audio con Whisper. Calidad de OpenAI sin pagar la API. Brutal para idiomas: transcribes podcasts en italiano y los analizas con Claude.
  • Síntesis de voz con Piper, XTTS o Kokoro. Conviertes texto en audio, clonas voces, creas audiolibros.
  • Voz conversacional en tiempo real (Moshi, Sesame). Ni Claude ni ChatGPT corren offline.
  • Procesamiento masivo y privacidad: documentos sensibles, batch jobs que en API costarían cientos de euros.

Para LLMs locales puros, solo justifica si encajas en un nicho concreto: agentes que tocan muchos ficheros tuyos, autocompletado de código en el editor con latencia mínima, o uso offline.

8. Limpieza del entorno Python: fuera Anaconda, dentro Python 3.14

De paso, descubrí que tenía Anaconda instalado modificando mi PowerShell con (base) en cada arranque, y RStudio sin haber tocado R en años. Decisión:

  • RStudio → desinstalar (no uso R).
  • Anaconda → desinstalar. Aporta ~5 GB de librerías que no uso, ralentiza el arranque de la shell, y se mete en variables de entorno globales.
  • Python → quedarme con la versión limpia de python.org, actualizada a 3.14.

Para actualizar Python desde línea de comandos en Windows:

winget install --id Python.Python.3.14 -e

Y luego desinstalar la versión vieja desde Aplicaciones (o con winget).

9. Conceptos limpios: pip, venv, uv

Pequeña aclaración que vale oro:

  • pip es el instalador de paquetes que viene con Python.
  • venv es un módulo de la librería estándar de Python que crea entornos virtuales — carpetas aisladas con su propia copia de Python y sus propios paquetes.
  • uv es una herramienta externa moderna (escrita en Rust por Astral) que reemplaza a pip + venv + pyenv + poetry, todo en uno y mucho más rápido.

Para uso casual, pip + venv estándar bastan. uv tiene sentido cuando trabajas con muchos proyectos o te frustras con la lentitud de pip. No es necesario instalarlo preventivamente.

10. Hola Mundo limpio en venv

El flujo mínimo en PowerShell:

# Crear y entrar en el proyecto
mkdir holamundo
cd holamundo

# Crear el entorno virtual
python -m venv .venv

# Activarlo (verás (.venv) en el prompt)
.venv\Scripts\Activate.ps1

# Instalar un paquete (solo en este entorno)
pip install requests

# Ejecutar código
python hola.py

# Salir del entorno cuando termines
deactivate

El .venv se llama así por convención (las IDEs lo auto-detectan, los .gitignore lo excluyen por defecto). Cada proyecto tiene su propio .venv dentro de su carpeta — no se confunden entre sí porque viven en proyectos distintos.

Y un consejo de higiene: siempre añade un .gitignore con:

.venv/
__pycache__/

Conclusiones

  • El ecosistema de IA local se mueve rápido. Si llevas más de un año sin tocarlo, probablemente todo lo que tienes está obsoleto.
  • Distinguir entre modelo, motor e interfaz aclara muchas conversaciones que parecen confusas.
  • Los modelos abiertos son ficheros estáticos — copiar es gratis, entrenar cuesta cientos de millones.
  • Si ya pagas un buen servicio cloud (Claude Pro, ChatGPT Plus, Gemini), no tiene sentido instalar un LLM local "para hacer lo mismo". El valor del local está en lo que el cloud no hace: imágenes, audio, privacidad, batch.
  • Anaconda fue útil hace 5 años; hoy hay alternativas más limpias (Python pelado + venv, o uv si quieres ir un paso más allá).
  • Los entornos virtuales no son opcionales si vas a hacer Python en serio. Una sola convención (.venv dentro de cada proyecto) y se acaban los conflictos de dependencias para siempre.

Si tú también tienes un PC con software de IA fosilizado, ya tardas en hacer la limpieza.

Comentarios

Entradas populares de este blog

[CIVILIZACION][MODELOS] La Civilización Hiper-Avanzada y la Escala Kardashev

La Civilización Hiper-Avanzada y la Escala Kardashev ¿Qué es la Escala Kardashev? La Escala Kardashev es un marco propuesto en 1964 por el astrofísico Nikolai Kardashev para clasificar civilizaciones según su capacidad de aprovechar energía: Tipo I: Aprovecha toda la energía disponible en su planeta (~10¹⁶ watts). Nosotros estamos en ~0,72 según Carl Sagan. Tipo II: Captura toda la energía de su estrella (por ejemplo, con una esfera de Dyson). ~10²⁶ watts. Tipo III: Controla la energía de toda su galaxia (~10³⁶ watts). Carl Sagan propuso una fórmula para grados intermedios: K = [log10(Potencia en watts) - 6] / 10 La humanidad (~1,74 × 10¹³ watts) = ~0,72 en esta escala. ¿Cómo se podría acelerar la transición a Tipo II o III si obviamos la ética? Si ignoramos la moral, la estrategia sería pragmática y extrema: Centralización extrema del poder: Unificación bajo un mando único global tecnocrático. Explotación total de recursos: Minería planetaria masiva, co...

[Validación Cruzada] [Machine Learning] [Evaluación de Modelos] [Ciencia de Datos] [R Programming] [Resampling] Validación Cruzada: Concepto y Técnicas Principales

Validación Cruzada: Concepto y Técnicas Principales Validación Cruzada: Concepto y Técnicas Principales La validación cruzada es un conjunto de técnicas utilizadas para evaluar la capacidad de generalización de un modelo de machine learning. Su objetivo principal es determinar cómo de bien puede el modelo desempeñarse con datos no vistos, proporcionando una evaluación más robusta y fiable en comparación con dividir los datos en un simple conjunto de entrenamiento y prueba. Principales Técnicas de Validación Cruzada 1. K-Fold Cross Validation (Validación Cruzada K-Fold) El conjunto de datos se divide en \(k\) particiones o "pliegues" de igual tamaño. El modelo se entrena \(k\) veces: en cada iteración, un pliegue diferente se utiliza como conjunto de prueba y los \(k-1\) pliegues restantes como conjunto de entrenamiento. La métrica final (por ejemplo, precisión, F1, etc.) se c...

[Machine Learning][Python][Clasificación] Understanding Support Vector Machines with Python

Support Vector Machines con Python Support Vector Machines con Python Support Vector Machines (SVM) son algoritmos de aprendizaje supervisado muy potentes, a menudo utilizados para problemas de clasificación. Este artículo demuestra cómo utilizar SVM en Python con la biblioteca scikit-learn y proporciona una explicación de la teoría subyacente. 1. Implementación en Python Código en Python: import numpy as np # Biblioteca para trabajar con arreglos y operaciones matemáticas import matplotlib.pyplot as plt # Biblioteca para crear gráficos y visualizaciones from sklearn import datasets # Módulo para cargar y manejar conjuntos de datos estándar from sklearn.model_selection import train_test_split # Función para dividir los datos en entrenamiento y prueba from sklearn.svm import SVC # Clase para implementar Support Vector Machines # 1. Cargar datos # Usaremos el dataset de iris, seleccionando solo dos clases para sim...