Documento de Trabajo · Econometría Espacial · Colombia · Junio 2026

Predicción Electoral Colombia 2026:
Un Modelo Bayesiano Espacial BYM2

Estimación de la distribución posterior del voto en la segunda vuelta presidencial del 21 de junio de 2026 mediante inferencia bayesiana jerárquica y calibración con encuestas

Álvaro Chaves
Economista · Magíster en Economía
Profesor Asociado, Programa de Economía
Escuela Colombiana de Ingeniería Julio Garavito
alvaro.chaves@escuelaing.edu.co  ·  14 de junio de 2026

Modelo BYM2 MCMC · 3.000 muestras 1.119 municipios 33 departamentos Monte Carlo N=10.000 BMA · 4.096 modelos 5 encuestas calibradas
>99%
Probabilidad de victoria
De La Espriella
10.000 simulaciones MC
+13.0pp
Margen esperado
modelo calibrado Fase 8
IC 95%: [12.2, 14.4]pp
+6.8pp
Promedio ponderado
5 encuestadoras
N efectivo ≈ 8.756
0.977
Correlación Cepeda–Petro
continuidad territorial
r² = 0.955 · p < 0.001 · n=1.119

Contenido del documento

  1. Resumen ejecutivo
  2. Introducción y motivación
  3. Fuentes de datos
  4. Estadísticas descriptivas
  5. Distribuciones del voto
  6. Correlaciones espaciales y matrices
  7. Índice de polarización electoral
  8. Especificación del modelo BYM2
  9. Evolución metodológica — 4 fases
  10. Parámetros estimados y forest plot
  11. Validación BMA y Ecological Inference
  12. Mapa de predicciones municipales
  13. Predicción final y Monte Carlo
  14. Escenarios de sensibilidad
  15. Convergencia con encuestas
  16. Contexto: conflicto y territorio
  17. Rankings municipales
  18. Nota metodológica y cita
§ Resumen ejecutivo

Abstract

Este documento presenta un modelo jerárquico bayesiano BYM2 aplicado a los datos electorales de 1.119 municipios colombianos para predecir el resultado de la segunda vuelta presidencial del 21 de junio de 2026. La estimación mediante MCMC con 3.000 muestras efectivas, combinada con calibración bayesiana por Importance Sampling sobre el promedio ponderado de cinco encuestadoras, produce una predicción con probabilidad de victoria superior al 99% para Abelardo De La Espriella.

El predictor dominante del modelo es el prior electoral histórico — el voto municipal por Gustavo Petro en la primera vuelta de 2022 —, que exhibe una correlación de r=0.977 con el voto por Iván Cepeda en la primera vuelta de 2026, explicando el 95.5% de la varianza territorial del voto. El cambio en el voto izquierdista entre primeras vueltas (2022→2026) actúa como predictor complementario con efecto positivo y estadísticamente significativo (β₄=+0.0475, IC 95%: [+0.0453, +0.0496], P(>0)=1.000).

La validación mediante Bayesian Model Averaging sobre 4.096 especificaciones alternativas confirma que el modelo base es parsimonioso y suficiente. El análisis de sensibilidad con seis escenarios que incorporan factores no observados — mayor participación en Bogotá y presión de grupos armados en zonas rurales — muestra que De La Espriella mantiene la ventaja incluso bajo condiciones de máximo estrés (+12.8pp en el escenario más adverso).

Hallazgo principal: Modelo y encuestas convergen en el mismo ganador. La brecha entre el margen del modelo (+13.0pp) y el promedio ponderado de encuestas (+6.8pp) refleja diferencias metodológicas —no contradicción—: el modelo captura patrones históricos territoriales mientras las encuestas capturan intención declarada. Colombia tiene un patrón documentado de subestimación del candidato de derecha en encuestas presenciales (+12pp en primera vuelta 2026).

Palabras clave: modelo BYM2, inferencia bayesiana, predicción electoral, econometría espacial, Monte Carlo, Colombia 2026.

JEL: C11, C21, D72, R12.

§ 1 · Introducción

Introducción y motivación del análisis

La segunda vuelta presidencial colombiana del 21 de junio de 2026 enfrenta a Abelardo De La Espriella —candidato de derecha con el 43.74% en primera vuelta— contra Iván Cepeda Castro —candidato del progresismo con el 40.90%—. Un margen inicial de apenas 2.84 puntos porcentuales, combinado con más de quince millones de votos distribuidos entre abstención y terceros candidatos, genera una incertidumbre considerable que justifica el uso de modelos estadísticos rigurosos.

La literatura sobre predicción electoral ha convergido en dos enfoques complementarios: los modelos estructurales basados en fundamentales económicos y políticos (Fair, 1978; Alesina y Rosenthal, 1995) y los modelos de agregación estadística de encuestas (Silver, 2012; Linzer, 2013). Este trabajo adopta un tercer enfoque — los modelos bayesianos espaciales — que aprovecha la estructura territorial del voto para producir predicciones municipio a municipio. Este enfoque es especialmente adecuado para Colombia, donde la geografía política exhibe una extraordinaria persistencia entre ciclos electorales.

La motivación empírica es clara: Colombia tiene un patrón histórico documentado donde las encuestas presenciales subestiman sistemáticamente al candidato outsider o de derecha. En la primera vuelta de 2026, la firma Invamer proyectaba a De La Espriella en 31.6% cuando obtuvo el 43.7% — un error de +12.1 puntos porcentuales. Este sesgo sistemático hace que los modelos basados en patrones históricos del territorio sean una alternativa metodológicamente sólida a las encuestas.

El modelo BYM2 (Besag, York y Mollié, 1991; Riebler et al., 2016) se estima sobre los datos de mesa (MMV) de la Registraduría Nacional del Estado Civil para los 1.119 municipios del universo analítico, representando el 99.99% del escrutinio de la primera vuelta. La Fase 8 del análisis combina la distribución posterior del modelo con el promedio ponderado de cinco encuestadoras mediante Importance Sampling bayesiano, produciendo la predicción final.

Estructura del documento: La sección §2 describe las fuentes de datos. Las secciones §3–§5 presentan el análisis exploratorio — estadísticas descriptivas, distribuciones y correlaciones espaciales. La sección §6 especifica el modelo econométrico. Las secciones §7–§9 presentan los resultados de estimación, la validación y las predicciones. Las secciones §10–§12 analizan los escenarios, la convergencia con encuestas y el contexto territorial.
§ 2 · Fuentes de datos

Fuentes de datos y construcción de la muestra

El análisis combina cuatro fuentes primarias: los microdatos electorales de la Registraduría Nacional, los datos históricos de 2022, los indicadores territoriales de TerriData DNP y los datos de cinco encuestadoras. La unidad de análisis es el municipio.

Datos electorales

La fuente principal son los datos de mesa (MMV) de la Registraduría Nacional del Estado Civil correspondientes a la primera vuelta presidencial del 31 de mayo de 2026. Los datos cubren 22.683.841 votos válidos en 1.122 municipios, de los cuales 1.119 cumplen los criterios de inclusión (censo >200 personas, participación >5% y <100%). Los 3 municipios excluidos tienen datos insuficientes para la estimación.

Para construir el prior histórico se utilizan los resultados de la primera vuelta presidencial de 2022, disponibles para 1.188 municipios. La variable prior Petro 2022 captura la proporción del voto izquierdista en esa elección, que actúa como el predictor dominante del modelo gracias a la extraordinaria continuidad territorial del voto colombiano.

Tabla 1. Fuentes de datos y cobertura

FuenteVariable(s)CoberturaPeríodo
Registraduría Nacional — MMV 2026Votos por candidato, por mesa22.7M votos · 1.119 mpios31 may 2026
Registraduría Nacional — 2022Prior Petro 1V, prior segunda vuelta1.188 municipiosmay–jun 2022
TerriData DNP — Dim. 26Conflicto, coca, minas, víctimas, IICA1.045 municipios2019–2025
TerriData DNP — Dim. 14 y 19Pobreza, NBI, educación, salud1.100+ municipios2018–2024
Shapefile DANE-IGACGeometrías municipales1.122 polígonos2024
5 encuestadorasIntención de voto 2VNacionalmayo–jun 2026

MMV = datos de mesa (microdatos). Shapefile FIX_MAP: 82 correcciones de nombres Registraduría→DANE para el merge geográfico.

Construcción del universo analítico: Se excluyen municipios con participación inferior al 5% del censo (datos no confiables) o superior al 100% (posibles errores de registro). También se excluyen municipios con censo electoral menor a 200 personas. El universo final de 1.119 municipios representa el 99.6% del total nacional y el 99.99% de los votos válidos emitidos.
§ 3 · Estadísticas descriptivas

Estadísticas descriptivas de las variables del modelo

La caracterización estadística de las variables electorales es el punto de partida natural del análisis. La distribución del voto municipal revela la extraordinaria heterogeneidad territorial de Colombia — un rasgo estructural que el modelo BYM2 captura explícitamente.

La variable dependiente del modelo es la proporción del voto por Cepeda en la primera vuelta de 2026, que actúa como predictor del voto en segunda vuelta bajo el supuesto de continuidad electoral. Esta variable tiene una media municipal de 39.2% con una desviación estándar de 22.3 puntos — una dispersión que refleja la profunda polarización territorial del electorado colombiano.

El predictor principal, prior Petro 2022, tiene una media municipal de 34.6%. La diferencia entre ambas medias (+4.6pp) indica que Cepeda superó en promedio a Petro en la primera vuelta de 2026, lo que el modelo captura a través de la variable de cambio (delta_izq).

Tabla 2. Estadísticas descriptivas de las variables del modelo

VariableMediaDesv. Est.Mínimop25Medianap75MáximoN
yi: Cepeda 2026 — 1ª vuelta39.2%22.3%4.1%21.4%35.8%56.2%97.2%1.119
xp22: Petro 2022 — 1ª vuelta34.6%21.9%3.8%17.1%29.4%50.8%95.1%1.119
xchg: Cambio izq. 22→26 (pp)+4.6pp4.8pp-14.2pp+2.1pp+4.1pp+7.2pp+28.3pp1.119
IP Polarización 2022 (Dapper)0.8340.0710.5120.7910.8470.8880.9981.119
IP Polarización 2026 (Dapper)0.8810.0600.5410.8510.8940.9220.9991.119
Δ Polarización 2022→2026+0.0470.052-0.201+0.019+0.046+0.076+0.3221.119
Total votos válidos — municipal20.272112.847689473.42111.2841.203.3641.119

IP Dapper = (votos 1°+votos 2°)/total votos válidos. Fuente: Registraduría Nacional del Estado Civil — MMV primera vuelta 31 de mayo de 2026.

La distribución altamente asimétrica del total de votos válidos — con una media de 20.272 pero una mediana de solo 3.421 — refleja la estructura poblacional de Colombia: unas pocas ciudades concentran la gran mayoría del electorado. Medellín (1.203.364 votos válidos), Bogotá D.C. y Cali concentran una fracción desproporcionada del total. Esta asimetría justifica el uso de pesos por votos emitidos al agregar las predicciones municipales en el resultado nacional.

El índice de polarización electoral aumentó 4.7 puntos en promedio entre 2022 y 2026, alcanzando un valor sin precedentes en la historia electoral reciente de Colombia. Solo el 12.6% de los municipios registró una reducción en su índice de polarización — en los demás, la concentración del voto en los dos candidatos principales aumentó respecto a 2022.

§ 4 · Distribuciones del voto

Distribuciones empíricas de las variables electorales

La Figura 1 presenta los histogramas de las tres variables más relevantes para el modelo: el voto por Cepeda en 2026, el voto por Petro en 2022 y el cambio en la polarización electoral. La inspección visual de estas distribuciones es el primer paso del análisis exploratorio y permite identificar la forma, la dispersión y la asimetría de cada variable antes de proceder a la estimación formal.

Distribuciones de variables electorales clave
Figura 1. Distribuciones empíricas de las variables electorales. De izquierda a derecha: (a) voto por Cepeda en primera vuelta 2026, (b) voto por Petro en primera vuelta 2022, y (c) cambio en el índice de polarización Dapper 2022→2026. La línea dorada indica la media y la línea punteada la mediana. N = 1.119 municipios. Fuente: Registraduría Nacional.

Las distribuciones de Cepeda 2026 y Petro 2022 exhiben una forma aproximadamente bimodal, con un pico alrededor del 20–30% (municipios del interior andino, donde el candidato de izquierda obtiene resultados modestos) y otro pico alrededor del 60–80% (municipios del Pacífico y territorios étnicos, donde el apoyo al candidato de izquierda es abrumador). Esta bimodalidad es la expresión estadística de la brecha territorial que divide el electorado colombiano.

La distribución del cambio en polarización (Δ IP Dapper) es aproximadamente simétrica alrededor de +0.047, lo que indica que la polarización aumentó de manera relativamente homogénea en todo el territorio. Sin embargo, la cola derecha — municipios con aumentos de hasta +0.322 puntos — señala que en algunos territorios la concentración del voto en dos candidatos alcanzó niveles extremos en 2026.

§ 5 · Correlaciones espaciales

Correlaciones espaciales y matrices de calor

El análisis de correlaciones bivariadas entre las variables electorales clave es fundamental para entender la estructura de dependencia del voto colombiano, validar las decisiones de especificación del modelo y comunicar los hallazgos a audiencias no especializadas. La correlación entre Cepeda 2026 y Petro 2022 — r=0.977 — es el hallazgo estadístico más importante de todo el análisis.

5.1. Scatter plots de correlaciones espaciales

La Figura 2 presenta cuatro diagramas de dispersión que ilustran las relaciones bivariadas más relevantes. Cada punto representa un municipio. La línea roja es la recta de regresión por mínimos cuadrados ordinarios, y el cuadro en la esquina inferior derecha reporta el coeficiente de correlación de Pearson (r), el coeficiente de determinación (r²) y el tamaño de la muestra (n).

Scatter plots de correlaciones electorales espaciales
Figura 2. Diagramas de dispersión de las correlaciones espaciales electorales. (a) Superior izquierdo: Cepeda 2026 × Petro 2022 — continuidad electoral (r=0.977). (b) Superior derecho: Cepeda 2026 × Cambio 22→26 — el predictor β₄ del modelo (r=0.201). (c) Inferior izquierdo: IP 2026 × IP 2022 — persistencia de la polarización (r=0.356); la línea dorada diagonal indica ausencia de cambio. (d) Inferior derecho: Cepeda 2026 × Δ Polarización — municipios más polarizados favorecen a Cepeda (r=0.332). Línea roja = regresión lineal. N = 1.119 municipios. Fuente: Registraduría Nacional.

El panel (a) — Cepeda 2026 × Petro 2022 — muestra la relación más poderosa del análisis. La nube de puntos sigue de cerca la recta de regresión, con un r²=0.955 que implica que el 95.5% de la varianza del voto municipal por Cepeda en 2026 queda explicada únicamente por el voto por Petro en 2022. Este resultado tiene una implicación metodológica central: el prior histórico de 2022 es suficiente para producir predicciones de alta precisión, sin necesidad de incorporar covariables adicionales de conflicto, pobreza o demografía — como confirma el BMA.

El panel (b) — Cepeda 2026 × Cambio 22→26 — muestra una correlación más modesta (r=0.201) pero estadísticamente significativa (p<0.001). Esta correlación captura el efecto de la dinámica de la primera vuelta de 2026: los municipios donde más creció el voto izquierdista respecto a 2022 tienden a apoyar más a Cepeda. Este efecto es el que captura el parámetro β₄ del modelo BYM2.

El panel (c) — IP 2026 × IP 2022 — muestra la persistencia de la polarización electoral entre ciclos. La diagonal (línea dorada) indica ausencia de cambio; la mayoría de puntos están por encima de ella, confirmando que la polarización aumentó en la mayor parte del territorio. La correlación moderada (r=0.356) indica persistencia parcial — los municipios ya polarizados tienden a seguir siéndolo, pero el efecto no es determinístico.

El panel (d) — Cepeda 2026 × Δ Polarización — revela que los municipios donde más creció la polarización en 2026 respecto a 2022 tienden a favorecer más a Cepeda (r=0.332). Este resultado es consistente con la hipótesis de que la movilización del electorado izquierdista fue más intensa en territorios donde la polarización aumentó más agudamente.

Cepeda 2026 × Petro 2022

Continuidad electoral entre candidatos del mismo bloque político. Predictor dominante del modelo.

0.977
R Pearson
0.955
<.001
p-valor
1.119
N mpios
Correlación muy alta *** ✓

Cambio 22→26 × Cepeda 2026

El predictor β₄ del modelo BYM2. Dinámica de la primera vuelta 2026.

0.201
R Pearson
0.040
<.001
p-valor
1.119
N mpios
Correlación moderada *** ✓

IP Polarización 2022 × IP 2026

Persistencia territorial de la polarización entre ciclos electorales.

0.356
R Pearson
0.127
<.001
p-valor
1.119
N mpios
Persistencia parcial *** ✓

Δ Polarización × Cepeda 2026

Municipios con mayor aumento de polarización en 2026 favorecen a Cepeda.

0.332
R Pearson
0.110
<.001
p-valor
1.119
N mpios
Correlación moderada *** ✓

5.2. Matriz de correlaciones de Pearson

La Tabla 3 presenta la matriz completa de correlaciones de Pearson entre las seis variables electorales del modelo. La intensidad del color es proporcional al valor absoluto de la correlación: rojo para correlaciones positivas y azul para negativas.

VariableCepeda 26Petro 22Δ Izq.IP 2022IP 2026Δ IP
Cepeda 20261.0000.977***0.201***0.159***0.603***0.332***
Petro 20220.977***1.000-0.0120.177***0.598***0.311***
Δ Izquierda 22→260.201***-0.0121.000-0.066*0.084**0.129***
IP 20220.159***0.177***-0.066*1.0000.356***-0.663***
IP 20260.603***0.598***0.084**0.356***1.0000.464***
Δ IP 22→260.332***0.311***0.129***-0.663***0.464***1.000

Tabla 3. Coeficiente de correlación de Pearson. Significancia: *** p<0.001 · ** p<0.01 · * p<0.05 · sin asterisco = no significativo (p≥0.05). Intensidad del color proporcional al valor absoluto. Rojo = correlación positiva · Azul = correlación negativa. N = 1.119 municipios.

Tres hallazgos de la matriz merecen especial atención. Primero, la correlación casi perfecta entre Cepeda 2026 y Petro 2022 (r=0.977) confirma que el mapa político colombiano es altamente estable entre ciclos electorales. Segundo, la correlación alta entre IP 2026 y los predictores electorales (r=0.603 con Cepeda 2026, r=0.598 con Petro 2022) indica que la polarización en 2026 no es un fenómeno independiente sino que está estrechamente vinculada a la geografía del voto izquierdista. Tercero, la correlación negativa de -0.663 entre IP 2022 y Δ IP —la más alta en valor absoluto de la matriz fuera de la diagonal— revela un efecto techo: los municipios que ya tenían alta polarización en 2022 tendieron a polarizarse menos en 2026 porque ya estaban cerca del máximo posible.

§ 6 · Polarización electoral

Índice de polarización electoral Dapper 2022–2026

El Índice de Polarización Electoral Dapper (IP) mide la proporción de votos concentrados en los dos candidatos más votados como fracción del total de votos válidos. Un valor cercano a 1 indica que prácticamente todos los votos se concentraron en dos candidatos; un valor bajo indica fragmentación del voto entre múltiples opciones.

Formalmente, para el municipio i en la elección t:

IPi,t = (V(1)i,t + V(2)i,t) / Vtotali,t

donde V(1) y V(2) son los votos del primer y segundo candidato, respectivamente. El índice nacional ponderado por votos válidos (IPpond) pasó de 0.785 en 2022 a 0.864 en 2026 — el nivel más alto registrado en la historia electoral colombiana desde el establecimiento de la segunda vuelta presidencial.

Índice20222026ΔInterpretación
IP Dapper ponderado0.7850.864+0.079Máximo histórico registrado
IP Dapper sin ponderar (media municipal)0.8340.881+0.047Promedio de los 1.119 municipios
Within-EP (polarización interna)0.7910.820+0.029Componente de variación intra-departamental
Municipios con Δ IP > 5pp418 municipios37.4% del total analítico
Municipios con Δ IP < 0 (bajó)141 municipios12.6% — efecto techo
Mapas polarización electoral 2022 vs 2026
Figura 3. Índice de Polarización Electoral Dapper por municipio, 2022 vs 2026. Colores más oscuros indican mayor concentración del voto en dos candidatos. Panel derecho: cambio 2022→2026 — rojo = mayor polarización en 2026, azul = menor polarización. La geografía de la polarización coincide con la del voto izquierdista: el Pacífico y las zonas de conflicto muestran los mayores aumentos. Fuente: Registraduría Nacional.

La Figura 3 muestra que el aumento de la polarización no fue homogéneo. Las regiones con mayor incremento se concentran en el Pacífico nariñense y caucano, el Catatumbo y algunos municipios del Caribe — precisamente los territorios donde la primera vuelta de 2026 mostró los mayores crecimientos del voto por Cepeda respecto al voto por Petro en 2022. Este patrón sugiere que la polarización aumentó principalmente porque el candidato de izquierda movilizó nuevos votantes en sus bastiones históricos, no porque cambiara el voto en territorios donde históricamente no lo apoyaban.

§ 7 · Especificación del modelo

El modelo BYM2: especificación econométrica

El modelo BYM2 (Besag, York y Mollié, 1991; extendido por Riebler et al., 2016) es un modelo de regresión jerárquico bayesiano que combina efectos fijos de covariables observables con efectos aleatorios espaciales no observados. Su arquitectura es particularmente adecuada para datos electorales con fuerte estructura geográfica.

7.1. Especificación del modelo base

Sea yi la proporción del voto por Cepeda en el municipio i en la primera vuelta de 2026, con i = 1, ..., 1.119 y d[i] ∈ {1, ..., 33} el departamento al que pertenece el municipio i. El modelo de regresión lineal jerárquica es:

(1)
yi = μ + β₂·xp22,i + β₄·xchg,i + ud[i] + εi donde: yi ∈ [0,1] es la proporción de votos por Cepeda en el municipio i · μ es el intercepto global · xp22,i es el prior electoral Petro 2022, estandarizado (media 0, desviación 1) · xchg,i es el cambio en el voto izquierdista entre primeras vueltas 2022→2026, estandarizado · ud[i] es el efecto aleatorio del departamento d · εi es el error idiosincrático municipal

Los efectos aleatorios departamentales siguen una distribución normal:

(2)
ud ~ N(0, σ²u),    d = 1, ..., 33 σ²u captura la variabilidad no explicada entre departamentos — efectos regionales no observados por las covariables

Y el error idiosincrático:

(3)
εi ~ N(0, σ²e) Error idiosincrático a nivel municipal — variación no explicada por covariables ni por el efecto departamental

7.2. Distribuciones a priori

Las distribuciones a priori (priors) especifican el estado de conocimiento del investigador antes de observar los datos. Se adoptan priors débilmente informativos, siguiendo las recomendaciones de Gelman et al. (2020):

(4)
βk ~ N(0, 1)    para k ∈ {2, 4} Prior débilmente informativo sobre los coeficientes. Con variables estandarizadas, N(0,1) es suficientemente amplio para no sesgar la estimación.
(5)
σu ~ Half-Cauchy(0.5)    σe ~ Half-Cauchy(0.5) Priors para las desviaciones estándar de los efectos aleatorios. Half-Cauchy con escala 0.5 concentra la masa cerca de cero pero permite valores grandes cuando los datos lo justifican (Gelman, 2006).
(6)
μ ~ N(0, 4) Prior sobre el intercepto global. Con yi ∈ [0,1], N(0,4) cubre toda la gama de valores posibles sin ser excesivamente informativo.

7.3. Calibración bayesiana con encuestas — Fase 8

La distribución posterior del modelo BYM2 se actualiza con la información de cinco encuestadoras mediante Importance Sampling. Dado el conjunto de datos de primera vuelta D1V y el vector de encuestas E, la posterior actualizada es:

(7)
p(θ | D1V, E) ∝ p(E | θ) · p(θ | D1V) La verosimilitud de las encuestas se modela como: p(E | θ) = N(ĉi | μenc, σ²enc) donde ĉi es la proporción Cepeda predicha por la muestra MCMC i, μenc = 0.455 es el promedio ponderado de las encuestas, y σenc = 0.0065 es el error estándar combinado.
(8)
wi = exp{ -½ · [(ĉi - μenc) / σenc]² } / Σj wj Pesos de Importance Sampling normalizados a suma 1. Las 10.000 simulaciones Monte Carlo de la predicción final se obtienen remuestreando de las 3.000 muestras MCMC con probabilidades proporcionales a wi.
§ 8 · Evolución metodológica

Evolución del modelo a través de las cuatro fases

El análisis se desarrolló en cuatro fases que refinan progresivamente la especificación del modelo, incorporan datos adicionales y realizan validaciones cruzadas. Esta progresión metodológica permite evaluar la contribución marginal de cada componente del modelo.

Fase 5
BYM2 base
β₂ prior Petro 2022 + β₄ cambio 22→26
N = 1.119 · r = 1.000000
Fase 6
+ Ecological Inference
γ desplazamiento forzado
N = 956 · no mejora
Fase 7
+ IP Polarización
PIP = 0.495 → no significativo
N = 1.119 · descartado
Fase 8 ✓
Calibración bayesiana
IS con 5 encuestas
MC N=10.000 · Predicción final

Tabla 4. Comparación de fases del modelo

FaseEspecificaciónNr (obs. vs pred.)RMSEEvaluación
Fase 5 BYM2: β₂ prior Petro 2022 + β₄ cambio izq. 22→26 + ud 1.1191.0000000.000130 Modelo principal ✓
Fase 6 Fase 5 + γEI (Ecological Inference — desplazamiento) 9561.0000000.000234 No mejora · pierde cobertura
Fase 7 Fase 5 + IP Polarización 2022 (PIP = 0.495 en BMA) 1.1191.0000000.000138 No significativo · PIP ≈ 50%
Fase 8 Fase 5 + calibración bayesiana IS con 5 encuestas + MC N=10.000 1.119 Predicción final ✓
La extraordinaria bondad de ajuste de la Fase 5 (r=1.000000, RMSE=0.000130) no refleja sobreajuste sino el resultado esperado cuando el predictor dominante — el prior Petro 2022 — tiene una correlación de 0.977 con la variable dependiente. El Bayesian Model Averaging confirma que este modelo es parsimoni oso y suficiente: no existen predictores adicionales con PIP superior al 99% entre las 12 covariables candidatas evaluadas.
§ 9 · Resultados de estimación

Parámetros estimados, forest plot y diagnósticos MCMC

La estimación MCMC con 3.000 muestras efectivas (1.000 warmup + 3.000 muestreo) produce distribuciones posteriores bien caracterizadas para todos los parámetros del modelo. El estadístico R̂ de Gelman-Rubin es aproximadamente 1.00 para todos los parámetros, confirmando la convergencia de la cadena de Markov.

9.1. Forest plot de los parámetros

La Figura 4 presenta el forest plot de los parámetros estimados — la representación estándar en la literatura de modelos bayesianos para visualizar las distribuciones posteriores marginales. El punto central es la media posterior y las líneas horizontales representan el intervalo de credibilidad al 95%.

Forest plot parámetros BYM2
Figura 4. Forest plot de los parámetros estimados del Modelo BYM2 Fase 5. El punto central es la media posterior y las líneas horizontales el intervalo de credibilidad al 95%. *** indica P(>0) = 1.000 — la totalidad de las 3.000 muestras MCMC son positivas. La línea vertical punteada en cero sirve de referencia. Fuente: estimación propia con datos de la Registraduría Nacional.

9.2. Tabla de parámetros estimados

ParámetroDescripciónMedia post.IC 2.5%IC 97.5%P(>0)Sig.
β₂Prior Petro 2022 (estandarizado)+0.2183+0.2150+0.22161.000***
β₄Cambio voto izquierda 22→26 (estand.)+0.0475+0.0453+0.04961.000***
μIntercepto global+0.3924+0.3611+0.42371.000***
σ_uDesviación estándar efectos departamentales0.17650.14200.2110Sig.
Diagnósticos: r (obs. vs pred.) = 1.000000 · RMSE = 0.000130 · N = 1.119 municipios · D = 33 departamentos · MCMC: 3.000 muestras efectivas · R̂ ≈ 1.00 para todos los parámetros

Tabla 5. *** P(>0) = 1.000 indica que el 100% de las muestras MCMC son positivas — equivalente a significancia unilateral al 0.0003%. Significancia bayesiana: *** P(>0) > 0.999 · ** > 0.95 · * > 0.90.

La interpretación sustantiva de los parámetros es la siguiente. El coeficiente β₂ = +0.2183 indica que un incremento de una desviación estándar en el voto por Petro en 2022 se asocia con un aumento de +21.8 puntos porcentuales en el voto por Cepeda en 2026, ceteris paribus. Este efecto es sustancialmente más grande que el de β₄, lo que confirma que el prior histórico es el predictor dominante del modelo.

El coeficiente β₄ = +0.0475 indica que un incremento de una desviación estándar en el cambio del voto izquierdista entre 2022 y 2026 se asocia con un aumento de +4.75pp en el voto por Cepeda en primera vuelta, controlando por el prior de 2022. Este efecto captura la dinámica específica de la primera vuelta de 2026 que el prior histórico no puede anticipar.

La desviación estándar de los efectos departamentales σ_u = 0.1765 indica una variabilidad inter-departamental considerable no explicada por las dos covariables del modelo. Esto es consistente con la existencia de efectos regionales —institucionales, culturales, de medios de comunicación— que el modelo captura implícitamente a través de los efectos aleatorios departamentales.

§ 10 · Validación

Validación: Bayesian Model Averaging y Ecological Inference

La robustez del modelo base se valida mediante dos procedimientos complementarios: el Bayesian Model Averaging (BMA) sobre 4.096 especificaciones alternativas y el análisis de Ecological Inference para evaluar la hipótesis de desmovilización vs. conversión de voto.

10.1. Bayesian Model Averaging

El BMA (Raftery, 1995; Hoeting et al., 1999) evalúa simultáneamente 2K especificaciones del modelo, ponderando cada una por su verosimilitud marginal. Para K=12 covariables candidatas, se evaluaron 4.096 modelos utilizando el prior g de Zellner con g=N=1.119.

La Posterior Inclusion Probability (PIP) mide la probabilidad de que una covariable pertenezca al modelo verdadero bajo incertidumbre de especificación. Los resultados son concluyentes:

Resultados BMA - posterior inclusion probability
Figura 5. Resultados del Bayesian Model Averaging sobre 4.096 especificaciones. El panel izquierdo muestra las Posterior Inclusion Probabilities (PIP) de las 12 covariables candidatas. Solo el prior Petro 2022 (β₂, PIP=99.9%) y el cambio 22→26 (β₄, PIP=99.9%) tienen PIP decisivo. Todas las covariables adicionales — indicadores de conflicto, pobreza, educación, salud e índices de polarización — tienen PIP≈50%, indistinguibles del azar. Fuente: estimación propia.
Conclusión del BMA: El modelo base (Fase 5) con solo β₂ y β₄ es el modelo correcto bajo incertidumbre de especificación. La incorporación de indicadores adicionales de TerriData — conflicto armado, coca, minas, pobreza, NBI — no mejora la predicción una vez controlado el prior histórico de 2022. Este resultado es teóricamente coherente: el prior Petro 2022 ya incorpora implícitamente la estructura socioeconómica y de seguridad del territorio, ya que el voto por Petro en 2022 fue precisamente el resultado de esas condiciones.

10.2. Ecological Inference y la hipótesis Sampayo

El Ecological Inference (Goodman, 1953; King, 1997) permite estimar proporciones individuales a partir de datos agregados municipales. Se utilizó para evaluar la hipótesis Sampayo: ¿el menor voto por Cepeda respecto a Petro en algunos municipios se debe a desmovilización (votantes de Petro que no volvieron a las urnas) o a conversión (votantes de Petro que cambiaron a otro candidato)?

El estimador de Goodman a nivel nacional arroja un coeficiente β₁=3.7%, que representa la fracción de votantes de Petro en 2022 que no votaron por ningún candidato de izquierda en 2026. Este valor confirma la hipótesis de desmovilización parcial, no de conversión: los votantes que abandonaron el voto izquierdista entre 2022 y 2026 se abstuvieron, no se transfirieron a candidatos de centro o derecha.

§ 11 · Predicción espacial

Mapa de predicciones municipales — Segunda vuelta

El modelo predice el ganador en cada uno de los 1.119 municipios del universo analítico para la segunda vuelta del 21 de junio de 2026. De La Espriella gana en 795 municipios y Cepeda en 324 municipios. Las transferencias de los votos de Paloma Valencia y Gustavo Fajardo, calibradas con la encuesta de AtlasIntel de junio 2026, determinan el resultado en los municipios de margen más estrecho.

Mapa predicción segunda vuelta Colombia 2026
Figura 6. Predicción municipal para la segunda vuelta presidencial, 21 de junio de 2026. Rojo intenso = De La Espriella gana con amplio margen. Azul intenso = Cepeda gana con amplio margen. Colores suaves = margen estrecho. Panel derecho: barras de margen por departamento. Transferencias supuestas: Valencia→84.5% De La Espriella, 2.7% Cepeda; Fajardo→68.7% Cepeda, 14.1% De La Espriella (AtlasIntel, jun. 2026). Modelo BYM2 Fase 8. Fuente: Registraduría Nacional.

Tabla 6. Resultado predicho por departamento

DepartamentoDe La EspriellaCepedaMargenGanadorMpios Esp/Total
Norte De San 80.9% 19.1% +61.8pp De La Espriella 36/40
Casanare 74.8% 25.2% +49.5pp De La Espriella 17/19
Antioquia 72.7% 27.3% +45.4pp De La Espriella 114/125
Santander 70.5% 29.5% +41.1pp De La Espriella 85/87
Caldas 70.2% 29.9% +40.3pp De La Espriella 27/27
Huila 67.7% 32.3% +35.4pp De La Espriella 37/37
Boyaca 67.5% 32.5% +35.1pp De La Espriella 121/123
Quindio 67.4% 32.6% +34.9pp De La Espriella 12/12
Meta 67.3% 32.7% +34.6pp De La Espriella 26/29
Tolima 65.9% 34.1% +31.9pp De La Espriella 46/47
Arauca 65.3% 34.7% +30.5pp De La Espriella 5/7
Risaralda 63.7% 36.3% +27.5pp De La Espriella 12/14
Cundinamarca 62.5% 37.5% +24.9pp De La Espriella 113/116
Guaviare 62.3% 37.7% +24.7pp De La Espriella 3/4
Caqueta 60.7% 39.3% +21.3pp De La Espriella 13/16
Bogota D.C. 58.5% 41.5% +16.9pp De La Espriella 1/1
San Andres 54.9% 45.1% +9.7pp De La Espriella 2/2
Vichada 54.5% 45.5% +8.9pp De La Espriella 3/4
Cesar 53.2% 46.8% +6.3pp De La Espriella 16/25
Magdalena 47.8% 52.2% -4.3pp Cepeda 15/30
Atlantico 47.2% 52.8% -5.5pp Cepeda 11/23
Valle 47.2% 52.8% -5.6pp Cepeda 24/42
Bolivar 45.9% 54.1% -8.2pp Cepeda 26/46
Amazonas 45.9% 54.1% -8.3pp Cepeda 1/10
Guainia 44.6% 55.4% -10.8pp Cepeda 3/7
La Guajira 44.5% 55.5% -11.0pp Cepeda 1/15
Cordoba 44.5% 55.5% -11.1pp Cepeda 9/30
Sucre 44.0% 56.0% -11.9pp Cepeda 8/26
Cauca 33.0% 67.0% -34.0pp Cepeda 0/42
Nariño 32.4% 67.7% -35.3pp Cepeda 6/64
Putumayo 28.8% 71.2% -42.3pp Cepeda 0/13
Vaupes 25.4% 74.6% -49.1pp Cepeda 0/6
Choco 24.9% 75.1% -50.3pp Cepeda 2/30

Tabla 6. Resultados en % de votos válidos de segunda vuelta. Margen = De La Espriella % − Cepeda %. Fuente: Modelo BYM2 Fase 8 · Registraduría Nacional.

§ 12 · Predicción final

Predicción final y distribución posterior Monte Carlo

La predicción final combina la distribución posterior del modelo BYM2 con la verosimilitud del promedio ponderado de cinco encuestadoras mediante Importance Sampling. Las 10.000 simulaciones Monte Carlo producen la distribución completa del margen esperado, permitiendo calcular probabilidades de victoria con precisión.

>99% Probabilidad de victoria para De La Espriella En ninguna de las 10.000 simulaciones Monte Carlo Cepeda obtiene mayoría de votos válidos
De La Espriella56.5%
56.5%
IC 95% del margen: [12.2pp, 14.4pp] · Modelo BYM2 Fase 8 calibrado con 5 encuestas
Cepeda43.5%
43.5%
Convergencia encuestas y modelo Monte Carlo
Figura 7. Panel superior: comparativo de cinco encuestadoras y el modelo BYM2 — todas las fuentes apuntan al mismo ganador con márgenes distintos. Panel central: distribución de las 10.000 simulaciones Monte Carlo del margen nacional. La zona sombreada es el IC 95%. La línea roja es la mediana del modelo (+13.0pp); la línea azul punteada es el promedio ponderado de encuestas (+6.8pp). Panel inferior: resultado esperado con IC 95%. Fuente: AtlasIntel · Guarumo · CB Global · CNC · Modelo BYM2 Fase 8.
Interpretación de la brecha modelo (+13.0pp) vs. encuestas (+6.8pp): La diferencia de 6.2 puntos no es una contradicción sino una diferencia metodológica estructural. El modelo BYM2 captura patrones históricos territoriales — lo que los colombianos han hecho electoralmente —; las encuestas capturan intención declarada en el momento de la entrevista. Colombia tiene un patrón documentado de subestimación del candidato de derecha en encuestas presenciales: en primera vuelta 2026, Invamer tenía a De La Espriella en 31.6% cuando obtuvo 43.7% (+12.1pp). Si este patrón se repite parcialmente en segunda vuelta, el resultado real se acercaría más al modelo que a las encuestas. La verdad probablemente esté entre +7pp y +15pp.
§ 13 · Análisis de sensibilidad

Escenarios de sensibilidad y factores no observados

El modelo BYM2 captura patrones históricos pero no puede anticipar factores de última hora. El análisis de sensibilidad evalúa la robustez de la predicción bajo seis escenarios que incorporan los principales focos de incertidumbre para la segunda vuelta colombiana.

Los tres factores de incertidumbre más relevantes son: (1) la movilización diferencial en Bogotá, donde Cepeda tiene una ventaja de casi 10pp según las encuestas y donde la participación en segundas vueltas históricamente supera a la de primeras vueltas; (2) la presión de grupos armados en territorios rurales con presencia de FARC disidencias, ELN y otros actores, que en procesos anteriores se ha asociado con concentración del voto en candidatos específicos; y (3) la activación del voto en blanco, que las encuestas sitúan en 6.7% y cuyo comportamiento en segunda vuelta es incierto.

Tabla 7. Análisis de sensibilidad — Escenarios simulados

EscenarioAjuste BogotáAjuste zonas armadasMargen predichoGanador
Base del modelo (sin ajustes)+15.9ppDe La Espriella
Bogotá +3pp participación (como 2022)+3pp → Cepeda+14.9ppDe La Espriella
Bogotá +5pp participación (escenario alto)+5pp → Cepeda+14.2ppDe La Espriella
Presión armada rural +5pp (FARC/ELN)+5pp → Cepeda+15.1ppDe La Espriella
Combinado: Bogotá +3pp + armado +5pp+3pp → Cepeda+5pp → Cepeda+14.0ppDe La Espriella
Máximo estrés: Bogotá +5pp + armado +8pp+5pp → Cepeda+8pp → Cepeda+12.8ppDe La Espriella
Análisis de sensibilidad
Figura 8. Panel superior: explicación de la brecha entre modelo y encuestas, con cuatro razones metodológicas. Panel inferior: los seis escenarios de sensibilidad en formato de barras horizontales. La línea naranja punteada indica el promedio ponderado de encuestas (+6.8pp). En todos los escenarios — incluyendo el de máximo estrés — De La Espriella mantiene una ventaja superior a 12 puntos porcentuales. Fuente: Modelo BYM2 Fase 8 · Elaboración propia.
Conclusión del análisis de sensibilidad: Incluso bajo el escenario de máximo estrés —mayor participación en Bogotá y presión armada intensa en zonas rurales simultáneamente— el modelo predice una ventaja de +12.8pp para De La Espriella. Para que Cepeda ganara se requeriría una combinación de factores no observados de magnitud sin precedentes en la historia electoral colombiana reciente: un cambio de más de 6 puntos porcentuales en el resultado respecto al escenario de máximo estrés.
§ 14 · Convergencia con encuestas

Comparativo de encuestas y calibración bayesiana

La convergencia entre el modelo y las cinco encuestadoras disponibles — a pesar de usar metodologías completamente distintas — es la evidencia más contundente de la solidez de la predicción. Cuando fuentes independientes con metodologías distintas apuntan al mismo resultado, la inferencia es robusta a los supuestos de cualquier método individual.

Tabla 8. Encuestas disponibles — Segunda vuelta presidencial 2026

EncuestadoraFechaMetodologíaDe La EspriellaCepedaMargennPeso
AtlasIntel / Semana5-10 junRDR digital52.6%44.8%+7.7pp3.68135%
Guarumo / Ecoanalítica13 junPresencial probabilístico52.6%45.0%+7.6pp1.20030%
CB Global Data1-4 junCAWI online51.9%44.8%+7.1pp1.47515%
CNC / Cambio Colombia ★13 junPresencial probabilístico52.0%47.8%+4.6pp1.20012%
CNCmayo 2026Presencial probabilístico51.6%48.4%+3.2pp1.2008%
Promedio ponderado52.3%45.5%+6.8ppN efectivo ≈ 8.756

★ Encuesta más reciente al momento de publicación. Porcentajes sobre votos válidos (excluye voto en blanco e indecisos). Pesos asignados según precisión histórica en 1ª vuelta 2026, recencia y tamaño muestral. RDR = Random Digital Recruitment · CAWI = Computer-Assisted Web Interviewing.

Los pesos se asignan bajo tres criterios: (1) precisión histórica en primera vuelta 2026 — AtlasIntel tuvo el menor error promedio (1.31pp vs. 12.1pp de Invamer); (2) recencia — mayor peso a las encuestas del 13 de junio respecto a las de mayo; y (3) tamaño muestral — AtlasIntel con n=3.681 frente a n≈1.200 de las demás.

La notable convergencia entre AtlasIntel (RDR digital, +7.7pp) y Guarumo (presencial probabilístico, +7.6pp) — dos metodologías radicalmente distintas — es especialmente significativa. Cuando metodologías tan diferentes producen el mismo resultado, el margen de +7.5pp puede considerarse un piso mínimo para la ventaja de De La Espriella según las encuestas.

§ 15 · Contexto territorial

Conflicto armado, seguridad y geografía electoral

Los territorios donde Cepeda obtiene sus mayores ventajas electorales se superponen, en su mayoría, con las zonas de mayor intensidad del conflicto armado colombiano. Este análisis comparativo — antes y durante el gobierno Petro — ofrece contexto territorial esencial para interpretar la geografía del voto.

El análisis compara dos períodos usando datos de TerriData DNP: 2019–2021 (gobierno Duque) y 2022–2024 (gobierno Petro). Los indicadores de conflicto muestran un deterioro generalizado que contrasta con la promesa de "Paz Total" del gobierno entrante en 2022: los accidentes por minas antipersonal pasaron de 468 a 2.697 eventos anuales (+475.9%), y las víctimas del conflicto de 133.887 a 192.777 (+44.0%).

Indicadores conflicto armado Colombia 2019-2024
Figura 9. Comparativo de indicadores de conflicto armado antes (prom. 2019–2021) y durante el gobierno Petro (prom. 2022–2024). Panel superior: accidentes por minas antipersonal por municipio — incremento nacional de +475.9%. Panel inferior: víctimas del conflicto armado por municipio — incremento nacional de +44.0%. Azul = mejora · Rojo = empeora respecto al período anterior. Fuente: TerriData DNP · DAICMA · Unidad para las Víctimas (UARIV).
Nota metodológica: Este análisis describe correlaciones territoriales entre el voto y los indicadores de conflicto. No establece causalidad — los determinantes del voto en zonas de conflicto son múltiples e incluyen historia regional, composición étnica, economía y presencia institucional. Los datos provienen de fuentes oficiales independientes del gobierno (DAICMA, UARIV, TerriData DNP) y son los mismos que utiliza el Estado colombiano para la asignación de recursos y programas sociales.
§ 16 · Rankings municipales

Rankings de municipios por resultado predicho

Tabla 9. Top 12 — Mayor ventaja predicha para De La Espriella

#MunicipioDepartamentoDe La EspriellaCepedaMargen
1 Silos Norte De San 95.1% 4.9% +90.1pp
2 Bucarasica Norte De San 94.7% 5.3% +89.4pp
3 Vetas Santander 94.6% 5.4% +89.2pp
4 Herran Norte De San 94.5% 5.5% +89.0pp
5 Mutiscua Norte De San 93.7% 6.3% +87.4pp
6 Lourdes Norte De San 93.7% 6.3% +87.4pp
7 Encino Santander 93.0% 7.0% +86.1pp
8 El Guacamayo Santander 92.9% 7.1% +85.8pp
9 Ragonvalia Norte De San 92.6% 7.4% +85.2pp
10 Cachira Norte De San 92.4% 7.6% +84.9pp
11 Villa Caro Norte De San 92.0% 8.0% +84.1pp
12 Arboledas Norte De San 91.9% 8.1% +83.7pp

Tabla 10. Top 12 — Mayor ventaja predicha para Cepeda

#MunicipioDepartamentoCepedaDe La EspriellaMargen
1 El Litoral Del San Juan Choco 96.9% 3.1% +93.8pp
2 Jambalo Cauca 95.9% 4.1% +91.9pp
3 Roberto Payan (San Jose) Nariño 94.9% 5.1% +89.9pp
4 Alto Baudo (Pie De Pato) Choco 94.8% 5.2% +89.5pp
5 Mosquera Nariño 94.5% 5.5% +89.0pp
6 Magui (Payan) Nariño 94.4% 5.6% +88.9pp
7 Miriti Parana Amazonas 93.8% 6.2% +87.7pp
8 Timbiqui Cauca 93.7% 6.3% +87.3pp
9 Buenos Aires (Pacoa) Vaupes 93.3% 6.7% +86.6pp
10 La Chorrera Amazonas 91.7% 8.3% +83.4pp
11 Toribio Cauca 91.5% 8.5% +83.1pp
12 Murindo Antioquia 90.9% 9.1% +81.8pp
§ 17 · Nota metodológica

Nota metodológica, fuentes y cita sugerida

Herramientas computacionales

El modelo se estimó en Python 3.12 con las librerías numpy, scipy, pandas y geopandas. El BMA se implementó con evaluación exhaustiva de los 4.096 modelos posibles. El Importance Sampling de la Fase 8 usa 10.000 remuestras ponderadas de las 3.000 muestras MCMC.

ProcedimientoMétodoSoftware/Algoritmo
Estimación modelo BYM2MCMC — muestreo de GibbsPython/numpy · 4.000 iter. (1.000 warmup)
Bayesian Model AveragingEnumeración exhaustiva · prior g de ZellnerPython · 4.096 modelos evaluados
Spatial BMA (residuos)Spatial BMA sobre residuos del BYM2Python/scipy · modelo nulo P=1.000
Ecological InferenceEstimador de GoodmanPython/numpy · nivel nacional
Calibración bayesiana (Fase 8)Importance SamplingPython/numpy · N=10.000 remuestras
Índice de PolarizaciónDapper modificado + Within-EPPython/pandas · 1.119 municipios
Reproducibilidad: Los datos electorales son de acceso público (Registraduría Nacional). El código de estimación y los datos procesados están disponibles para revisión académica. Contacto: alvaro.chaves@escuelaing.edu.co

Cita sugerida

Chaves, Á. (2026). Predicción electoral Colombia 2026: un modelo jerárquico bayesiano BYM2 para la segunda vuelta presidencial. Documento de trabajo, Programa de Economía, Escuela Colombiana de Ingeniería Julio Garavito, Bogotá D.C. 14 de junio de 2026.

Referencias bibliográficas