Después de dos artículos técnicos sobre qué predice la cosecha y cómo de bien lo predice, viene la pregunta evidente: vale, ¿y qué dice el modelo para la 26/27? Aquí está la respuesta, con todas las cautelas que el caso merece.
Una nota importante antes de empezar. Esto no es un aforo oficial. No es la cifra que vamos a defender en una mesa redonda. Es lo que los datos disponibles a 12 de junio de 2026 sugieren cuando los pasamos por el modelo público que ya hemos descrito. Puede salir mal, y los motivos por los que puede salir mal son tan importantes como la cifra misma. Si dentro de cinco meses la cosecha real cierra fuera del rango que damos hoy, lo decimos también. Eso es justamente lo que pedíamos al sector en el artículo anterior: track record auditable.
Qué modelo usamos y por qué
El modelo es el mismo que detallamos en el artículo de validación honesta: Gradient Boosting con tres variables —lluvia ene-abr, temperatura máxima de junio, cosecha del año previo—, entrenado sobre 25 años de datos nacionales (2000-2024). Su R² leave-one-out es 0,61 y el error medio absoluto LOO es 171 kt. No es el mejor modelo del mundo. Es el mejor que somos capaces de defender públicamente con validación temporal estricta y datos abiertos.
Internamente usamos modelos más ricos —con satélite, drought index, capas provinciales—, pero esos se quedan dentro. Lo que damos aquí es el techo honesto reproducible.
Los datos que ya tenemos
Dos de las tres variables del modelo ya están conocidas a fecha de este artículo:
Lluvia enero-abril 2026 en provincias olivareras españolas: 375 mm.
Esta cifra hay que mirarla bien, porque es la pieza más relevante de toda la predicción. La media histórica 2000-2024 es de 213 mm; el percentil 75, 231 mm; el máximo histórico de toda la serie estaba en 374 mm (año 2010). El invierno hidrológico 2025-2026 ha sido el más lluvioso del siglo XXI en zonas olivareras españolas, por encima de 2010 y 2018. Eso es bueno —el árbol entra a floración con todas las reservas disponibles—, pero también es estadísticamente complicado: el modelo no ha visto nunca un año tan lluvioso en su entrenamiento, así que cualquier predicción aquí es extrapolación, y eso es algo que cualquier persona honesta con un modelo lineal o no lineal tiene que decir antes de dar la cifra.
Cosecha 25/26 (lag-1 para la 26/27): 1.372 kt según los datos AICA más recientes, una buena campaña en términos absolutos, dentro del rango de cosechas medias-altas.
La tercera variable —temperatura máxima de junio 2026— aún no ha pasado. Y ahí es donde entra la predicción condicional.
Lo que el modelo predice según el junio que venga
Pasamos los inputs por el modelo Gradient Boosting entrenado sobre 2000-2024 y exploramos qué cosecha sale para distintos escenarios de tmax junio. Para contexto: la mediana histórica de tmax junio en España es 29,6 °C, el junio más fresco de la serie marcó 27,1 °C (2010), el más cálido 32,1 °C (2017).
| Escenario tmax junio | Cosecha 26/27 estimada |
|---|---|
| Junio muy fresco (≤28,5 °C) | ~1.610 kt |
| Junio fresco (28,5-29,5 °C) | ~1.660 kt |
| Junio templado (29,5-30,5 °C) | ~1.670 kt |
| Junio cálido (30,5-31,5 °C) | ~1.660 kt |
| Junio extremo (≥31,5 °C) | ~1.660 kt |
Predicción central del modelo Gradient Boosting (3 variables, n=25 entrenamiento) bajo cinco escenarios de junio. Banda de incertidumbre asociada al modelo: ±171 kt (MAE LOO-CV). Fuente: Olearia Intelligence.
Hay algo extraño en esa tabla, y conviene contarlo en lugar de esconderlo.
El modelo Gradient Boosting da una cifra prácticamente plana, 1.610-1.670 kt, sea cual sea el junio. Esto contradice directamente lo que decíamos en el artículo anterior —que el calor de junio es decisivo cuando hay agua disponible—. ¿Por qué pasa? Porque con 375 mm de lluvia el modelo está fuera del soporte de entrenamiento. Ningún año de 2000-2024 combinó lluvia tan alta con junio cálido, y el árbol de decisión termina dando la respuesta del nodo más cercano, que es el cuadrante “muy húmedo” donde la tabla 3×3 de regímenes daba 1.554 kt de media.
Para contraste, una regresión lineal entrenada sobre los mismos datos —que sí extrapola más limpiamente, aunque pierde la interacción— da estos números:
| Escenario tmax junio | Lineal | Gradient Boosting |
|---|---|---|
| Junio muy fresco (28,0 °C) | 1.607 kt | 1.609 kt |
| Junio fresco (28,7 °C) | 1.589 kt | 1.662 kt |
| Junio templado (29,5 °C) | 1.570 kt | 1.668 kt |
| Junio cálido (30,5 °C) | 1.545 kt | 1.672 kt |
| Junio extremo (32,0 °C) | 1.508 kt | 1.658 kt |
El lineal pierde aproximadamente 100 kt al pasar de junio fresco a junio extremo, lo que tiene más sentido fisiológico que la respuesta plana del Gradient Boosting. Pero el lineal no captura la interacción que sí existe en años de lluvia normal. Ningún modelo es perfecto cuando se le pide algo fuera de su rango. Lo honesto es decir que tenemos dos modelos razonables que dan respuestas distintas, y que la verdadera predicción es la combinación interpretada con cabeza.
La cifra, con todas las cautelas
Combinando ambos modelos y mirando los referentes históricos cercanos, la cosecha 26/27 se sitúa probablemente en una banda de 1.450 a 1.700 kt, con escenario central en torno a 1.550-1.600 kt. Eso significaría una de las cinco mejores campañas del siglo XXI, en línea con lo que el agua descontaría.
Ahora los motivos por los que esta cifra puede salir mal, ordenados de más a menos probable:
Primero, el calor de junio. Si junio entra extremo (>31 °C de máxima media), nuestra tabla de regímenes histórica del artículo 1 muestra que la combinación “húmedo + cálido” dio una media de 1.023 kt en los años en que se observó. Es perfectamente plausible que la cosecha caiga por debajo de los 1.200 kt si junio rompe récords, y eso ningún modelo entrenado sobre 25 años puede descontar bien porque el contexto de lluvia es nuevo.
Segundo, los efectos no climáticos. Una helada tardía en zonas marginales, un episodio de mosca del olivo intenso, problemas de polinización por viento sostenido durante la floración, decisiones de poda agresivas tras dos buenas campañas. El modelo no ve nada de esto y la 26/27 podría perder 100-200 kt por causas no incluidas en las tres variables.
Tercero, las propias limitaciones del modelo. R² LOO-CV 0,61 con n=25 es lo mejor que somos capaces de hacer públicamente, pero el error medio absoluto histórico es de 171 kt. La cosecha real puede salir de la banda central por azar puro en uno de cada tres años aproximadamente. Eso es ruido, no fallo del modelo; es la realidad de predecir biología agraria con tan pocos años de datos.
Cuarto, el shock estructural inesperado. Cualquier cosa de la que ahora no estamos hablando: una sequía tardía si mayo y junio rompen el patrón húmedo, un evento de granizo regional, una incidencia plaga severa.
Si tuviéramos que mojarnos con probabilidades subjetivas: el escenario más probable (probabilidad >50 %) es una cosecha entre 1.450 y 1.700 kt. Hay un 20-25 % de probabilidad de que junio cálido la baje a 1.200-1.450 kt. Y un 10-15 % residual de que combinaciones imprevistas la dejen fuera de la banda por arriba o por abajo. Estas probabilidades son nuestra mejor estimación con los datos disponibles, no son cifras del modelo.
Lo que esta predicción NO es
Para que no haya malentendidos, conviene decir explícitamente lo que esta pieza no pretende ser:
- No es un aforo oficial. Los aforos oficiales del MAPA y de la Junta de Andalucía siguen siendo los que el sector toma como referencia operativa. Esto es un experimento público de transparencia metodológica, no una alternativa institucional.
- No es la base para tomar decisiones comerciales. Si gestionas una cooperativa o una almazara y necesitas planificar 26/27, este artículo no sustituye el aforo institucional ni la información que tu propio equipo de campo tiene sobre tus parcelas concretas. Cualquier modelo nacional anual es por definición demasiado bruto para decisiones individuales.
- No es el modelo interno completo de Olearia. Internamente combinamos esto con capas adicionales —satélite, drought index, datos provinciales— que no entran aquí porque las tratamos como inversión técnica reservada. La predicción interna probablemente da una banda más estrecha; la pública es más conservadora.
- No es invariable hasta noviembre. Las dos primeras semanas de junio ya están dentro del modelo, pero el mes no ha cerrado. Si la segunda mitad de junio sigue templada como ha empezado, la banda central se mantiene; si entran golpes de calor en la tercera o cuarta semana, baja. Volveremos a publicar la predicción actualizada a finales de julio, cuando junio ya haya cerrado del todo.
El compromiso de auditoría
Cualquier modelo de aforo que se publique sin auditoría posterior pierde valor. Por eso esta pieza tiene una continuación obligatoria. El 1 de noviembre de 2026, cuando los primeros datos AICA de la 26/27 empiecen a llegar, publicaremos un artículo corto comparando:
- La predicción de hoy (rango 1.450-1.700 kt, central 1.550-1.600 kt)
- La actualización de julio con junio ya cerrado
- La cosecha real que AICA esté reportando
- Si el modelo acertó, falló, y por qué
Si nos equivocamos, lo decimos. Si acertamos, también. Es la única manera de construir un sistema de predicción que el sector pueda terminar tomando en serio. Y es la diferencia entre publicar un modelo y operar con él año tras año.
Cómo lo hemos calculado
- Datos de entrada para 26/27: lluvia ene-abr 2026 (375,1 mm) calculada a partir de Open-Meteo Archive API agregada en 8 estaciones provinciales olivareras españolas; cosecha 25/26 (1.372 kt) según AICA acumulado a marzo de 2026 más estimación de cierre de campaña; tmax junio aún en curso a fecha de publicación —disponibles las dos primeras semanas, escenarios construidos sobre la distribución histórica completa para mostrar la sensibilidad del modelo.
- Modelo: scikit-learn
GradientBoostingRegressor(n_estimators=100, max_depth=2, learning_rate=0.05, random_state=42, min_samples_leaf=2)entrenado sobre 25 años de datos completos (2000-2024). Variables:rain_jan_apr,tmax_jun,prev_kt. Hiperparámetros fijados a priori, sin búsqueda automática. - Modelo de contraste:
LinearRegressionentrenado sobre las mismas variables y datos. - Banda de incertidumbre: el MAE LOO-CV del modelo Gradient Boosting es 171 kt sobre el histórico completo, lo que tomamos como aproximación de 1σ. Las probabilidades subjetivas son juicio editorial sobre el modelo, no salida directa del modelo.
- Caveat de extrapolación: la lluvia ene-abr 2026 (375 mm) supera el máximo histórico de la serie de entrenamiento (374 mm en 2010). Eso significa que el modelo está prediciendo fuera de su rango observado, y la fiabilidad real de la predicción es menor de lo que el R² LOO-CV sugiere.
Si quieres replicar el cálculo con datos más recientes o sobre otra geografía, escríbenos a [email protected].
¿Quieres ver predicciones actualizadas semana a semana, no congeladas a una fecha? Olearia Intelligence integra clima, satélite, datos AICA y modelos auditados en un único dashboard, con seguimiento de aciertos por campaña. Solicita una demo.