Introducción
En el estudio de las variables
bidimensionales y en general, de las multidimensionales, puede resultar
interesante investigar la posible existencia de una relación de
dependencia entre las variables unidimensionales y la construcción de
algún modelo matemático que permita describir dicha relación, en el
supuesto de que ésta exista.
Así por ejemplo, es bien conocido que el
radio X y la longitud Y de una circunferencia están relacionados
mediante el modelo (para ), de manera que conocido el
valor del radio
de una circunferencia, somos capaces de predecir con exactitud el valor
de su longitud. En esta situación una variable contiene toda la
información sobre la otra.
Sin embargo, existen situaciones en las
que la
variable X contiene cierta información (incompleta) acerca de la
variable Y, pudiéndose predecir aproximadamente el valor de Y a partir
del conocimiento del valor que ha tomado X mediante la construcción de
lo que llamamos modelos de regresión. Por ejemplo, la estatura X de una
persona no determina completamente su peso Y, pero es claro que si
conocemos la estatura somos capaces de predecir aproximadamente el peso.
El propósito del estudio de los modelos
de
regresión es la construcción de modelos matemáticos que permitan
explicar la relación de dependencia existente entre una variable
respuesta, Y y una o más variables independientes X. A partir de esto,
podemos utilizar estos modelos como herramienta para predecir nuevos
valores de la variable respuesta a partir de cierto valor particular
que ha tomado la variable explicativa. Es imprescindible el empleo de
estos modelos cuando se pretende predecir una variable respuesta que es
imposible o muy costosa de medir.
Por ejemplo, podemos considerar un
modelo de
regresión lineal para predecir el peso Y a partir de la altura X según
la función lineal: (ver Figura 1),
que permite obtener un valor
estimado del peso de una persona de la que conocemos su altura. Cada
asterisco en la Figura 1 representa una pareja de observaciones de las
variables altura (X) y peso (Y).

Podemos observar en dicha figura el ajuste
satisfactorio que la función de regresión lineal realiza sobre este
conjunto de datos.
Regresión no
paramétrica
Dadas n observaciones de dos variables
bidimensionales (X,Y), consideramos el modelo de regresión

donde E es el error cometido en la predicción de Y
a partir de X a
través de la función de regresión m.
Podemos distinguir dos tipos de modelos
de
regresión atendiendo a los supuestos que establecen sobre la función de
regresión m. En un modelo de regresión paramétrica se asume que la
función de regresión tiene una forma predeterminada (lineal: ,
parabólica: , etc). Un modelo
de regresión no paramétrica sólo supone
hipótesis de suavidad (en el sentido de continuidad y
diferenciabilidad) sobre la función de regresión . En el contexto de la
regresión no paramétrica no se asume ninguna forma predefinida como las
anteriores para la función de regresión.
En regresión no paramétrica destaca el
estimador
de la función de regresión llamado estimador lineal local, introducido
entre otros por Fan y Gijbels (1996), que destaca por sus buenas
propiedades frente a otros estimadores clásicos.
En la Figura 2 podemos apreciar el
gráfico que
representa las observaciones del caudal de agua del río Nilo en Asuán
(Egipto) desde los años 1871 a 1970. Antes de la construcción de la
presa de Asuán, el caudal de agua y las crecidas del río Nilo tenían
una importancia capital sobre la economía de Egipto.
En la Figura 2 podemos observar que la
representación de las observaciones (diagrama de dispersión) no parecen
presentar la forma de alguna función matemática conocida y sencilla. Si
empleamos el modelo habitual lineal de regresión paramétrica
(representado por la línea a trozos) y el estimador lineal local (línea
continua) podemos observar que éste último proporciona un mejor ajuste
a los datos y por tanto una mayor capacidad predictiva (la cantidad E
será menor en cada observación , o está más cerca de Y).

Los métodos no paramétricos son más
apropiados
cuando no se tiene conocimiento previo de la relación entre las
variables objeto de estudio puesto que sólo parten de supuestos de
suavidad sobre la función de regresión. Estos métodos no paramétricos
son computacionalmente costosos debido al gran número de operaciones
que involucran y son sólo aplicables en la práctica con la ayuda de un
programa informático.
Presento a continuación el problema que
afronté en
mi tesis doctoral: el problema de estimación de la función de regresión
discontinua.
El problema de
estimación de la función de regresión discontinua
Existen numerosas situaciones y
problemas reales
en los que la función de regresión presenta discontinuidades, como
puede ser por ejemplo el caso del efecto de un medicamento en una
persona o del impacto de un anuncio publicitario.
Uno de los ejemplos clásicos más
utilizados por
investigadores en este campo es el conjunto de datos del caudal del río
Nilo. Este conjunto de datos ha sido estudiado entre otros por Cobb
(1978), que localiza una discontinuidad de salto en el año 1898.
Debido a los supuestos de suavidad
sobre la
función de regresión de los que parte el estimador lineal local, este
estimador proporciona estimaciones suaves (y por tanto continuas), por
lo que la estimación resultante no contempla las discontinuidades de la
función de regresión. Este hecho puede observarse en la Figura 2, en la
que a pesar de la existencia de un punto de salto en el año 1898, el
estimador lineal local tipo núcleo presenta una estimación continua que
no recoge dicha discontinuidad.
Esta fue una de las aportaciones que
realicé en mi
tesis doctoral: proponer una modificación del estimador lineal local
adaptado a las discontinuidades de salto. Este nuevo estimador es
continuo en las regiones de continuidad del estimador lineal local,
pero a diferencia de éste, contempla los puntos de salto de la función
de regresión, como puede observarse en la Figura 3.

El entorno informático en el que
desarrollé los
programas informáticos que generan y simulan estos estimadores es R, de
libre distribución en la página http://www.r-project.org.
Se puede completar y ampliar la
información sobre
este trabajo en: http://www.springerlink.com/content/24x567272p052km6/;
también en esta otra dirección: en
http://compstat2004.cuni.cz/c04-awards.htm,
(Premio Mathemathica Award
en el Symposium COMPSTAT 2004), o simplemente contactando con el autor
en la dirección de correo electrónico (ismasb@ugr.es).
|