Los valores atípicos pueden ser particularmente difíciles de detectar, creando sesgos e inconsistencias en las estimaciones semiparamétricas. En este artículo, usamos simulaciones de Monte Carlo para demostrar que los métodos semiparamétricos, como el emparejamiento, están sesgados en presencia de valores atípicos. Se consideran valores atípicos de puntos de apalancamiento malos y buenos. El sesgo surge en el caso de malos puntos de apalancamiento porque cambian por completo la distribución de las métricas utilizadas para definir los contrafactuales; buenos puntos de apalancamiento, por otro lado, aumentan la posibilidad de romper la condición de apoyo común y distorsionar el equilibrio de las covariables, lo que puede empujar a los profesionales a especificar mal el puntaje de propensión o las medidas de distancia. Proporcionamos algunas pistas para identificar y corregir los efectos de los valores atípicos siguiendo una estrategia de reponderación en el espíritu del estimador multivariante de escala y ubicación de Stahel-Donoho (SD), y el estimador S de ubicación multivariante (Smultiv). También se implementa una aplicación de esta estrategia a datos experimentales.
Para comprender las fuentes de sesgo causadas por los valores atípicos, empleamos el análisis de regresión transversal simple. Rousseeuw y Leroy (2005) argumentan que el sesgo puede ser de tres tipos, el término de error (valores atípicos verticales) y las variables explicativas (puntos de apalancamiento buenos y malos) (ver figura). Los valores atípicos verticales (VO) son aquellas observaciones que están lejos del grueso de los datos en la dimensión y, pero que presentan un comportamiento similar al grupo en la dimensión x.
En el marco de los efectos del tratamiento, estos serían valores atípicos en los resultados del estudio. Los buenos puntos de apalancamiento (GLP), por otro lado, son observaciones que están lejos de la mayor parte de los datos en la dimensión x (es decir, se encuentran fuera de las covariables), pero están alineadas con el efecto del tratamiento. Estos valores atípicos van en la misma dirección de la nube de datos y el tratamiento; por lo tanto, no afectan las estimaciones, pero pueden afectar la inferencia e inducir un error tipo I o tipo II al probar las estimaciones. Finalmente, los malos puntos de apalancamiento (BLP) son observaciones que están lejos del grueso de los datos en la dimensión x y se ubican lejos del tratamiento; estas covariables pueden afectar las estimaciones.
En el marco de los efectos del tratamiento, estos serían valores atípicos en los resultados del estudio. Los buenos puntos de apalancamiento (GLP), por otro lado, son observaciones que están lejos de la mayor parte de los datos en la dimensión x (es decir, se encuentran fuera de las covariables), pero están alineadas con el efecto del tratamiento. Estos valores atípicos van en la misma dirección de la nube de datos y el tratamiento; por lo tanto, no afectan las estimaciones, pero pueden afectar la inferencia e inducir un error tipo I o tipo II al probar las estimaciones. Finalmente, los malos puntos de apalancamiento (BLP) son observaciones que están lejos del grueso de los datos en la dimensión x y se ubican lejos del tratamiento; estas covariables pueden afectar las estimaciones.