Los outliers en los grupos diagnósticos relacionados • Caso de hospitales en España que mediante un conjunto de datos históricos referenciados a las altas que se dan (teniendo el cuenta el tipo de enfermedad), se busca analizar si es correcto o no eliminar ciertos datos que se suponen atípicos al conjunto en general.
• Las formulas a ocupar para este caso para determinar valores atípicos superiores e inferiores son los siguientes
¿Criterio para eliminar outlier? • Prueba de normalidad • hipótesis nula H0 “La variable número de estancias hospitalarias es Normal” (se eliminan outliers) • hipótesis alternativa H1 ≡ “La variable número de estancias hospitalarias no es Normal” (no se eliminan outliers)
Datos obtenidos Se observa un número de casos extremos superior al 5% en los tres años de estudio. Llama la atención la disparidad de los casos extremos, con una enorme desproporción a favor de los valores superiores.
Mediante la formula antes vista, y luego reflejado en el siguiente diagrama de caja y bigotes, se pueden ver que hay valores que son muy distintos, y que sobrepasan los valores comunes. Como se menciono antes existe una disparidad entre outliers superiores e inferiores, siendo el primero el mas predominante.
• Conclusión: La detección y eliminación de los outliers se basan en la hipótesis de normalidad de los datos. La distribución de las estancias hospitalarias no es normal, ya que presenta una asimetría con un marcado sesgo positivo, y por ende se concluye, que la exclusión de las altas con valores extremos de estancia para el calculo de indicadores es inadecuada.