Aprenderas a Limpiar tu dataset de una manera sencilla y rapida utlizando la media de los datos numericos y la moda de los datos categoricos
#Education
#R
#Rproject
http://www.mediafire.com/file/40jc28qo5qpv926/codigo.txt/file
http://www.mediafire.com/file/199e49eat5lys9e/datos-perdidos.csv/file
En las estadísticas, los datos faltantes o los valores faltantes se producen cuando no se almacena ningún valor de datos para la variable en una observación. Los datos faltantes son una ocurrencia común y pueden tener un efecto significativo en las conclusiones que pueden extraerse de los datos
📌En R los datos faltantes se expresan como NA
¿Te gustaría que este contenido siga siendo gratuito?, puedes apoyar al canal de las siguientes maneras:
1. Donaciones: https://www.paypal.me/mariomgalvan
2. Compartiendo los vídeos del canal en foros y redes sociales.
Redes Sociales:
📌 instagram: https://intragram.com/codynamico_oficial
📌Facebook: https://facebook.com/Codynamico
Una situación a la que se enfrenta frecuentemente cualquier científico de datos es el tratamiento de los valores perdidos. Los valores faltantes son aquellos que para una variable determinada no constan en algunas filas o patrones. El motivo por el cual se produce esto puede ir desde fallos en los instrumentos de medida hasta sujetos que no asisten a la entrevista o no contestan a determinadas preguntas.
Los 3 motivos principales por los que se suelen tratar los valores perdidos son: pueden introducir un sesgo considerable (una diferencia notable entre los datos observados y los no observados), hacen el análisis y el manejo de los datos más complicado y la pérdida de información que éstos producen.
No es tan importante la cantidad de valores faltantes como el patrón que éstos siguen. Puesto que si su distribución no fuese aleatoria a lo largo de todo el conjunto de datos la representatividad de la muestra sobre la que estaríamos trabajando se vería seriamente mermada. Por lo tanto, en función de la aleatoriedad de los valores perdidos se suele establecer la siguiente clasificación:
Missing At Random (MAR): ocurre cuando la ausencia de los datos podría depender de los valores observados.
Missing Not At Random (MNAR): si el ser un dato faltante depende del valor de los datos no observados.
Missing Completely At Random (MCAR): si el evento de que cierto valor sea faltante es independiente de las variables observadas y no observadas, y ocurre de forma completamente aleatoria. Se trata de un caso especial de MAR.
La principal ventaja de que los valores perdidos sean de tipo MCAR es que los datos no están sesgados. Ocurre de igual forma con los de tipo MAR.
Hay que tener especial cuidado con los valores perdidos de tipo MNAR, ya que los datos observados están sesgados. Destacar que este tipo de valores faltantes no se puede ignorar y debe ser tratado junto al experto.
Técnicas para el tratamiento de valores faltantes
Existen multitud de procedimientos para aplicar cuando tenemos valores perdidos. Aunque básicamente existen dos aproximaciones posibles:
Eliminar muestras o variables que tienen datos faltantes.
Imputar los valores perdidos, es decir, sustituirlos por estimaciones.