Aprendizaje supervisado en R
octubre - 2018
Capítulo 1 Introducción
El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros.
El proceso habitual consiste en dividir la muestra en dos conjuntos, uno de entrenamiento y otro de prueba o test. Con los datos de entrenamiento ordenados convenientemente obtenemos un conjunto de vectores o pares de entrada-salida.
La salida es la variable dependiente, y las entradas son las variables que usaremos para pronosticar la variable dependiente. es decir, la salida es lo que deseamos pronosticar. Los algoritmos de aprendizaje, “aprenden” de los datos de entrenamiento en lo que representamos como un modelo o fórmula con la que podremos hacer predicciones extrapolando los resultados anteriores a otras entradas diferentes.
Los modelos de aprendizaje supervisado, se denominan habitualmente modelos de clasificación ya que tratan de agrupar los valores en conjuntos con características semejantes, y la respuesta es el grupo al que creen que pertenece el hecho definido en la entrada.
Existen diferentes algoritmos que abordan el problema de aprendizaje supervisado y técnicas de minería de datos, en concreto vamos a explicar en este manual los 5 siguientes:
- knn ((k-Nearest Neighbour Classification).
- naive bayes
- regresión logística binaria
- árboles de decisión
- bosques de clasificación
1.1 Antes de empezar
Este libro ha sido escrito con objeto de contribuir a la difusión del conocimiento. Se ha tratado de introducir, mediante ejemplos, gráficas y código, el uso de modelos matemáticos y estadísticos complejos. Para ello se hace uso del lenguaje R, que pone al alcance de todos un cuerpo matemático avanzado y poderoso, y además de forma libre, desinteresada y gratuíta.
Este libro forma parte de ese espíritu libre con el que muchos disfrutamos y vivimos cada día, con la esperanza de contribuir al avance del conocimiento y de la ciencia, espero que lo disfrutes y lo aproveches.
Ars longa, vita brevis
El manual se ha escrito usando la librería bookdown que facilita la creación de documentación y libros que contienen código (además es libre como todo en R).
La versión en línea de este libro tiene licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
1.2 R
R es un lenguaje de programación estadístico y de creación de modelos matemáticos. Es un lenguaje adaptado al uso científico y uno de los que más ha crecido en los últimos años.
El libro requiere cierta práctica previa con R, si quieres iniciarte en este apasionante mundo de los modelos y la ciencia de datos con R y ves que el nivel del libro es avanzado empieza antes con este otro manual (F. Villalba Bergado 2017).
Fernando Villalba Bergado
Cieza, España
Referencias
F. Villalba Bergado. 2017. Manual de R para el científico de datos. Murcia, España: -. https://drive.google.com/file/d/1EoLm-rqr5eikmpodb90uIGyju6E1jBjZ/view?usp=sharing.