Capítulo 1 Introducción

El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros.

El proceso habitual consiste en dividir la muestra en dos conjuntos, uno de entrenamiento y otro de prueba o test. Con los datos de entrenamiento ordenados convenientemente obtenemos un conjunto de vectores o pares de entrada-salida.

La salida es la variable dependiente, y las entradas son las variables que usaremos para pronosticar la variable dependiente. es decir, la salida es lo que deseamos pronosticar. Los algoritmos de aprendizaje, “aprenden” de los datos de entrenamiento en lo que representamos como un modelo o fórmula con la que podremos hacer predicciones extrapolando los resultados anteriores a otras entradas diferentes.

Los modelos de aprendizaje supervisado, se denominan habitualmente modelos de clasificación ya que tratan de agrupar los valores en conjuntos con características semejantes, y la respuesta es el grupo al que creen que pertenece el hecho definido en la entrada.

Existen diferentes algoritmos que abordan el problema de aprendizaje supervisado y técnicas de minería de datos, en concreto vamos a explicar en este manual los 5 siguientes:

1.1 Antes de empezar

Este libro ha sido escrito con objeto de contribuir a la difusión del conocimiento. Se ha tratado de introducir, mediante ejemplos, gráficas y código, el uso de modelos matemáticos y estadísticos complejos. Para ello se hace uso del lenguaje R, que pone al alcance de todos un cuerpo matemático avanzado y poderoso, y además de forma libre, desinteresada y gratuíta.

Este libro forma parte de ese espíritu libre con el que muchos disfrutamos y vivimos cada día, con la esperanza de contribuir al avance del conocimiento y de la ciencia, espero que lo disfrutes y lo aproveches.

Ars longa, vita brevis

El manual se ha escrito usando la librería bookdown que facilita la creación de documentación y libros que contienen código (además es libre como todo en R).

Creative Commons License
La versión en línea de este libro tiene licencia Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

1.2 R

R es un lenguaje de programación estadístico y de creación de modelos matemáticos. Es un lenguaje adaptado al uso científico y uno de los que más ha crecido en los últimos años.

El libro requiere cierta práctica previa con R, si quieres iniciarte en este apasionante mundo de los modelos y la ciencia de datos con R y ves que el nivel del libro es avanzado empieza antes con este otro manual (F. Villalba Bergado 2017).

Reconozca las cosas como son, sin que las acrescienten o mengüen las pasiones. Empresa VII del libro de Diego Saavedra Fajardo

Reconozca las cosas como son, sin que las acrescienten o mengüen las pasiones. Empresa VII del libro de Diego Saavedra Fajardo

Fernando Villalba Bergado  
Cieza, España

Referencias

F. Villalba Bergado. 2017. Manual de R para el científico de datos. Murcia, España: -. https://drive.google.com/file/d/1EoLm-rqr5eikmpodb90uIGyju6E1jBjZ/view?usp=sharing.