{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Métodos de ensembles \n", "\n", "## Introducción.\n", "\n", "```{index} ensembles,bagging, boosting\n", "```\n", "En apartados anteriores se han explicado diversos métodos supervisados de machine learning, que permitían bien hacer una clasificación o una predicción mediante regresión. Cada uno de estos métodos tenían sus pros y sus contras.\n", "\n", "Con los métodos denominados de ensambles o también denominados de **combinación de algoritmos simples**, lo que se trata es obtener información de diversos métodos de predicción o clasificación y mejorar el ajuste buscado. De forma general, estos métodos se pueden agrupar en dos grandes bloques: bagging y boosting y los mismos son muy populares dentro del muundo de machine learning, siendo muy utilizados en competiciones online como Kaggle. \n", "\n", "Una clasificación un poco más exhaustiva de estos sistemas de aprendizaje se puede ver en la siguiente imagen\n", "\n", "![resumenEnsamble.PNG](figuras/resumenEnsamble.PNG)\n", "\n", "Entre los métodos de aprendizaje que combinan varios sistemas de predicción, se encuentran XGBoost, Random Forest o AdaBoost\n", "\n", "Estos sistemas de algoritmos ensamblados consisten básicamente en unir varios algoritmos más simples con la finalidad de obtener un algoritmo más potentes que mejores la acuracidad del modelo que se está construyendo, es decir, se basan en el principio popular de que \"la unión hace la fuerza\" como lo pueden confirmar estos algoritmos ensamblados.\n", "\n", "Como ya se ha dicho anteriormente hay muchas formas de ensamblar o unir algoritmos más débiles para formar otro más potente y de mayor fiabilidad, pero entre los más usados y populares son los denominados de tipo **bagging** y de tipo **boosting**.\n", "\n", "## Bagging.\n", "\n", "```{index} pasting\n", "```\n", "\n", "Los algorimos de tipo bagging (*bootstrap aggregation*), fue propuesto por Breiman en 1996, con el cual se reduce la varianza y se basa en utilizar técnicas de tipo bootstrap junto con un modelo de regresión o de clasificación. Si en vez de utilizar técnicas de remuestreo con reemplazamineto, lo hacemos con muestreo SIN reemplazamiento entonces el método se se domina *Pasting*.\n", "\n", "La idea que subyace en la creación de este tipo de modelos es la siguiente.Si disponemos de muchas muestras de entrenamiento (submuestreo con reemplazamiento-bagging- o sin reemplazamiento-pasting-), entonces se puede utilizar cada una de estas muestras para entrenar el modelo y hacer una predicción. Con este método, se tendrán tantas predicciones como modelos o muestras de entrenamiento. Cada una de estas muestras de entrenamiento se denomina en términos anglosajones *bootstrapped training data set*.\n", "\n", "Para un modelo que tenga intrínsecamente poca variabilidad, como puede ser una regresión lineal, aplicar bagging puede ser poco interesante, ya que hay poco margen para mejorar el rendimiento. Por contra, es un método muy importante para los árboles de decisión, porque un árbol con mucha profundidad (sin podar) tiene mucha variabilidad: si modificamos ligeramente los datos de entrenamiento es muy posible que se obtenga un nuevo árbol completamente distinto al anterior; y esto se ve como un inconveniente. Por esa razón, en este contexto encaja perfectamente la metodología bagging.\n", "\n", "Así, para árboles de regresión se hacen crecer muchos árboles (sin poda) y se calcula la media de las predicciones. En el caso de los árboles de clasificación lo más sencillo es sustituir la media por la moda y utilizar el criterio del voto mayoritario: cada modelo tiene el mismo peso y por tanto cada modelo aporta un voto. Además, la proporción de votos de cada categoría es una estimación de su probabilidad.\n", "\n", "(errorbagging)=\n", "### Estimación error de predicción con bagging.\n", "```{index} bootstrap (muestra),out-of-bag,OOB\n", "```\n", "Utilizando este tipo de métodos, se puede obtener un error de predicción de una forma directa, utilizando el siguiente procedimiento. Una muestra de tipo bootstrap va a contener muchas observaciones repetidas y en promedio, sólo utiliza aproximadamente los dos tercios de los datos originales para formar esa muestra. Entonces teniendo esto en cuenta y sabiendo que un dato que no se utiliza para construir el modelo se denomina *out-of-bag* (OOB), para cada observación se pueden utilizar los modelos para los que esa observación es out-of-bag (es decir en promedio un tercio de los modelos construidos) y así hacer una predicción de la misma. Repetiremos el proceso para todas las observaciones y se obtendría de esta manera una medida del error cometido.\n", "\n", "Para obtener la agregación de las salidas de cada modelo simple e independiente, bagging puede usar la votación para los modelos de clasificación y el método del promedio para los métodos de regresión.\n", "\n", "## Boosting.\n", "\n", "Esta metodología se encuadra dentro de lo que genéricamente se conoce como *aprendizaje lento*, en el cual se combinan muchos modelos obtenidos mediante un método quizá con poca capacidad predictiva, para que la misma sea mejorada mediante etapas sucesivas y así incrementar la calidad final del predictor. Así por ejemplo los árboles de decisión construidos con poca profundidad y por lo tanto quizá con escasa capacidad predictiva pueden ser perfectos para esta tarea, ya que así son fáciles de combinar y su generación puede ser rápida.\n", "\n", "Este tipo de métodos vieron su origen en el año 1984 gracias a los trabajos de Valiant y después fueron ampliados y mejorados por Kearns y Valiant en 1994. Sin embargo la implementación efectiva y práctica se logró mediante el algoritmo AdaBoost presentado en el año 1996 por Freund y Schapire.\n", "\n", "ver este enlace https://rubenfcasal.github.io/aprendizaje_estadistico/boosting.html\n", "\n", "\n", "## bagging vs boosting.\n", "\n", "Una vez indicado en los apartados anteriores, las líneas maestras que vertebran los métodos de combinación de algoritmos, a continuación veamos cuales son las principales ventajas de estos algoritmos.\n", "\n", "Dado que los métodos bagging se pueden entrenar de *forma independiente* para cada muestra utilizada, su principal ventaja radica en que todos los modelos que se construyan, se pueden hacer en paralelo, lo cual agiliza considerablemente el proceso a seguir, sobre todo cuando se está trabajando con una buena cantidad de datos\n", "\n", "En el caso de los algoritmos boosting, los modelos simples utilizado se usan secuencialmente, por lo que aquí no se utilizará la programación en paralelo que hemos comentado para los modelos bagging. El principal objetivo de estos métodos secuenciales es el de aprovecharse de la dependencia que se establece entre los modelos simples. En este tipo de modelos, se mejora el rendimiento de los mismos creando un modelo simple posterior que dé más importancia a los errores cometidos por un modelo simple desarrollado previamente.\n", "\n", "Por todo lo comentado anteriormente, la diferencia con los métodos bagging es que en el boosting los algoritmos no son independientes, el hijo depende del resultado del algoritmo padre, y en este sentido se van ponderando los errores que se cometen anteriormente.\n", "\n", "
\n", "[]: # Ver enlace https://machinelearningparatodos.com/cual-es-la-diferencia-entre-los-metodos-de-bagging-y-los-de-boosting/\n", "
\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## bagging (Bootstrap aggregating) en Scikip Learn.\n", "\n", "Recordemos previamente que esta técnica, tiene como rasgos principales los siguientes aspectos:\n", "\n", "* Se remuestrea repetidamente el conjunto de datos de entrenamiento.\n", "\n", "* Con cada conjunto de datos se entrena un modelo.\n", "\n", "* Las predicciones se obtienen promediando las predicciones de los modelos (la decisión mayoritaria en el caso de clasificación).\n", "\n", "* Se puede estimar la precisión de las predicciones con el error OOB (out-of-bag).\n", "\n", "La técnica de bagging se puede implementar en Scikip Learn, gracias a dos clases: [BaggingClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html) y [BaggingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingRegressor.html).\n", "\n", "Mirando la documentación de cada una de estas clases, se puede observar que las dos tienen como parámetro *oob_score*, el cual admite un valor booleano, para indicar si queremos que se utilice la técnica de OOB (out-of-bag) [ya explicada en un apartado anterior](errorbagging), para estimar el error o no.\n", "\n", "Veamos a continuación un ejemplo de uso de BaggingClassifier en Scikip Learn\n", "\n", "### Ejemplo de BaggingClassifier.\n", "\n", "En este ejemplo vamos realizar en primer lugar una clasificación usando sólo el algoritmo LogisticRegression. Sobre este modelo calcularemos algunos parámetros de la bondad del ajuste, y posteriormente haremos un ensamble de métodos utilizando para ello BaggingClasiifier con estimador base LogistidRegression. Al final podremos ver las diferencias entre ajustar un modelo u otro." ] }, { "cell_type": "code", "execution_count": 125, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "from sklearn import datasets\n", "from sklearn.model_selection import train_test_split\n", "from sklearn.preprocessing import StandardScaler\n", "from sklearn.linear_model import LogisticRegression\n", "from sklearn.pipeline import make_pipeline\n", "from sklearn.ensemble import BaggingClassifier\n", "from sklearn.model_selection import GridSearchCV" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Comenzamos por cargar los datos de breast cancer, que ya vienen dentro de paquete de scikit learn." ] }, { "cell_type": "code", "execution_count": 126, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(569, 30)" ] }, "execution_count": 126, "metadata": {}, "output_type": "execute_result" } ], "source": [ "datos = datasets.load_breast_cancer()\n", "X = datos.data\n", "y = datos.target\n", "X.shape" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Este fichero contiene un total de 30 variables numéricas, observadas sobre determinados enfermos de cáncer, 569 samples o muestras, y dos tipos diferentes de target o clases a clasificar. Veamos algunos ejemplos de esto." ] }, { "cell_type": "code", "execution_count": 127, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([[ 0, 212],\n", " [ 1, 357]], dtype=int64)" ] }, "execution_count": 127, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Veamos los valores que hay en la variable target\n", "\n", "unique, counts = np.unique(y, return_counts=True)\n", "\n", "np.asarray((unique, counts)).T" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Generamos los datos de entrenamiento y de test" ] }, { "cell_type": "code", "execution_count": 128, "metadata": {}, "outputs": [], "source": [ "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1, stratify=y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Estandarizamos los datos y luego realizamos la clasificación mediante una regresión logic. Para agilizar este proceso lo hacemos mediante la clase pipeline, que se utiliza para hacer una agrupación de operaciones y hacerlo de una forma secuencial, de forma que la salida de una operación es la entrada de la siguiente (es lo que se conoce como tubería de operaciones)." ] }, { "cell_type": "code", "execution_count": 129, "metadata": {}, "outputs": [], "source": [ "pipeline = make_pipeline(StandardScaler(),\n", " LogisticRegression(random_state=1))" ] }, { "cell_type": "code", "execution_count": 130, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Pipeline(steps=[('standardscaler', StandardScaler()),\n", " ('logisticregression', LogisticRegression(random_state=1))])" ] }, "execution_count": 130, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Ajustamos el modelo\n", "pipeline.fit(X_train, y_train)" ] }, { "cell_type": "code", "execution_count": 131, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Modelo test Score: 0.965, Modelo training Score: 0.991\n" ] } ], "source": [ "print('Modelo test Score: %.3f, ' %pipeline.score(X_test, y_test),\n", " 'Modelo training Score: %.3f' %pipeline.score(X_train, y_train))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Notemos que se aprecia un pequeño overfitting en el modelo, ya que el score es de 0.991 para el entrenamiento y para el test, 0.965" ] }, { "cell_type": "code", "execution_count": 132, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "matriz de confusión para train\n", "[[156 1]\n", " [ 3 266]]\n", "\n", " matriz de confusión para test\n" ] }, { "data": { "text/plain": [ "array([[50, 2],\n", " [ 3, 88]], dtype=int64)" ] }, "execution_count": 132, "metadata": {}, "output_type": "execute_result" } ], "source": [ "## Creamos la matrices de confusión\n", "from sklearn.metrics import confusion_matrix\n", "\n", "print(\"matriz de confusión para train\")\n", "y_pred_train = pipeline.predict(X_train)\n", "\n", "print(confusion_matrix(y_pred_train, y_train))\n", "\n", "print(\"\\n matriz de confusión para test\")\n", "y_pred_test = pipeline.predict(X_test)\n", "\n", "confusion_matrix(y_pred_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hagamos ahora esto mismo, pero utilizando para ello un clasificador Bagging. Utilizamos para hacer esto los siguientes hiperparámateros:\n", "\n", "* n_estimators = 100\n", "\n", "* max_features = 10\n", "\n", "* max_samples = 100" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "# Creamos el pipeline\n", "pipeline = make_pipeline(StandardScaler(),\n", " LogisticRegression(random_state=1))" ] }, { "cell_type": "code", "execution_count": 133, "metadata": {}, "outputs": [], "source": [ "# Ahora definimos nuestro clasificador Bagging\n", "bgclasificador = BaggingClassifier(base_estimator=pipeline, n_estimators=100,\n", " max_features=10,\n", " max_samples=100,\n", " random_state=1, n_jobs=5)" ] }, { "cell_type": "code", "execution_count": 134, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "BaggingClassifier(base_estimator=Pipeline(steps=[('standardscaler',\n", " StandardScaler()),\n", " ('logisticregression',\n", " LogisticRegression(random_state=1))]),\n", " max_features=10, max_samples=100, n_estimators=100, n_jobs=5,\n", " random_state=1)" ] }, "execution_count": 134, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Ajustamos el modelo\n", "bgclasificador.fit(X_train, y_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Veamos la salida del score, para poder comparar con el modelo anterior" ] }, { "cell_type": "code", "execution_count": 135, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Modelo test Score: 0.958, Modelo training Score: 0.972\n" ] } ], "source": [ "print('Modelo test Score: %.3f, ' %bgclasificador.score(X_test, y_test),\n", " 'Modelo training Score: %.3f' %bgclasificador.score(X_train, y_train))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Podemos ver que a diferencia del anterior modelo, se ha corregido el pequeño overfiting que habíamos visto antes y por lo tanto, tendrá una mejor generalización del mismo que lo obtenido en el ejemplo anterior." ] }, { "cell_type": "code", "execution_count": 136, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "matriz de confusión para train\n", "[[148 1]\n", " [ 11 266]]\n", "\n", " matriz de confusión para test\n" ] }, { "data": { "text/plain": [ "array([[48, 1],\n", " [ 5, 89]], dtype=int64)" ] }, "execution_count": 136, "metadata": {}, "output_type": "execute_result" } ], "source": [ "print(\"matriz de confusión para train\")\n", "y_pred_train = bgclasificador.predict(X_train)\n", "\n", "print(confusion_matrix(y_pred_train, y_train))\n", "\n", "print(\"\\n matriz de confusión para test\")\n", "y_pred_test = bgclasificador.predict(X_test)\n", "\n", "confusion_matrix(y_pred_test, y_test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como ejercicio para que el lector práctique con este ejemplo, se aconseja utilizar las clases [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) y [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) para localizar hiperparámetros que intenten mejorar los resultados.\n", "\n", "En lugar de utilizar un modelo de regresión logit, utilizar otro modelo de clasificación, y observar si se mejora o empeoran los resultados." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Ejemplo de BaggingRegressor.\n", "\n", "En este ejemplo vamos a construir un modelo utilizando BaggingRegressor para comprobar la ganancia que se obtiene con este tipo de técnicas. \n", "\n", "En concreto se trata de crear un modelo de datos artificial, con la finalidad de ver qué errores se obtienen al aplicar diferentes modelos sobre los datos previamente generados y más en concreto, cómo queda la descomposición de esos errores en las tres componentes siguientes que conforman el error: sesgo, varianza y ruido aleatorio " ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "import matplotlib.pyplot as plt\n", " \n", "from sklearn.ensemble import BaggingRegressor\n", "from sklearn.tree import DecisionTreeRegressor" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# ajustes. Definimos los parámetros que configuran el modelo\n", "n_repeat = 50 # numero de iteraciones\n", "n_train = 50 # tamaño del set de entrenamiento\n", "n_test = 1000 # tamaño del set de test\n", "noise = 0.1 # desviacion estander de ruido\n", "np.random.seed(0)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "# Se propone al lector cambiar esto por explorar la descomposición sesgo-varianza de otros \n", "# estimadores. Esto debería funcionar bien para estimadores con alta varianza (por ejemplo, \n", "# árboles de decisión o KNN), pero mal para estimadores con baja varianza (por ejemplo, \n", "# modelos lineales).\n", "estimators = [(\"Tree\", DecisionTreeRegressor()), (\"Bagging(Tree)\", BaggingRegressor(DecisionTreeRegressor()))]\n", " \n", "n_estimators = len(estimators)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "# función para la generacion de datos\n", "def f(x):\n", " x = x.ravel()\n", " return np.exp(-x ** 2) + 1.5 * np.exp(-(x - 2) ** 2)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "# generación de muestras\n", "def generate(n_samples, noise, n_repeat=1):\n", " X = np.random.rand(n_samples) * 10 - 5\n", " X = np.sort(X)\n", " \n", " if n_repeat == 1:\n", " y = f(X) + np.random.normal(0.0, noise, n_samples)\n", " else:\n", " y = np.zeros((n_samples, n_repeat))\n", " \n", " for i in range(n_repeat):\n", " y[:, i] = f(X) + np.random.normal(0.0, noise, n_samples)\n", " \n", " X = X.reshape((n_samples, 1))\n", " \n", " return X, y" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "#creamos los datos de entrenamiento\n", " \n", "X_train = []\n", "y_train = []\n", " \n", "for i in range(n_repeat):\n", " X, y = generate(n_samples=n_train, noise=noise)\n", " X_train.append(X)\n", " y_train.append(y)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "# Los datos de test\n", "X_test, y_test = generate(n_samples=n_test, noise=noise, n_repeat=n_repeat)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Procedemos a continuación a generar las figuras correspondientes" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Tree: 0.0255 (error) = 0.0003 (bias^2) + 0.0152 (var) + 0.0098 (noise)\n", "Bagging(Tree): 0.0196 (error) = 0.0004 (bias^2) + 0.0092 (var) + 0.0098 (noise)\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "Substituting symbol E from STIXNonUnicode\n", "Substituting symbol E from STIXNonUnicode\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.figure(figsize=(10, 8))\n", "# Estimadores de bucle para comparar\n", "for n, (name, estimator) in enumerate(estimators):\n", " # computacion de predicciones\n", " y_predict = np.zeros((n_test, n_repeat))\n", " \n", " for i in range(n_repeat):\n", " estimator.fit(X_train[i], y_train[i])\n", " y_predict[:, i] = estimator.predict(X_test)\n", " #sesgo^2 + Variación + Descomposición del ruido del error promedio al cuadrado\n", " y_error = np.zeros(n_test)\n", " \n", " for i in range(n_repeat):\n", " for j in range(n_repeat):\n", " y_error += (y_test[:, j] - y_predict[:, i]) ** 2\n", " \n", " y_error /= (n_repeat * n_repeat)\n", " \n", " y_noise = np.var(y_test, axis=1)\n", " y_bias = (f(X_test) - np.mean(y_predict, axis=1)) ** 2\n", " y_var = np.var(y_predict, axis=1)\n", " \n", " print(\"{0}: {1:.4f} (error) = {2:.4f} (bias^2) \"\" + {3:.4f} (var) + {4:.4f} (noise)\".\n", " format(name, np.mean(y_error), np.mean(y_bias), np.mean(y_var), np.mean(y_noise)))\n", " \n", " # representamos figuras\n", " plt.subplot(2, n_estimators, n + 1)\n", " plt.plot(X_test, f(X_test), \"b\", label=\"$f(x)$\")\n", " plt.plot(X_train[0], y_train[0], \".b\", label=\"LS ~ $y = f(x)+noise$\")\n", " \n", " for i in range(n_repeat):\n", " if i == 0:\n", " plt.plot(X_test, y_predict[:, i], \"r\", label=\"$\\^y(x)$\")\n", " else:\n", " plt.plot(X_test, y_predict[:, i], \"r\", alpha=0.05)\n", " \n", " plt.plot(X_test, np.mean(y_predict, axis=1), \"c\", label=\"$\\mathbb{E}_{LS} \\^y(x)$\")\n", " \n", " plt.xlim([-5, 5])\n", " plt.title(name)\n", " \n", " if n == n_estimators - 1:\n", " plt.legend(loc=(1.1, .5))\n", " \n", " plt.subplot(2, n_estimators, n_estimators + n + 1)\n", " plt.plot(X_test, y_error, \"r\", label=\"$error(x)$\")\n", " plt.plot(X_test, y_bias, \"b\", label=\"$sesgo^2(x)$\"),\n", " plt.plot(X_test, y_var, \"g\", label=\"$varianza(x)$\"),\n", " plt.plot(X_test, y_noise, \"c\", label=\"$ruido(x)$\")\n", " \n", " plt.xlim([-5, 5])\n", " plt.ylim([0, 0.1])\n", " \n", " if n == n_estimators - 1:\n", " \n", " plt.legend(loc=(1.1, .5))\n", " \n", "plt.subplots_adjust(right=.75)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como resumen de todo el código y con el fin de ayudar a la interpretación del mismo, se puede decir lo siguiente.\n", "\n", "En este ejemplo se generan una serie de números en base a la función denominada n_samples() y posteriormente se hace un ajuste de regresión, y se mejora el ajuste mediante una técnica Bagging.\n", "\n", "En este tipo de análisis de regresión, el error cuadrático medio de un estimador, se considera que puede descomponerse en términos de sesgo ( desviación de los datos respecto de su media), varianza y ruido (es lo que sacamos en los dos gráficos inferiores). \n", "\n", "En la figura superior izquierda se muestran las predicciones ( en rojo oscuro) de un único árbol de decisión entrenado sobre un conjunto de datos aleatoria (son los puntos azules). Sin embargo el gráfico superior derecho muestra el ajuste utilizando un procedimiento Bagging.\n", "\n", "Los dos gráficos de la parte inferior, contienen la descomposición del error en términos de sesgo, varianza y ruido. De acuerdo con estos últimos gráficos podemos ver que:\n", "\n", "* El error cometido con el método ensamble es menor, ya que la gráfica en rojo de la derecha queda por debajo de esa misma gráfica de la zona izquierda.\n", "\n", "* Lo que más contribuye al error es la varianza (en color verde).\n", "\n", "* El sesgo es apenas perceptible en los dos casos.\n", "\n", "* El ruido del modelo está en unos niveles similares en los dos modelos, debido a la característica propia del modelo con el que se ha construido." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Método AdaBoost.\n", "\n", "```{index} AdaBoost\n", "```\n", "Este método se basa en un proceso iterativo, en el cual se aplica un clasificador en cada paso, pero al pasar de una etapa a la siguiente, se presta una mayor atención a los puntos mal clasificados en la etapa anterior. \n", "\n", "En Yutube, [se recomienda ver este vídeo](https://www.youtube.com/watch?v=LsK-xG1cLYA) que aclara la base de este algoritmo.\n", "\n", "```{index} Decicision Stump\n", "```\n", "\n", "Así pues para todo este se necesita un clasificador de base, que en el caso de scikit learn, se utiliza por defecto el denominado *Decision Stump*, que no es más que un árbol de decisión con el parámetro max_depth = 1, es decir un árbol compuesto de un solo nodo de decisión con dos hojas finales.\n", "\n", "![stump](figuras/stump.PNG)\n", "\n", "En este sentido el ciclo que seguiría este algoritmo sería el siguiente en el caso de construir un AdaBoost classifier. Se comienza el ciclo entrenando un clasificador base (por ejemplo un árbol de decisión) y con el mismo se obtienen el conjunto de predicciones de los datos de entrenamiento. Entonces en el segundo paso, el peso relativo de las observaciones mal clasificadas es incrementado (y por ende, como la suma de los pesos totales es uno, se disminuye el de observaciones bien clasificadas), y a continuación se entrena el mismo clasificador pero con los nuevos pesos y se hacen las correspondientes predicciones, los pesos son actualizados como ya se ha hecho en la etapa anterior, y así se continua el ciclo hasta terminar el proceso iterativo. \n", "\n", "\n", "
\n", "ver https://rubenfcasal.github.io/aprendizaje_estadistico/boosting.html\n", "
\n", "\n", "A continuación vamos a generar una serie de gráficos que visualizan el proceso de mejora del ajuste que se obtiene al utilizar la técnica de AdaBoost.\n", "\n", "Comenzamos por importar las librerías que vamos a necesitar." ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "import sklearn\n", "\n", "# importamos matplotlib\n", "%matplotlib inline\n", "import matplotlib as mpl\n", "import matplotlib.pyplot as plt\n", "mpl.rc('axes', labelsize=14)\n", "mpl.rc('xtick', labelsize=12)\n", "mpl.rc('ytick', labelsize=12)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "from sklearn.model_selection import train_test_split\n", "from sklearn.datasets import make_moons\n", "\n", "X, y = make_moons(n_samples=500, noise=0.30, random_state=42)\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Generamos los datos y a continuación procedemos a hacer su representación gráfica" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "plt.scatter(X[:,0],X[:,1], c=y)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lo primero que vamos a hacer es obtener un ajuste AdaBoost, utilizando como estimador de base un clasificador de tipo árbol de decisión básico, con un sólo nivel de profundidad. En este paso se le indica con el parámetro *n_estimators* un total de 200 pasos" ] }, { "cell_type": "code", "execution_count": 105, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),\n", " learning_rate=0.5, n_estimators=200, random_state=42)" ] }, "execution_count": 105, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.tree import DecisionTreeClassifier\n", "from sklearn.ensemble import AdaBoostClassifier\n", "\n", "ada_clf = AdaBoostClassifier(\n", " DecisionTreeClassifier(max_depth=1), n_estimators=200,\n", " algorithm=\"SAMME.R\", learning_rate=0.5, random_state=42)\n", "ada_clf.fit(X_train, y_train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A continuación creamos una función de conveniencia que nos será útil para trabajos posteriores para poder dibujar las zonas y fronteras de decisión con el estimador que se le pase como parámetro.\n", "\n", "Una vez definida la función procedemos a hacer la representación gráfica de las fronteras de decisión que se obtienen en base al modelo generado anteriormente." ] }, { "cell_type": "code", "execution_count": 106, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from matplotlib.colors import ListedColormap\n", "import numpy as np\n", "\n", "def plot_decision_boundary(clf, X, y, axes=[-1.5, 2.45, -1, 1.5], alpha=0.5, contour=True ,color=0):\n", " x1s = np.linspace(axes[0], axes[1], 100)\n", " x2s = np.linspace(axes[2], axes[3], 100)\n", " x1, x2 = np.meshgrid(x1s, x2s)\n", " X_new = np.c_[x1.ravel(), x2.ravel()]\n", " y_pred = clf.predict(X_new).reshape(x1.shape)\n", " custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])\n", " plt.contourf(x1, x2, y_pred, alpha=0.3, cmap=custom_cmap)\n", " \n", " if contour:\n", " custom_cmap2 = ListedColormap(['#7d7d58','#4c4c7f','#507d50'])\n", " colores = ['Greens','Blues','Greys','Reds']\n", " plt.contour(x1, x2, y_pred, cmap=colores[color], alpha=0.8)\n", "\n", " plt.plot(X[:, 0][y==0], X[:, 1][y==0], \"yo\", alpha=alpha)\n", " plt.plot(X[:, 0][y==1], X[:, 1][y==1], \"bs\", alpha=alpha)\n", " plt.axis(axes)\n", " plt.xlabel(r\"$x_1$\", fontsize=18)\n", " plt.ylabel(r\"$x_2$\", fontsize=18, rotation=0)\n", " \n", " \n", "plot_decision_boundary(ada_clf, X, y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Una vez hecha la primera presentación del método, a continuación nos disponemos a obtener el resultado que vamos buscando, es decir ver cómo va mejorando la clasificación con el método AdaBoost a medida que vamos incrementado el número de pasadas. Es to se va a ver claro con los gráficos que se generan con el siguiente código." ] }, { "cell_type": "code", "execution_count": 108, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklearn.svm import SVC\n", "from matplotlib.lines import Line2D\n", "\n", "custom_lines = [Line2D([0], [0], color='green', lw=1),\n", " Line2D([0], [0], color='blue', lw=1),\n", " Line2D([0], [0], color='grey', lw=1),\n", " Line2D([0], [0], color='red', lw=1),\n", " ]\n", "\n", "m = len(X_train)\n", "\n", "fix, axes = plt.subplots(ncols=2, figsize=(12,7), sharey=True)\n", "for subplot, learning_rate2 in ((0, 0.3), (1, 0.2)):\n", " sample_weights = np.ones(m)\n", " plt.sca(axes[subplot])\n", " for i in range(5,9):\n", " ada_clf2 = AdaBoostClassifier(\n", " SVC(kernel=\"rbf\", C=0.05, gamma=\"scale\",probability=True), \n", " n_estimators=i,\n", " learning_rate = learning_rate2, \n", " algorithm=\"SAMME.R\",\n", " random_state = 4)\n", " \n", " ada_clf2.fit(X_train, y_train)\n", " \n", " plot_decision_boundary(ada_clf2, X, y, alpha=0.2,color=i-5)\n", " plt.title(\"learning_rate = {}\".format(learning_rate2), fontsize=16)\n", " \n", " plt.legend(custom_lines, ['paso 1', 'paso 2', 'paso 3','paso 4'])\n", "\n", "plt.show()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como puede verse en los gráficos anteriores (uno para una tasa de aprendizaje de 0.3 y el otro de 0.2), a medida que se van incrementando los pasos, las curvas que delimitan las dos zonas de clasificación de los puntos, se van ajustando cada vez más y por lo tanto mejorando el ajuste que vamos buscando.\n", "\n", "Para apreciar aún con mayor detalle esta mejora en la clasificación a medida que incrementamos el número de pasos en el estimador, vamos a ver otro ejemplo similar al anterior pero en este caso, utilizando como estimador de base un árbol de decisión. " ] }, { "cell_type": "code", "execution_count": 110, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from sklearn.ensemble import AdaBoostClassifier\n", "from sklearn.tree import DecisionTreeClassifier\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline\n", "from sklearn.datasets import make_moons\n", "N = 1000\n", "X,Y = make_moons(N,noise=0.2)\n", "plt.scatter(X[:,0],X[:,1], c=Y)\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 111, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "clf = DecisionTreeClassifier(max_depth=3)\n", "clf.fit(X,Y)\n", "xx,yy = np.meshgrid(np.linspace(-1.5,2.5,50),np.linspace(-1,1.5,50))\n", "Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])\n", "Z = Z.reshape(xx.shape)\n", "plt.scatter(X[:,0],X[:,1], c = Y)\n", "plt.contourf(xx,yy,Z,alpha=0.3)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Teniendo como base el anterior clasificador, procedemos a continuación a mejorar la clasificación viendo cómo queda esta clasificación después de realizar una serie de pasos." ] }, { "cell_type": "code", "execution_count": 121, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "fig,aux = plt.subplots(2,2, figsize=(10,10))\n", "\n", "ada = AdaBoostClassifier(clf, n_estimators=2, learning_rate=0.1)\n", "ada.fit(X,Y)\n", "xx,yy = np.meshgrid(np.linspace(-1.5,2.5,50),np.linspace(-1,1.5,50))\n", "Z = ada.predict(np.c_[xx.ravel(), yy.ravel()])\n", "Z = Z.reshape(xx.shape)\n", "aux[0,0].scatter(X[:,0],X[:,1], c = Y)\n", "aux[0,0].contourf(xx,yy,Z,alpha=0.3)\n", "aux[0,0].title.set_text(\"Dos estimaciones\")\n", "\n", "ada = AdaBoostClassifier(clf, n_estimators=5, learning_rate=0.1)\n", "ada.fit(X,Y)\n", "xx,yy = np.meshgrid(np.linspace(-1.5,2.5,50),np.linspace(-1,1.5,50))\n", "Z = ada.predict(np.c_[xx.ravel(), yy.ravel()])\n", "Z = Z.reshape(xx.shape)\n", "aux[0,1].scatter(X[:,0],X[:,1], c = Y)\n", "aux[0,1].contourf(xx,yy,Z,alpha=0.3)\n", "aux[0,1].title.set_text(\"cinco estimaciones\")\n", "\n", "ada = AdaBoostClassifier(clf, n_estimators=7, learning_rate=0.1)\n", "ada.fit(X,Y)\n", "xx,yy = np.meshgrid(np.linspace(-1.5,2.5,50),np.linspace(-1,1.5,50))\n", "Z = ada.predict(np.c_[xx.ravel(), yy.ravel()])\n", "Z = Z.reshape(xx.shape)\n", "aux[1,0].scatter(X[:,0],X[:,1], c = Y)\n", "aux[1,0].contourf(xx,yy,Z,alpha=0.3)\n", "aux[1,0].title.set_text(\"siete estimaciones\")\n", "\n", "ada = AdaBoostClassifier(clf, n_estimators=10, learning_rate=0.1)\n", "ada.fit(X,Y)\n", "xx,yy = np.meshgrid(np.linspace(-1.5,2.5,50),np.linspace(-1,1.5,50))\n", "Z = ada.predict(np.c_[xx.ravel(), yy.ravel()])\n", "Z = Z.reshape(xx.shape)\n", "aux[1,1].scatter(X[:,0],X[:,1], c = Y)\n", "aux[1,1].contourf(xx,yy,Z,alpha=0.3)\n", "aux[1,1].title.set_text(\"diez estimaciones\")\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Es evidente que al ir incrementando el número de etapas del algoritmo el número de puntos mal clasificados va reduciéndose y por lo tanto mejorando el ajuste. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Método de ajuste.\n", "\n", "Supongamos que tenemos m instancias, es decir m observaciones o m filas en nuestro dataset. Entonces a cada instancia le damos un peso $w^{(i)}$. Observar que con la notación i nos estamos refiriendo a la instancia i-ésima. En una primera pasada, todas instancias tendrán el mismo peso igual a $\\frac{1}{m}$.\n", "\n", "Entonces con estos condicionantes, un primer predictor es entrenado, y con los errores que se cometan en este predictor, se calculan los porcentajes de errores cometidos, ponderados con los pesos que se tengan para ese predictor. Es decir se calculará para cada predictor la denominada tasa de error $t_j$ de la siguiente manera:\n", "\n", "$$r_{j}=\\frac{\\sum_{i=1,\\hat{y}_{j}^{(i)}\\neq y^{(i)}}^{m}W^{(i)}}{\\sum_{i=1}^{m}W^{(i)}}$$\n", "\n", "Observemos que con la notación empleada con el índice j nos estamos refiriendo a la predicción en la etapa j y con el índice i a la instancia i-ésima. \n", "\n", "En la fórmula anterior, $\\hat{y}_{j}^{(i)}$ hace referencia a la predicción en la etapa j-ésima, es decir la que se obtiene con el j-ésimo predictor para la instancia i-ésima. Entonces de acuerdo con esta notación, en el numerador de la fórmula anterior lo que estamos sumando son los pesos de las instancias en las que el predictor se equivoca, y lo dividimos por la suma total de los pesos.\n", "\n", "Una vez calculado este valor para la etapa j-ésima, se calcularía el valor de $\\alpha_j$ mediante la siguiente fórmula.\n", "\n", "$$\\alpha_{j}=\\eta\\cdot log\\frac{1-r_{j}}{r_{j}}$$\n", "\n", "```{index} tasa de aprendizaje, learning rate\n", "```\n", "\n", "Donde $\\eta$ se denomina tasa de aprendizaje (learning rate en terminología anglosajona)\n", "\n", "Veamos ante de seguir adelante cual es la representación gráfica de esta función:\n", "\n", "![grafica](figuras/grafica.PNG)\n", "\n", "De acuerdo con la figura anterior podemos concluir que cuando la tasa de error es alta, es decir cercana a uno entonces, el valor de $\\alpha_{j}$ toma valores negativos y tiende hacia menos infinito cuanto más cerca de uno se encuentre. Por el lado contrario, si hay pocos errores, entonces la tasa de error estará cercana a cero y en consecuencia $\\alpha_{j}$ tomará valores positivos, más altos cuanto más se acerque a cero la tasa de error.\n", "\n", "De acuerdo con esta consideraciones, ahora lo que procede es calcular los nuevos pesos para cada instancia i (i=1,2,....m), de tal manera que si en la etapa j-ésima no ha habido error de clasificación entonces se asigna el mismo pesos que tenía anteriormente, en caso contrario, el peso se incrementa de la siguiente manera:$W^{(i)}\\cdot exp(\\alpha_j)$.\n", "\n", "Es decir los nuevos pesos se asignan según lo indicado a continuación.\n", "\n", "$$\n", "W^{(i)}\\longleftarrow\\begin{cases}\n", "W^{(i)} & si\\ \\hat{y}_{j}^{(i)}=y^{(i)}\\\\\n", "W^{(i)}\\cdot exp(\\alpha_{j}) & si\\ \\hat{y}_{j}^{(i)}\\neq y^{(i)}\n", "\\end{cases}\n", "$$\n", "\n", "Pero como estamos hablando de pesos, todos los valores anteriores son normalizados, es decir se dividen por $\\sum_{i=1}^{m}w^{(i)}$.\n", "\n", "Finalmente, un nuevo predictor es obtenido utilizando estos pesos nuevos, y se vuelve a repetir de nuevo todo el proceso, hasta que finalice el número de ciclos que se le haya indicado o cuando se tenga una cierta convergencia del proceso.\n", "\n", "Para hacer la predicción final, el algoritmo AdaBoost computa todas las predicciones hechas con este procedimiento indicado anteriormente y la predicción final la hace vía voto mayoritario, es decir:\n", "\n", "$$\\hat{y}(x)=argmax_{k}\\sum_{j=1,\\hat{y}_{j}(x)=k}^{N}\\alpha_{j}$$\n", "\n", "Donde N es el número total de predictores empleados.\n", "\n", "### Adabost en Scickit Learn.\n", "\n", "Como es habitual en Scickit Learn, se pueden utilizar dos versiones de esta metodología, una para clasificación y otra para regresión: [AdaBoostClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html) y [AdaBoostRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostRegressor.html) respectivamente. \n", "\n", "En la relación anterior se han añadido los link correspondientes donde se pueden ver los parámetros y atributos que poseen ambas clases para trabajar con ellas, por lo que no se cree oportuno profundizar más en esta cuestión, ahora bien, si se cree oportuno comentar que Scikit Learn usa uan versión de AdaBoost denominada SAMME, y además con el parámetro *algorithm* existe también la posibilidad de utilizar una variante de SAMME denominada *SAMME.R* que se basa en probabilidades de clase en lugar de predicciones y generalmente tiene un mejor rendimiento\n", "\n", "### Ejemplos con Scikit Learn.\n", "\n", "A continuación vamos a ir mostrando una serie de ejemplos que ayudan a entender cómo utilizar este algoritmo con Scikit Learn.\n", "\n", "El primer ejemplo va a consistir en hacer una predicción con un arbol de decisión de profundidad 1 (modelo stump definido anteriormente), y calculamos la acuracidad obtenida. Después utilizaremos este mismo modelo como base dentro de un modelo AdaBoost y veremos cuanto mejoramos esta acuracidad." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Modelo test Score: 0.916, Modelo training Score: 0.915\n" ] } ], "source": [ "from sklearn import datasets\n", "from sklearn.model_selection import train_test_split\n", "from sklearn.preprocessing import StandardScaler\n", "from sklearn.svm import SVC\n", "from sklearn.tree import DecisionTreeClassifier\n", "from sklearn.pipeline import make_pipeline\n", "from sklearn.ensemble import AdaBoostClassifier\n", "#\n", "# Cargamos el conjunto de datos breast cancer \n", "#\n", "bc = datasets.load_breast_cancer()\n", "X = bc.data\n", "y = bc.target\n", "#\n", "# Creamos los conjuntos de emtrenamiento y test\n", "#\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=1, stratify=y)\n", "#\n", "# Creamos el pipeline\n", "#\n", "pipeline = make_pipeline(StandardScaler(),\n", " DecisionTreeClassifier(criterion='entropy', max_depth=1, random_state=1))\n", "#\n", "# ajuste del modelo\n", "#\n", "pipeline.fit(X_train, y_train)\n", "#\n", "# Model scores on test and training data\n", "#\n", "print('Modelo test Score: %.3f, ' %pipeline.score(X_test, y_test),\n", " 'Modelo training Score: %.3f' %pipeline.score(X_train, y_train))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como podemos ver el modelo obtenido ofrece una buena acuracidad y además los valores de la misma son muy similares tanto para el conjunto de entrenamiento como de test, por lo que se podría concluir que puede ser un buen modelo con buenas perspectivas para ser generalizado a cualquier conjunto de datos.\n", "\n", "Veamos no obstante si ahora esas tasas de acierto las podemos mejorar utilizando un modelo de tipo AdaBoost." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Modelo test Score: 0.937, Modelo training Score: 0.923\n" ] } ], "source": [ "#\n", "# Estandarizamos el conjunto de datos\n", "#\n", "sc = StandardScaler()\n", "X_train_std = sc.fit_transform(X_train)\n", "X_test_std = sc.transform(X_test)\n", "#\n", "# Creamos el clasificador anterior que será la base de AdaBoost\n", "#\n", "dtree = DecisionTreeClassifier(criterion='entropy', max_depth=1, random_state=1)\n", "#\n", "# Creamos el clasificador AdaBoost\n", "#\n", "adbclassifier = AdaBoostClassifier(base_estimator=dtree,\n", " n_estimators=100,\n", " learning_rate=0.0005,\n", " algorithm = 'SAMME',\n", " random_state=1)\n", "#\n", "# Ajustamos el modelo\n", "#\n", "adbclassifier.fit(X_train, y_train)\n", "#\n", "# Sacamos la acuracidad del modelo\n", "#\n", "print('Modelo test Score: %.3f, ' %adbclassifier.score(X_test, y_test),\n", " 'Modelo training Score: %.3f' %adbclassifier.score(X_train, y_train))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como podemos observar, se ha obtenido una mayor acuracidad tanto para el conjunto de datos de entrenamiento como de test, y además la generalización del modelo también es bastante aceptable." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Gradient Boosting.\n", "\n", "```{index} Gradient Boosting\n", "```\n", "Otro popular método boosting es el denominado *Gradient Boosting*, el cual se genera mediante un conjunto de árboles de decisión individuales, que son entrenado de forma secuencial, de tal manera que cada nuevo árbol creado trata de mejorar los errores de los árboles anteriores. La predicción de una observación se obtiene agregando las predicciones de todos los árboles individuales que conforman el modelo.\n", "\n", "
\n", "https://www.cienciadedatos.net/documentos/py09_gradient_boosting_python.html\n", "
\n", "\n", "Gradient Boosting es muy parecido al algoritmo AdaBoost ya que permite emplear cualquier función de coste, siempre que esta sea diferenciable. La flexibilidad de este algoritmo ha hecho posible aplicar boosting a multitud de problemas (regresión, clasificación múltiple...) convirtiéndolo en uno de los métodos de machine learning de mayor éxito. Si bien existen varias adaptaciones, la idea general de todas ellas es la misma: entrenar modelos de forma secuencial, de forma que cada modelo ajusta los residuos (errores) de los modelos anteriores.\n", "\n", "Se ajusta un primer *weak learner* $f_{1}$ con el que se predice\n", "la variable respuesta y , y se calculan los residuos $y-f_{1}(x)$\n", ". A continuación, se ajusta un nuevo modelo $f_{2}$ , que intenta\n", "predecir los residuos del modelo anterior, en otras palabras, trata\n", "de corregir los errores que ha hecho el modelo $f_{1}$ .\n", "\n", "$$\n", "f_{1}(x)\\approx y\n", "$$\n", "\n", "$$\n", "f_{2}(x)\\thickapprox y-f_{1}(x)\n", "$$\n", "\n", "En la siguiente iteración, se calculan los residuos de los dos modelos\n", "de forma conjunta $y-f_{1}(x)-f_{2}(x)$ , los errores cometidos por\n", "$f_{1}$ y que $f_{2}$ que no ha sido capaz de corregir, y se ajusta\n", "un tercer modelo $f_{3}$ para tratar de corregirlos.\n", "\n", "$$\n", "f_{3}(x)\\thickapprox y-f_{1}(x)-f_{2}(x)\n", "$$\n", "\n", "Este proceso se repite M veces, de forma que cada nuevo modelo minimiza\n", "los residuos (errores) del anterior.\n", "\n", "Dado que el objetivo de Gradient Boosting es ir minimizando los residuos\n", "iteración a iteración, es susceptible de overfitting. Una forma de\n", "evitar este problema es empleando un valor de regularización, también\n", "conocido como *learning rate* ( $\\lambda$ ), que limite la\n", "influencia de cada modelo en el conjunto del ensemble. Como consecuencia\n", "de esta regularización, se necesitan más modelos para formar el ensemble\n", "pero se consiguen mejores resultados.\n", "\n", "$$\n", "f_{1}(x)\\approx y\n", "$$\n", "\n", "$$\n", "f_{2}(x)\\thickapprox y-\\lambda\\cdot f_{1}(x)\n", "$$\n", "\n", "$$\n", "f_{3}(x)\\thickapprox y-\\lambda\\cdot f_{1}(x)-\\lambda\\cdot f_{2}(x)\n", "$$\n", "\n", "$$\n", "y\\thickapprox\\lambda f_{1}(x)+\\lambda f_{2}(x)+.....+\\lambda f_{m}(x)\n", "$$\n", "\n", "Para clarificar esta idea, a continuación procedemos a mostrar un ejemplo, en el que se puede ver en acción el fundamento del algoritmo Gradient Boosting" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "import scipy\n", "import matplotlib.pyplot as plt\n", "from sklearn import tree\n", "from IPython.display import Image\n", "%matplotlib inline\n", "from sklearn import preprocessing\n", "from sklearn.ensemble import GradientBoostingClassifier\n", "from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "# Generamos los números aleatorios\n", "np.random.seed(42)\n", "X = np.random.rand(100, 1) - 0.5\n", "y = 3*X[:, 0]**2 + 0.05 * np.random.randn(100)" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "DecisionTreeRegressor(max_depth=2, random_state=42)" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.tree import DecisionTreeRegressor\n", "\n", "# Ajustamos mediante un árbol de decisión\n", "tree_reg1 = DecisionTreeRegressor(max_depth=2, random_state=42)\n", "tree_reg1.fit(X, y)" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "DecisionTreeRegressor(max_depth=2, random_state=42)" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Obtenemos los residuos de la prdicción anterior\n", "y2 = y - tree_reg1.predict(X)\n", "# Ajustamos de nuevo los residuos\n", "tree_reg2 = DecisionTreeRegressor(max_depth=2, random_state=42)\n", "tree_reg2.fit(X, y2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "repetimos el proceso anterior" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "DecisionTreeRegressor(max_depth=2, random_state=42)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "y3 = y2 - tree_reg2.predict(X)\n", "tree_reg3 = DecisionTreeRegressor(max_depth=2, random_state=42)\n", "tree_reg3.fit(X, y3)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lo que hemos obtenido es un conjunto que contiene tres árboles. Se Pueden hacer predicciones sobre una nueva instancia simplemente sumando las predicciones de todos los árboles obtenidos con este procedimiento:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "X_new = np.array([[0.8]])" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([0.75026781])" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "y_pred = sum(tree.predict(X_new) for tree in (tree_reg1, tree_reg2, tree_reg3))\n", "y_pred" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La figura siguiente representa las predicciones de estos tres árboles en la columna de la izquierda, y las predicciones del conjunto en la columna de la derecha. \n", "\n", "En la primera fila, el conjunto sólo tiene un árbol, por lo que sus predicciones son exactamente las mismas que las del primer árbol. \n", "\n", "En la segunda fila, se entrena un nuevo árbol con los errores residuales del primer árbol. A la derecha puede ver que las predicciones del conjunto son iguales a la suma de las predicciones de los dos primeros árboles.\n", "\n", "Del mismo modo, en la tercera fila se entrena otro árbol con los errores residuales del segundo árbol. Puede ver que las predicciones del conjunto mejoran gradualmente a medida que se añaden árboles al conjunto.\n" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "def plot_predictions(regressors, X, y, axes, label=None, style=\"r-\", data_style=\"b.\", data_label=None):\n", " x1 = np.linspace(axes[0], axes[1], 500)\n", " y_pred = sum(regressor.predict(x1.reshape(-1, 1)) for regressor in regressors)\n", " plt.plot(X[:, 0], y, data_style, label=data_label)\n", " plt.plot(x1, y_pred, style, linewidth=2, label=label)\n", " if label or data_label:\n", " plt.legend(loc=\"upper center\", fontsize=16)\n", " plt.axis(axes)\n", "\n", "plt.figure(figsize=(11,11))\n", "\n", "plt.subplot(321)\n", "plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label=\"$h_1(x_1)$\", style=\"g-\", data_label=\"Training set\")\n", "plt.ylabel(\"$y$\", fontsize=16, rotation=0)\n", "plt.title(\"Residuales y predicciones del árbol\", fontsize=16)\n", "\n", "plt.subplot(322)\n", "plot_predictions([tree_reg1], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label=\"$h(x_1) = h_1(x_1)$\", data_label=\"Training set\")\n", "plt.ylabel(\"$y$\", fontsize=16, rotation=0)\n", "plt.title(\"Ensemble predicciones\", fontsize=16)\n", "\n", "plt.subplot(323)\n", "plot_predictions([tree_reg2], X, y2, axes=[-0.5, 0.5, -0.5, 0.5], label=\"$h_2(x_1)$\", style=\"g-\", data_style=\"k+\", data_label=\"Residuales\")\n", "plt.ylabel(\"$y - h_1(x_1)$\", fontsize=16)\n", "\n", "plt.subplot(324)\n", "plot_predictions([tree_reg1, tree_reg2], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label=\"$h(x_1) = h_1(x_1) + h_2(x_1)$\")\n", "plt.ylabel(\"$y$\", fontsize=16, rotation=0)\n", "\n", "plt.subplot(325)\n", "plot_predictions([tree_reg3], X, y3, axes=[-0.5, 0.5, -0.5, 0.5], label=\"$h_3(x_1)$\", style=\"g-\", data_style=\"k+\")\n", "plt.ylabel(\"$y - h_1(x_1) - h_2(x_1)$\", fontsize=16)\n", "plt.xlabel(\"$x_1$\", fontsize=16)\n", "\n", "plt.subplot(326)\n", "plot_predictions([tree_reg1, tree_reg2, tree_reg3], X, y, axes=[-0.5, 0.5, -0.1, 0.8], label=\"$h(x_1) = h_1(x_1) + h_2(x_1) + h_3(x_1)$\")\n", "plt.xlabel(\"$x_1$\", fontsize=16)\n", "plt.ylabel(\"$y$\", fontsize=16, rotation=0)\n", "\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Veamos a continuación, cómo aplicar esta técnica de forma directa utilizando la clase *GradientBoostingClassifier* al conjunto de datos titanic.csv " ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
1211Cumings, Mrs. John Bradley (Florence Briggs Th...female38.010PC 1759971.2833C85C
3411Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
6701McCarthy, Mr. Timothy Jmale54.0001746351.8625E46S
101113Sandstrom, Miss. Marguerite Rutfemale4.011PP 954916.7000G6S
111211Bonnell, Miss. Elizabethfemale58.00011378326.5500C103S
\n", "
" ], "text/plain": [ " PassengerId Survived Pclass \\\n", "1 2 1 1 \n", "3 4 1 1 \n", "6 7 0 1 \n", "10 11 1 3 \n", "11 12 1 1 \n", "\n", " Name Sex Age SibSp \\\n", "1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 \n", "3 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 \n", "6 McCarthy, Mr. Timothy J male 54.0 0 \n", "10 Sandstrom, Miss. Marguerite Rut female 4.0 1 \n", "11 Bonnell, Miss. Elizabeth female 58.0 0 \n", "\n", " Parch Ticket Fare Cabin Embarked \n", "1 0 PC 17599 71.2833 C85 C \n", "3 0 113803 53.1000 C123 S \n", "6 0 17463 51.8625 E46 S \n", "10 1 PP 9549 16.7000 G6 S \n", "11 0 113783 26.5500 C103 S " ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.read_csv('data/titanic.csv').dropna()\n", "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Sacamos los niveles de cada categoría usando para ello *'select_dtypes'*." ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
VarNameLevelsCount
0PassengerId183
1Survived2
2Pclass3
3Name183
4Sex2
5SibSp4
6Parch4
7Ticket127
8Cabin133
9Embarked3
\n", "
" ], "text/plain": [ " VarName LevelsCount\n", "0 PassengerId 183\n", "1 Survived 2\n", "2 Pclass 3\n", "3 Name 183\n", "4 Sex 2\n", "5 SibSp 4\n", "6 Parch 4\n", "7 Ticket 127\n", "8 Cabin 133\n", "9 Embarked 3" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dfo = df.select_dtypes(include=['int64', 'object'])\n", "vn = pd.DataFrame(dfo.nunique()).reset_index()\n", "vn.columns = ['VarName', 'LevelsCount']\n", "vn.sort_values(by='LevelsCount', ascending=False)\n", "vn" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Creamos variables dummies y no nos olvidamos de borrar las variables originales que corresponden" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(183, 11)\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
AgeFareSurvivedPclassSibSpParchSex_femaleSex_maleEmbarked_CEmbarked_QEmbarked_S
138.071.2833111010100
335.053.1000111010001
654.051.8625010001001
104.016.7000131110001
1158.026.5500110010001
\n", "
" ], "text/plain": [ " Age Fare Survived Pclass SibSp Parch Sex_female Sex_male \\\n", "1 38.0 71.2833 1 1 1 0 1 0 \n", "3 35.0 53.1000 1 1 1 0 1 0 \n", "6 54.0 51.8625 0 1 0 0 0 1 \n", "10 4.0 16.7000 1 3 1 1 1 0 \n", "11 58.0 26.5500 1 1 0 0 1 0 \n", "\n", " Embarked_C Embarked_Q Embarked_S \n", "1 1 0 0 \n", "3 0 0 1 \n", "6 0 0 1 \n", "10 0 0 1 \n", "11 0 0 1 " ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df = pd.DataFrame(df.drop(dfo.columns,axis =1)).merge(pd.get_dummies(dfo.drop(['Name','Cabin','Ticket'],axis =1)),left_index=True,right_index=True).drop(['PassengerId'],axis =1)\n", "print(df.shape)\n", "df.head()" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Age 0\n", "Fare 0\n", "Survived 0\n", "Pclass 0\n", "SibSp 0\n", "Parch 0\n", "Sex_female 0\n", "Sex_male 0\n", "Embarked_C 0\n", "Embarked_Q 0\n", "Embarked_S 0\n", "dtype: int64" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# veamos cuántos valores null tenemos\n", "df.isnull().sum()" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "# Creamos las variables dependientes e independientes\n", "\n", "X = df.drop('Survived', axis=1)\n", "y = df['Survived']" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [], "source": [ "# Estandarizamos los datos\n", "scaler = preprocessing.StandardScaler().fit(X)\n", "X_scaled = scaler.transform(X)" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "# Obtenemos train y test datos\n", "from sklearn.model_selection import train_test_split\n", "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Learning rate: 0.05\n", "Accuracidad score (training): 0.737\n", "Accuracidad score (validation): 0.609\n", "\n", "Learning rate: 0.1\n", "Accuracidad score (training): 0.810\n", "Accuracidad score (validation): 0.696\n", "\n", "Learning rate: 0.25\n", "Accuracidad score (training): 0.839\n", "Accuracidad score (validation): 0.717\n", "\n", "Learning rate: 0.5\n", "Accuracidad score (training): 0.861\n", "Accuracidad score (validation): 0.783\n", "\n", "Learning rate: 0.75\n", "Accuracidad score (training): 0.883\n", "Accuracidad score (validation): 0.696\n", "\n", "Learning rate: 1\n", "Accuracidad score (training): 0.920\n", "Accuracidad score (validation): 0.783\n", "\n" ] } ], "source": [ "learning_rates = [0.05, 0.1, 0.25, 0.5, 0.75, 1]\n", "for learning_rate in learning_rates:\n", " gb = GradientBoostingClassifier(n_estimators=20, learning_rate = learning_rate, max_features=2, max_depth = 2, random_state = 0)\n", " gb.fit(X_train, y_train)\n", " print(\"Learning rate: \", learning_rate)\n", " print(\"Accuracidad score (training): {0:.3f}\".format(gb.score(X_train, y_train)))\n", " print(\"Accuracidad score (validation): {0:.3f}\".format(gb.score(X_test, y_test)))\n", " print()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Observamos que el major valor de acuracidad se obtiene para un learning rate de 1. Entonces trabajamos sobre este valor" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([[12, 6],\n", " [ 4, 24]], dtype=int64)" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "gb = GradientBoostingClassifier(n_estimators=20, learning_rate = 1,\n", " max_features=2, max_depth = 2, random_state = 0)\n", "gb.fit(X_train, y_train)\n", "y_pred = gb.predict(X_test)\n", "confusion_matrix(y_test, y_pred)" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " precision recall f1-score support\n", "\n", " 0 0.75 0.67 0.71 18\n", " 1 0.80 0.86 0.83 28\n", "\n", " accuracy 0.78 46\n", " macro avg 0.78 0.76 0.77 46\n", "weighted avg 0.78 0.78 0.78 46\n", "\n" ] } ], "source": [ "print(classification_report(y_test, y_pred))" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "false_positive, true_positive, threshold = roc_curve(y_test, y_pred)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En este tipo de problemas, la cuestión está en determinar el número de árboles de decisión óptimo para realizar bien la clasificación o la regresión que queremos ajustar. Para poder obtener este tipo de resultados, se hace interesante utilizar el método *staged_predict()* el cual devuelve un iterador sobre las predicciones hechas para uno, dos, tres... árboles de decisión. Veamos cómo poder conseguir esto " ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [], "source": [ "# Generamos los números aleatorios\n", "np.random.seed(42)\n", "X = np.random.rand(100, 1) - 0.5\n", "y = 3*X[:, 0]**2 + 0.05 * np.random.randn(100)" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "GradientBoostingRegressor(max_depth=2, n_estimators=56, random_state=42)" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.ensemble import GradientBoostingRegressor\n", "from sklearn.metrics import mean_squared_error\n", "\n", "\n", "X_train, X_val, y_train, y_val = train_test_split(X, y, random_state=49)\n", "\n", "gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120, random_state=42)\n", "gbrt.fit(X_train, y_train)\n", "\n", "errors = [mean_squared_error(y_val, y_pred)\n", " for y_pred in gbrt.staged_predict(X_val)]\n", "bst_n_estimators = np.argmin(errors) + 1\n", "\n", "# Utilizamos el número de árboles que se ha obtenido anteriormente\n", "gbrt_best = GradientBoostingRegressor(max_depth=2, n_estimators=bst_n_estimators, random_state=42)\n", "gbrt_best.fit(X_train, y_train)" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Número óptimo de árboles decisión: 56\n" ] } ], "source": [ "print(\"Número óptimo de árboles decisión: {}\".format(bst_n_estimators))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Veamos estos resultados de una forma gráfica" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "min_error = np.min(errors)\n", "\n", "plt.figure(figsize=(10, 4))\n", "\n", "plt.subplot(121)\n", "plt.plot(np.arange(1, len(errors) + 1), errors, \"b.-\")\n", "plt.plot([bst_n_estimators, bst_n_estimators], [0, min_error], \"k--\")\n", "plt.plot([0, 120], [min_error, min_error], \"k--\")\n", "plt.plot(bst_n_estimators, min_error, \"ko\")\n", "plt.text(bst_n_estimators, min_error*1.2, \"Minimum\", ha=\"center\", fontsize=14)\n", "plt.axis([0, 120, 0, 0.01])\n", "plt.xlabel(\"Numbero de árboles\")\n", "plt.ylabel(\"Error\", fontsize=16)\n", "plt.title(\"error validación\", fontsize=14)\n", "\n", "plt.subplot(122)\n", "plot_predictions([gbrt_best], X, y, axes=[-0.5, 0.5, -0.1, 0.8])\n", "plt.title(\"Mejor modelo (%d trees)\" % bst_n_estimators, fontsize=14)\n", "plt.ylabel(\"$y$\", fontsize=16, rotation=0)\n", "plt.xlabel(\"$x_1$\", fontsize=16)\n", "\n", "\n", "plt.show()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La clase *GradientBoostingRegressor* también admite un hiperparámetro para trabajar con submuestras, que especifica\n", "la fracción de instancias de entrenamiento que se utilizará para el entrenamiento de cada árbol. Por ejemplo, si submuestra=0,25, entonces cada árbol se entrena con el 25% de las instancias de entrenamiento, seleccionadas al azar. \n", "\n", "Como fácilmente puede adivinarse ahora, esto cambia un sesgo más alto por una varianza más baja. También acelera considerablemente el entrenamiento. Esta técnica se denomina *refuerzo de gradiente estocástico*.\n", "\n", "### Binning\n", "\n", "```{index} thresholds\n", "```\n", "\n", "Uno de los grandes inconvenientes que genera una ralentización de *Gradient Boosting* es la búsqueda de los puntos de corte (*thresholds*). En este sentido para encontrar el threshold óptimo en cada división, en cada árbol, es necesario iterar sobre todos los valores observados de cada uno de los predictores. El problema no es que haya muchos valores que comparar, sino que requiere ordenar cada vez las observaciones acorde a cada predictor, proceso computacionalmente muy costoso.\n", "\n", "La estrategia de binning trata de reducir este cuello de botella agilizando el ordenamiento de las observaciones mediante una discretización de sus valores. Normalmente se emplean los cuantiles para hacer una discretización homogénea en cuanto al número de observaciones que cae en cada intervalo. Como resultado de este proceso, el ordenamiento es varios órdenes de magnitud más rápido. El potencial inconveniente de la discretización es que se pierde parte de la información, ya que únicamente se contemplan como posibles thresholds los límites de cada bin.\n", "\n", "Esta es la principal característica que hace que las implementaciones de XGBoost ( [se desarrolla más adelante](xgboost)), LightGBM e HistGradientBoosting (verlo en scikit learn) sean mucho más rápida que la implementación original de scikitlearn GradientBoosting.\n", "\n", "\n", "\n", "### Estrategia parada temprana (early stopping)\n", "\n", "```{index} para temprana, early stopping\n", "```\n", "\n", "Una de las características de los modelos Gradient Boosting es que, con el número suficiente de weak learners, el modelo final tiende a ajustarse perfectamente a los datos de entrenamiento causando overfitting. Este comportamiento implica que el analista tiene que encontrar el número adecuado de árboles y, para ello, suele tener que entrenar el modelo con cientos o miles de árboles hasta identificar el momento en el que empieza el overfitting. Esto suele ser poco eficiente en términos de tiempo, ya que, posiblemente, se estén ajustando muchos árboles innecesarios.\n", "\n", "Para evitar este problema, la mayoría de implementaciones incluyen toda una serie de estrategias para detener el proceso de ajuste del modelo a partir del momento en el que este deja de mejorar. Por defecto, la métrica empleada se calcula utilizando un conjunto de validación. En la scikit-learn la estrategia de parada está controlada por los argumentos *validation_fraction*, *n_iter_no_change* y *tol*.\n", "\n", "\n", "## Stacking.\n", "\n", "```{index} Stacking\n", "```\n", "\n", "Podemos pensar en *Stacking* (stacked generalization) como una evolución al sistema de Voting. Para conseguir este tipo de modelos, se va a crear un nuevo modelo al que llamamos *Meta Model*. El grupo de modelos iniciales serán los *Base Models*. El Meta Model usa como entradas las predicciones de los Base Models. Al final el Meta Model nos da la predicción final.\n", "\n", "De forma esquemática se puede representar de la siguiente manera:\n", "\n", "![grafico stacking](figuras/stacking.PNG)\n", "\n", "Stacking presenta un problema importante y es que es propenso a overfitting. Para evitar tener overfitting hay dos estrategias que se pueden tomar: Blending o K-Folds.\n", "\n", "### Blending.\n", "\n", "```{index} blending\n", "```\n", "\n", "Cuando hacemos uso de blending dividimos el dataset en dos partes. La primera parte es usada exclusivamente para entrenar los Base Models. Una vez entrenados pasamos los datos de la segunda parte por ellos para obtener predicciones con las que se entrena el Meta Model.\n", "\n", "### K-Folds.\n", "\n", "Esta es una técnica muy conocido que se aplica en este contexto. Dividimos el dataset en k partes. Los Base Models se entrenan con k-1 partes. Después de ser entrenados la parte faltante pasa por los Base Models para obtener predicciones con las que se entrena el Meta Model.\n", "\n", "La arquitectura de un modelo stacking, está formada por dos o más modelos base, que suelen ser llamados **modelos de nivel 0**, y a mayores un meta-modelo que combina las predicciones hechas por los modelos base, siendo denominado este meta-modelo como **modelo de nivel 1**. \n", "\n", "Los resultados de los modelos de base utilizados como entrada al meta-modelo pueden ser valores reales en el caso\n", "de una regresión, y valores de probabilidad, valores similares a la probabilidad, o etiquetas de clase en el caso de la\n", "de la clasificación.\n", "\n", "Los modelos base suelen ser complejos y diversos. Como tal, a menudo es una buena idea utilizar una gama\n", "de modelos que hacen suposiciones muy diferentes sobre cómo resolver la tarea que queremos resolver, \n", "como pueden ser los modelos lineales, los árboles de decisión, las máquinas de vectores de apoyo, las redes neuronales, etc.\n", "\n", "También se pueden utilizar otros algoritmos de conjunto como modelos base, como los bosques aleatorios. El meta-modelo\n", "suele ser sencillo y proporciona una interpretación suave de las predicciones realizadas por los\n", "modelos de base. Por ello, a menudo se utilizan modelos lineales como meta-modelo, como la regresión lineal\n", "para tareas de regresión (predicción de un valor numérico) o bien la regresión logística para tareas de clasificación\n", "(predicción de una etiqueta de clase). Aunque esto es lo más habitual, no necesariamente tiene que ser así.\n", "\n", "Veamos a continuación de una forma práctica y utilizando scikit learn (StackingRegressor ó StackingClassifier), cómo podemos utilizar este método para una serie de datos con los que vamos a trabajar. \n", "\n", "De acuerdo con las especificaciones de uso de estos modelos, se necesitan proporcionar una lista de estimadores (los modelos base o de nivel 0), y un estimador final que sería el meta-modelo (si se utiliza StackingClassifier el estimador por defecto es LogisticRegression, y si se usa StackingRegressor, el estimador final por defecto sería RidgeCV).\n", "\n", "Como un ejemplo de lista de modelos, podría ser el siguiente código:\n", "\n", "
\n",
    "models = [('lr',LogisticRegression()),('svm',SVC())\n",
    "stacking = StackingClassifier(estimators=models)\n",
    "
\n", "\n", "Cada modelo en la lista también puede tener una instrucción *pipeline* incluyendo la preparación de los datos, antes de proceder al ajuste del modelo. Veamos un ejemplo de este caso.\n", "\n", "
\n",
    "models = [('lr',LogisticRegression()),('svm',make_pipeline(StandardScaler(),SVC()))\n",
    "stacking = StackingClassifier(estimators=models)\n",
    "
\n", "\n", "### Ejemplo de uso de Stacking \n", "\n", "A continuación vamos a genera una serie de datos artificiales, que nos ayudarán a comprender el funcionamiento de los métodos stacking." ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(1000, 20) (1000,)\n" ] } ], "source": [ "# Importamos la clase para generar datos de clasificación\n", "from sklearn.datasets import make_classification\n", "# obtenemos los ddatos\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5,\n", "random_state=1)\n", "# resumen de los datos generados\n", "print(X.shape, y.shape)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A continuación vamos a hacer una evaluación o clasificación de los datos utilizando una serie de modelos que los integramos todos ellos dentro de una función denominada *get_models():" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [], "source": [ "# definimos la función con los modelos a usar\n", "def get_models():\n", " models = dict()\n", " models['lr'] = LogisticRegression()\n", " models['knn'] = KNeighborsClassifier()\n", " models['cart'] = DecisionTreeClassifier()\n", " models['svm'] = SVC()\n", " models['bayes'] = GaussianNB()\n", " return models" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ahora vamos a evaluar de forma independiente cada modelo utilizando la función RepeatedStratifiedKFold(). Esto lo vamos a hacer integrando esta funcionalidad dentro de una función denominada evaluate_model()." ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [], "source": [ "# evaluamos un modelo utilizzando cross-validation\n", "def evaluate_model(model, X, y):\n", " # definimos el procedimiento de evaluación\n", " cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", " # evaluamos y devolvemos resultados\n", " scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", " return scores" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Una vez tenemos todo lo anterior definido y organizado, procedemos a utilizarlo y obtener resultados " ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [], "source": [ "# importamos previamente las clases que van a ser necesarias\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from sklearn.linear_model import LogisticRegression\n", "from sklearn.neighbors import KNeighborsClassifier\n", "from sklearn.tree import DecisionTreeClassifier\n", "from sklearn.svm import SVC\n", "from sklearn.naive_bayes import GaussianNB\n", "from matplotlib import pyplot\n", "from numpy import std, mean" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">lr 0.866 (0.029)\n", ">knn 0.931 (0.025)\n", ">cart 0.824 (0.044)\n", ">svm 0.957 (0.020)\n", ">bayes 0.833 (0.031)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# obtenemos el dataset\n", "# get the dataset\n", "def get_dataset():\n", " X, y = make_classification(n_samples=1000, n_features=20, n_informative=15,\n", " n_redundant=5, random_state=1)\n", " return X, y\n", "\n", "\n", "X, y = get_dataset()\n", "# obtenemos los modelos\n", "models = get_models()\n", "\n", "# Creamos la lista de resultados y de nombres\n", "results, names = list(), list()\n", "for name, model in models.items():\n", " # Para cada modelo lo evaluamos\n", " scores = evaluate_model(model, X, y)\n", " # almacenamos los resultados\n", " results.append(scores)\n", " names.append(name)\n", " # imprimimos un resumen de los resultados\n", " print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# Para comparar obtenemos un gráfico box-plot\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Observando el gráfico anterior, se puede concluir que los métodos Knn y svm son los que ofrecen mejores resultados.\n", "\n", "En el ejemplo anterior, cada método ha trabajado de una forma totalmente independiente y cada uno ha sacado sus predicciones. A continuación de lo que se trata es de combinar esos modelos en uno único que permita generar también un resultado único. Para obtener esto vamos a definir un función denominada *get_stacking()* que nos ayudará a obtener el resultado que buscamos.\n" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [], "source": [ "# definimos la función antes refernciada\n", "def get_stacking():\n", " # definimos los modelos base\n", " level0 = list()\n", " level0.append(('lr', LogisticRegression()))\n", " level0.append(('knn', KNeighborsClassifier()))\n", " level0.append(('cart', DecisionTreeClassifier()))\n", " level0.append(('svm', SVC()))\n", " level0.append(('bayes', GaussianNB()))\n", " # definimos el meta-modelo\n", " level1 = LogisticRegression()\n", " # definimos el ensamble stacking\n", " model = StackingClassifier(estimators=level0, final_estimator=level1, cv=5)\n", " return model" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Modificamos la función *get_models()* definida previamente para incluir el meta-modelo que se ha construido anteriormente" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "def get_models():\n", " models = dict()\n", " models['lr'] = LogisticRegression()\n", " models['knn'] = KNeighborsClassifier()\n", " models['cart'] = DecisionTreeClassifier()\n", " models['svm'] = SVC()\n", " models['bayes'] = GaussianNB()\n", " models['stacking'] = get_stacking()\n", " return models" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ahora obtenemos los resultados, pero añadiendo el modelo de tipo stacking definido anteriormente." ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">lr 0.866 (0.029)\n", ">knn 0.931 (0.025)\n", ">cart 0.828 (0.047)\n", ">svm 0.957 (0.020)\n", ">bayes 0.833 (0.031)\n", ">stacking 0.964 (0.017)\n" ] }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXoAAAD5CAYAAAAp8/5SAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy86wFpkAAAACXBIWXMAAAsTAAALEwEAmpwYAAAa+0lEQVR4nO3df3Bd5X3n8fcHYWywwchYZRoMMc249LpKwqSK007UDWqaFCchtAlTUDdDzAi87gRt2wQWBrHFaUZuWhJ2s4bmxkVsSlNEW4LBabM2aUYJVdoslo1/YAunGkOC4wyWYy8EO8ay9d0/7hFcy/pxJEv3x9HnNXNH9z7nOfc+R8/VR899zrnnKCIwM7PsOqvcDTAzs+nloDczyzgHvZlZxjnozcwyzkFvZpZxDnozs4w7e7wKkh4CPgIciIj6EZYL+BLwIeAosCIitibLrk6W1QAPRsTn0zRq4cKFsXjx4rTbYGY2423ZsuVgRNSNtGzcoAe+CtwPPDzK8uXAkuT2HuDLwHsk1QAPAB8A9gGbJW2IiN3jveDixYvp6elJ0TQzMwOQ9MPRlo07dRMRTwOHxqhyLfBwFHwfuFDSLwLLgL6I2BsRx4FHk7pmZlZCUzFHfwnwUtHjfUnZaOUjkrRSUo+knv7+/ilolpmZwdQEvUYoizHKRxQR6yKiISIa6upGnGYyM7NJSDNHP559wKVFjxcB+4FzRik3M7MSmooR/QbgRhX8OvBKRPwE2AwskXS5pHOAG5K6ZmZWQmkOr+wErgIWStoH3APMAoiIPPBNCodW9lE4vPKmZNkJSbcCmygcXvlQROyahm0wM7MxjBv0EdE8zvIAPjXKsm9S+EdgZmZl4m/Gmpll3FTsjDWzM1D4cvnk+MJB5TfZ/itl3znozcpsrD94SQ7zCjda/1RS33nqxsws4xz0ZmYZ56A3M8s4B72ZWcY56M3MMs5H3WSAD88zm14LFizg8OHDE15vMn+btbW1HDo01pnhJ85BnwE+PM9seh0+fLhkf0dnMnAbjaduzMwyzkFvZpZxDnozs4xz0JuZZZyD3sws43zUjVkJTPbwPKicQ/RmsrjnAlg9v3SvNcUc9GYlUMrD82B6DtGbyfTZVyfUf/1H+7n96dv5wvu+wMJzF07stSRi9QQbOA5P3ZiZTbH8jjxbX95Kfnu+3E0BHPRmZlOq/2g/T/Y9SRA80fcEB39+sNxNctCbmU2l/I48gzEIwGAMVsSo3kFvZjZFhkbzA4MDAAwMDlTEqN5Bb1ah+o/2s2LjirKHhKVXPJofUgmjeh91Y1YCkzk8L39RLVvPn0f+wQbu/unEDs2cjkP0bHzbD2x/YzQ/ZGBwgG0HtpWnQQlV4pkNGxoaoqenp9zNyASfvbIyTLQf+o/2s/zx5bx+8nVm18xm48c3TugwPff71Crl73OyryVpS0Q0jLTMUzdmFagSd+hZ9UoV9JKulrRHUp+kO0dYXitpvaQdkp6RVF+07EVJOyVtk+Rhutk4KnWHnlWvcYNeUg3wALAcWAo0S1o6rNpdwLaIeAdwI/ClYcubIuLK0T5WmNmbKnWHnlWvNCP6ZUBfROyNiOPAo8C1w+osBb4NEBHPA4slXTylLTWbISp1h95MJ6kkt9ra2ilve5qjbi4BXip6vA94z7A624GPAd2SlgFvBRYBLwMBPCUpgK9ExLozbrVZhj320cfK3QQbZpI7Rytmh3iaoB/p7EjDW/954EuStgE7gWeBE8my90bEfkm/AHxL0vMR8fRpLyKtBFYCXHbZZSmbP3P47IfVr5QnGpuOUaFVrzRBvw+4tOjxImB/cYWIeBW4CUCFd/MLyY2I2J/8PCBpPYWpoNOCPhnpr4PC4ZUT3ZCs89kPq9tk+66SRoVWvdLM0W8Glki6XNI5wA3AhuIKki5MlgHcDDwdEa9Kmivp/KTOXOCDwHNT13wzMxvPuCP6iDgh6VZgE1ADPBQRuyStSpbngRzwsKSTwG6gJVn9YmB9Mjo8G3gkIjZO/WaYmdloUp0CISK+CXxzWFm+6P6/A0tGWG8v8M4zbKOZmZ0BfzPWzCzjHPRmZhnnoDczyzgHvZlZxjnozcwyzkGfYVm+QlFraytz5sxBEnPmzKG1tbXcTTKrWA76DMvvyLP15a2ZO+tha2sr+XyeNWvWcOTIEdasWUM+n3fYm43CV5iqEr5C0ZvmzJnDmjVr+PSnP/1G2X333cddd93FsWPHytiyqVfJ/WBjK3XfjXWFqRkT9JM9d0vF/H4meL3Rz11Uy/p58xg4S8waDD722msTvu4oq1+ZWP0SkcSRI0c477zz3ig7evQoc+fOrZz+miIO+upVSUE/Yy4OPtovvFr+kPTZV1O3s/9oP08+vpyBk68DMHCWeKJ2Iatu7kk9qpdErJ5sa6fX7Nmzyefzp4zo8/k8s2fPLmOrzCqX5+gzKOtXKLrlllu44447uO+++zh69Cj33Xcfd9xxB7fccku5m2ZWkWbMiH4myfoVitauXQvAXXfdxWc+8xlmz57NqlWr3ig3s1PNmDn60VTN1E3p5/uq4veSde6H6lVJc/SeujEzyzgHvZlZxnmOvor4mqPZNF6/jrXc0zrlN1b/VErfOeirhK85ml3un+pWDf3nqRszs4xz0JuZZZyD3sws4xz0ZmYZ56A3M8s4B72ZWcY56M3MMs5Bb2aWcamCXtLVkvZI6pN05wjLayWtl7RD0jOS6tOua2Zm02vcoJdUAzwALAeWAs2Slg6rdhewLSLeAdwIfGkC65rZMJ2dndTX11NTU0N9fT2dnZ3lbpJVsTQj+mVAX0TsjYjjwKPAtcPqLAW+DRARzwOLJV2ccl0zK9LZ2UlbWxtr167l2LFjrF27lra2Noe9TVqaoL8EeKno8b6krNh24GMAkpYBbwUWpVzXzIq0t7fT0dFBU1MTs2bNoqmpiY6ODtrb28vdNKtSaYJ+pNOvDT+Lz+eBWknbgFbgWeBEynULLyKtlNQjqae/vz9Fs2yIpFFvaZZbZent7aWxsfGUssbGRnp7e8vUIqt2aYJ+H3Bp0eNFwP7iChHxakTcFBFXUpijrwNeSLNu0XOsi4iGiGioq6tLvwVGREz6ZpUnl8vR3d19Sll3dze5XK5MLbJqlyboNwNLJF0u6RzgBmBDcQVJFybLAG4Gno6IV9Osa2anamtro6Wlha6uLgYGBujq6qKlpYW2trZyN82q1Ljno4+IE5JuBTYBNcBDEbFL0qpkeR7IAQ9LOgnsBlrGWnd6NsUsG5qbmwFobW2lt7eXXC5He3v7G+VmE+WLg/vCHGaWAb44uJnZDOZLCVrFO5Ojg/xpzcxBb1VgrLD21JvZ+DI1dbNgwYIxjxmfzHHmo90WLFhQ5q01M0snUyP6w4cPl2x05y8bmVm1yNSI3szMTuegNzPLOAe9mVnGZWqO3swqjw+PLT8HvZlNKx8eW36eujEzyzgHvZlZxjnozcwyzkFvZpZxDnozs4yb0UHff7SfFRtXcPDnB8vdFDOzaTOjgz6/I8/Wl7eS354vd1PMzKbNjA36/qP9PNn3JEHwRN8THtWbWWZl6gtTcc8FsHp+qrr5i2oZnDcPzhKDA8fIP9jA3T89PLHXMjOrApkKen321VTfsus/2s+Tjy9n4OTrAAycJZ6oXciqm3tYeO7CdK8lEavPpLVmZqUxI6du8jvyDMbgKWWDMei5ejPLpBkZ9NsPbGdgcOCUsoHBAbYd2FaeBpmZTaNMTd2k9dhHHyt3E8wyZcGCBRw+nH4fV7HJnN2ytraWQ4cOTer1ZqIZGfRmNrVKeRlP8KU8J2pGTt2Ymc0kqYJe0tWS9kjqk3TnCMvnS/qGpO2Sdkm6qWjZi5J2StomqWcqG29mZuMbN+gl1QAPAMuBpUCzpKXDqn0K2B0R7wSuAr4o6Zyi5U0RcWVENExNs208nZ2d1NfXU1NTQ319PZ2dneVukpmVSZo5+mVAX0TsBZD0KHAtsLuoTgDnqzBxNg84BJyY4rZaSp2dnbS1tdHR0UFjYyPd3d20tLQA0NzcXObWmVmppZm6uQR4qejxvqSs2P1ADtgP7AT+KOKNA9UDeErSFkkrz7C9lkJ7ezsdHR00NTUxa9Ysmpqa6OjooL29vdxNM7MySDOiH2n39vDd678DbAN+C3gb8C1J/xoRrwLvjYj9kn4hKX8+Ip4+7UUK/wRWAlx22WUT2ITTnmfS605EbW1tSV5nMnp7e2lsbDylrLGxkd7e3jK1aHw+PM9s+qQZ0e8DLi16vIjCyL3YTcDjUdAHvAD8CkBE7E9+HgDWU5gKOk1ErIuIhohoqKurm9hWvPkcE75Ndr1KDolcLkd3d/cpZd3d3eRyuTK1aHxDh+eV6jbZfypm1ShN0G8Glki6PNnBegOwYVidHwHvB5B0MXAFsFfSXEnnJ+VzgQ8Cz01V421kbW1ttLS00NXVxcDAAF1dXbS0tNDW1lbupplZGYw7dRMRJyTdCmwCaoCHImKXpFXJ8jzwOeCrknZSmOq5IyIOSvolYH3y0fps4JGI2DhN22KJoR2ura2t9Pb2ksvlaG9v945YsxlKpfw2W1oNDQ3R01OaQ+4llfQbfTayUveD+31quf/KT9KW0Q5h9zdjzcwyzkFvZpZxDnozs4xz0JtZWfQf7WfFxhW+XnMJOOjNrCzyO/JsfXmrr+xWAg56Myu5/qP9PNn3JEHwRN8THtVPMwe9mZVc8XWbfb3m6eegt6rlOd7qNDSaH7pu88DggEf108yXErSKEPdcAKvnT2id/EW1bD1/HvkHG7j7pxM7d03cc8GE6tvYJtJ/+YtqGZw3D85682R0gwPHJtSP7r+J8Tdj/Q27ijDRfug/2s/yx5fz+snXmV0zm40f38jCcxdO2+vZ2Cby+7xuw3XsObzntPIraq/gsY8+NuWvN1OM9c1Yj+itKo00x3v3r99d5lZZGmnD3KaO5+it6niO12xiHPRWdYpH80N85IbZ6Bz0VnW2H9j+xmh+yMDgANsObCtPg8wqnOforep4jtdsYjyiNzPLOAe9mVnGOejNzDLOQW9mlnEOejOzjPNRN1YxJI1faYrU1taW7LXMys1BbxVhsuct8TlPzMbnoDezKeFPZJXLQW9mZ8yfyCqbd8aamWWcg97MLONSBb2kqyXtkdQn6c4Rls+X9A1J2yXtknRT2nXNzGx6jRv0kmqAB4DlwFKgWdLSYdU+BeyOiHcCVwFflHROynXNzGwapRnRLwP6ImJvRBwHHgWuHVYngPNV2O0+DzgEnEi5rpmZTaM0QX8J8FLR431JWbH7gRywH9gJ/FFEDKZcFwBJKyX1SOrp7+9P2fz0JI14G2tZKQ8XMzObLmmCfqS0G3481O8A24C3AFcC90u6IOW6hcKIdRHREBENdXV1KZo1MRExqZuZWbVLE/T7gEuLHi+iMHIvdhPweBT0AS8Av5JyXTMzm0Zpgn4zsETS5ZLOAW4ANgyr8yPg/QCSLgauAPamXNfMzKbRuN+MjYgTkm4FNgE1wEMRsUvSqmR5Hvgc8FVJOylM19wREQcBRlp3ejbFzMxGokqch25oaIienp5yN8OqgL9CX93cf1NH0paIaBhpmb8Za2aWcQ56M7OMc9CbmWWcg97MLOMc9GZmGeegNzPLOAe9mVnG+VKCZjatxjs54FjLfYz91HDQm9m0cliXn6duzMwyzkFvZpZxDnozs4xz0JuZZZyD3sws4xz0ZmYZ56A3M8s4B72ZWcY56M3MMs5Bb2aWcQ56M7OMc9CbmWWcT2pmFc9nPzQ7Mw56q3gOa7Mz46kbM7OMc9CbmWVcqqCXdLWkPZL6JN05wvLbJW1Lbs9JOilpQbLsRUk7k2U9U70BNjN1dnZSX19PTU0N9fX1dHZ2lrtJZhVr3Dl6STXAA8AHgH3AZkkbImL3UJ2IuBe4N6l/DfAnEXGo6GmaIuLglLbcZqzOzk7a2tro6OigsbGR7u5uWlpaAGhubi5z68wqT5oR/TKgLyL2RsRx4FHg2jHqNwMeXtm0aW9vp6Ojg6amJmbNmkVTUxMdHR20t7eXu2lmFSlN0F8CvFT0eF9SdhpJ5wFXA18vKg7gKUlbJK0c7UUkrZTUI6mnv78/RbNspurt7aWxsfGUssbGRnp7e8vUIrPKliboRzpIebTj3a4Bvjds2ua9EfEuYDnwKUn/aaQVI2JdRDRERENdXV2KZtlMlcvl6O7uPqWsu7ubXC5XphaZVbY0Qb8PuLTo8SJg/yh1b2DYtE1E7E9+HgDWU5gKMpu0trY2Wlpa6OrqYmBggK6uLlpaWmhrayt308wqUpovTG0Glki6HPgxhTD/g+GVJM0H3gd8oqhsLnBWRPwsuf9B4M+mouE2cw3tcG1tbaW3t5dcLkd7e7t3xJqNYtygj4gTkm4FNgE1wEMRsUvSqmR5Pqn6e8BTEXGkaPWLgfXJV9TPBh6JiI1TuQE2MzU3NzvYzVJSJX69vKGhIXp6fMi9mVlakrZERMNIy/zNWDOzjHPQm5llnIPezCzjHPRmZhnnoDczyzgHvZlZxjnozcwyzkFvZpZxDnozs4xz0JuZZZyD3sws4xz0ZmYZ56A3M8s4B72ZWcY56M3MMs5Bb2aWcQ56M7OMc9CbmWWcg97MLOMc9GZmGeegNzPLOAe9mVnGOejNzDLOQW9mlnEOejOzjEsV9JKulrRHUp+kO0dYfrukbcntOUknJS1Is67ZZHR2dlJfX09NTQ319fV0dnaWu0lmFevs8SpIqgEeAD4A7AM2S9oQEbuH6kTEvcC9Sf1rgD+JiENp1jWbqM7OTtra2ujo6KCxsZHu7m5aWloAaG5uLnPrzCpPmhH9MqAvIvZGxHHgUeDaMeo3A0PDq4muazau9vZ2Ojo6aGpqYtasWTQ1NdHR0UF7e3u5m2ZWkdIE/SXAS0WP9yVlp5F0HnA18PVJrLtSUo+knv7+/hTNspmqt7eXxsbGU8oaGxvp7e0tU4vMKluaoNcIZTFK3WuA70XEoYmuGxHrIqIhIhrq6upSNMtmqlwuR3d39yll3d3d5HK5MrXIrLKlCfp9wKVFjxcB+0epewNvTttMdF2zVNra2mhpaaGrq4uBgQG6urpoaWmhra2t3E0zq0jj7owFNgNLJF0O/JhCmP/B8EqS5gPvAz4x0XXNJmJoh2trayu9vb3kcjna29u9I9ZsFOMGfUSckHQrsAmoAR6KiF2SViXL80nV3wOeiogj46071RthM09zc7OD3SwlRYw23V4+DQ0N0dPTU+5mmJlVDUlbIqJhpGX+ZqyZWcY56M3MMs5Bb2aWcQ56M7OMq8idsZL6gR+W6OUWAgdL9Frl4O2rbt6+6lXqbXtrRIz4bdOKDPpSktQz2p7qLPD2VTdvX/WqpG3z1I2ZWcY56M3MMs5BD+vK3YBp5u2rbt6+6lUx2zbj5+jNzLLOI3ozs4xz0JuZZdyMDXpJr5W7DVNB0mJJz5W7HZVG0pWSPlTudswUWX0fSvrj5Mp5k1l3haT7RyhfJenGM29dejM26EeSXMzcqpyks4ErAQe9nak/BiYV9KOJiHxEPDyVzzmeGR/0kq6S1CXpEWBnudtzJiT9kqRnJd0u6XFJGyX9h6S/LKrzmqR2SdslfV/SxeVs83gk3ShpR9Lev5V0jaT/m2znvwy1X9JqSeskPQU8DPwZcL2kbZKuL+tGjEDSXEn/nGzXc5I+KekfipZfJekbyf3XJP2FpC3JNi+T9B1JeyV9tHxbcZqzJf1N0l+PSTpP0p9K2pxs4zoVvE3S1qGVJC2RtCW5/2uSvpts6yZJv5iU/1dJu5PnfnQ6Gj9Cn9wDvAXoktSV1Plycm3rXZI+W7TuuyX9W7LuM5LOH/bcH5b075IWJu/V25Ly7yR9+4ykH0j6zaT8PEn/kGzv3yfv+cl/+SoiZuQNeC35eRVwBLi83G2a5HYsBp4DrgCepTCSXQHsBeYDcyicTuLSpH4A1yT3/xK4u9zbMMa2/SqwB1iYPF4A1PLm0WI3A19M7q8GtgDnJo9XAPeXexvG2LaPA39d9Hg+8CNgbvL4y8AnivpseXJ/PfAUMAt4J7Ct3NtS9D4M4L3J44eA24AFRXX+tui91wVcmdxfA7Qm2/RvQF1Sfj2FixVB4RKks5P7F5awT14cev8NvQeTnzXAd4B3AOckf2/vTpZdQOGiTiuA+ylclOlfgdqi9+ptyf3vFL2HPwT8S3L/NuAryf164ATQMNltm/Ej+sQzEfFCuRtxBuqAJykEw7ak7NsR8UpEHAN2A29Nyo8D/5Tc30LhD7RS/RbwWEQcBIjCRecXAZsk7QRup/DPYMiGiPh56Zs5KTuB305Gc78ZEa8AG4FrkqmnD1PoUyj02cai9b4bEQPJ/cWlbfaYXoqI7yX3vwY0Ak3JaHQnhf4c6q8HgZuS6dLrgUcoDFbqgW9J2gbcTaG/AXYAfyfpExRCbzqM1CfD/X7yaeTZZFuWJu3+SURsBoiIVyNiqI1NwB3AhyPi8Civ+3jys/jvsRF4NHm+5yhs/6Q56AuOjF+lor0CvAS8t6js9aL7J3nzspEDkQwThpVXIlEYJRZbS2Gk/nbgv1D4xDKkavoxIn4A/BqFcPlzSX8K/D3w+xQCcXNE/CypXtxngyR9GxGDVFb/De+rAP4KuC7pr7/mzf76OrAc+AiwJSJ+SqG/d0XElcnt7RHxwaT+h4EHKPzOtiT/DKe28SP3yRtUuPb1bcD7I+IdwD8n2zPS+3TIXuB84JfHeOmhv9Xiv0dNZhtG46DPhuPA7wI3SsrSxde/TWEEdRGApAUUPk7/OFn+yTHW/RmFP7CKJOktwNGI+BrwBeBdFD7Gvwu4hULoV5vLJP1Gcr8Z6E7uH5Q0D7huqGLySXMThSmq/50U7wHqhp5D0ixJvyrpLApTj13AfwMuBOZNdeNH6ZPi99EFFAYTryT7hpYn5c8Db5H07uR5zi/6R/RD4GPAw5KKP32Op5vCP30kLQXePukNo7JGA3YGIuKIpI8A36LwsbnqReEi9O3AdyWdpPBxeTXwj5J+DHwfuHyU1buAO5MpgD+PiEoLzrcD90oaBAaAP4yIk5L+icLc7lj/xCpVL/BJSV8B/oNCiNdSGCG/CGweVv/vKITgUwARcVzSdcD/kjSfQj79T+AHwNeSMgH/IyL+3zS0/7Q+AX4D+D+SfhIRTZKeBXZRGKl/r6jd1wNrJZ0L/Bz47aEnjYg9kv4zhfftNSnb8lfA30jaQeF9v4PCJ/dJ8SkQzKwskiNP5kfEfy93WypNsu9iVkQck/Q2Cp9ufzkijk/m+TyiN7OSk7QeeBuF/RF2uvMoHNY5i8KnmD+cbMiDR/RmZpnnnbFmZhnnoDczyzgHvZlZxjnozcwyzkFvZpZx/x8uFN394S2fogAAAABJRU5ErkJggg==\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from sklearn.linear_model import LogisticRegression\n", "from sklearn.neighbors import KNeighborsClassifier\n", "from sklearn.tree import DecisionTreeClassifier\n", "from sklearn.svm import SVC\n", "from sklearn.naive_bayes import GaussianNB\n", "from sklearn.ensemble import StackingClassifier\n", "from matplotlib import pyplot\n", "\n", "# obtenemos el dataset\n", "# get the dataset\n", "def get_dataset():\n", " X, y = make_classification(n_samples=1000, n_features=20, n_informative=15,\n", " n_redundant=5, random_state=1)\n", " return X, y\n", "\n", "\n", "X, y = get_dataset()\n", "# obtenemos los modelos\n", "models = get_models()\n", "\n", "# Creamos la lista de resultados y de nombres\n", "results, names = list(), list()\n", "for name, model in models.items():\n", " # Para cada modelo lo evaluamos\n", " scores = evaluate_model(model, X, y)\n", " # almacenamos los resultados\n", " results.append(scores)\n", " names.append(name)\n", " # imprimimos un resumen de los resultados\n", " print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# Para comparar obtenemos un gráfico box-plot\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ahora ya tendríamos entrenado nuestro modelo, para poder hacer predicciones con él.\n", "\n", "```{index} XGBoost\n", "```\n", "\n", "(xgboost)=\n", "## XGBoost.\n", "\n", "Extreme Gradient Boosting (su acrónimo XCBoost) es una librería de tipo open-source que implementa de forma bastante eficiente el algoritmo denominado *gradient boosting* .\n", "\n", "Los modelos van a ser ajustados usando una determinada función de pérdida, que tiene que ser diferenciable, para poder aplicar el algoritmo del gradiente descendente.\n", "\n", "En este algoritmo, se necesitan al menos los siguientes elementos:\n", " \n", "1.- La **función de pérdida** que se va a optimizar. Esta función depende del tipo de problema que se quiera resolver, pero ha de cumplir el requisito de que debe ser diferenciable. Por ejemplo si estamos en un problema de regresión, se podría utilizar MSE (mean square error) o MAE (mean absolute error).\n", "\n", "2.- **Modelos de aprendizaje débil** (Weak Learner). En gradient boosting se utilizan los árboles de decisión como aprendiz débil. En concreto, se utilizan árboles de regresión que producen valores reales para las divisiones realizadas y que además tienen la ventaja de que pueden sumarse lo que permite que las salidas de los modelos posteriores se sumen y corrijan los residuos en las predicciones.\n", "\n", "3.- **Modelos aditivos**. Los árboles se añaden de uno en uno, y los existentes en el modelo no se modifican. Se utiliza un procedimiento de gradiente descendente para minimizar la pérdida al añadir árboles. Tradicionalmente, el descenso de gradiente\n", "se utiliza para minimizar un conjunto de parámetros, como los coeficientes de una ecuación de regresión o los pesos de una red neuronal. Tras calcular el error o la pérdida, los pesos se actualizan para minimizar ese error.\n", "\n", "La librería de XGBoost se puede encontrar en este enlace y ahí se pueden ver todas sus características, y en concreto el formato a seguir para su instalación en Python, que es el siguiente.\n", "\n", "
\n",
    "sudo pip install xgboost\n",
    "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Se puede confirmar que se ha instalado XGBoost, así como la versión con la que se trabaja, mediante el siguiente código." ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'1.5.2'" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import xgboost\n", "xgboost.__version__" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Al igual que ocurre con los métodos de ensemble en scikit learn, también existen dos clases denominadas XGBRegressor /a> y XGBClassifier . Ambos modelos funcionan de manera muy similar y toman los mismos argumentos que influyen en la creación de los árboles de decisión y su incorporación al conjunto.\n", " \n", "Se utiliza la aleatoriedad en la construcción del modelo. Esto significa que cada vez que el algoritmo se ejecuta en los mismos datos, producirá un modelo ligeramente diferente.\n", " \n", "A continuación construimos un modelo para clasificación. Primero construimos un conjunto de datos artificiales con *make_classification()*." ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(1000, 20) (1000,)\n" ] } ], "source": [ "# importamos la clase correspondiente\n", "from sklearn.datasets import make_classification\n", "# generamos el dataset\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, \n", " n_redundant=5, random_state=7)\n", "# imprimimos un resumen de los datos\n", "print(X.shape, y.shape)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ahora construimos el modelo y lo evaluamos usando una validación cruzada utilizando la clase *RepeatedStratifiedKFold*." ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Accuracidad: 0.925 (0.028)\n" ] } ], "source": [ "# Ejemplo de uso de XGBClassifier\n", "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from xgboost import XGBClassifier\n", "# definimos dataset\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "# definimos el modelo con todos parámetros por defecto\n", "model = XGBClassifier()\n", "# evaluación del modelo\n", "cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "# report performance\n", "print('Accuracidad: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Se puden hacer predicciones de la siguiente manera" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[12:16:40] WARNING: C:/Users/Administrator/workspace/xgboost-win64_release_1.5.1/src/learner.cc:1115: Starting in XGBoost 1.3.0, the default evaluation metric used with the objective 'binary:logistic' was changed from 'error' to 'logloss'. Explicitly set eval_metric if you'd like to restore the old behavior.\n", "Clase Predicha: 1\n" ] } ], "source": [ "\n", "from numpy import asarray\n", "from sklearn.datasets import make_classification\n", "from xgboost import XGBClassifier\n", "# definimos conjunto de datos\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "# definimos el modelo\n", "model = XGBClassifier(use_label_encoder=False)\n", "# ajustamos al modelo\n", "model.fit(X, y)\n", "# Hacemos una predicción\n", "row = [0.2929949,-4.21223056,-1.288332,-2.17849815,-0.64527665,2.58097719,0.28422388,-7.1827928,-1.91211104,2.73729512,0.81395695,3.96973717,-2.66939799,3.34692332,4.19791821,0.99990998,-0.30201875,-4.43170633,-2.82646737,0.44916808]\n", "row = asarray([row])\n", "yhat = model.predict(row)\n", "print('Clase Predicha: %d' % yhat[0])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Un ejemplo de regresión puede ser el siguiente:" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "MAE: -76.447 (3.859)\n" ] } ], "source": [ "# modelo de regresión para xgboost\n", "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_regression\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedKFold\n", "from xgboost import XGBRegressor\n", "# generamos los datos\n", "X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)\n", "# definimos el modelo\n", "model = XGBRegressor()\n", "# evaluamos el modelo\n", "cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "n_scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1, error_score='raise')\n", "# report performance\n", "print('MAE: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Las predicciones las obtendríamos utilizando el siguiente formato" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "La predicción obtenida es : 50\n" ] } ], "source": [ "\n", "from numpy import asarray\n", "from sklearn.datasets import make_regression\n", "from xgboost import XGBRegressor\n", "# generación dataset\n", "X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1, random_state=7)\n", "# definición del modelo\n", "model = XGBRegressor()\n", "# ajsute del modelo\n", "model.fit(X, y)\n", "# obtención de una predicción\n", "row = [0.20543991,-0.97049844,-0.81403429,-0.23842689,-0.60704084,-0.48541492,0.53113006,2.01834338,-0.90745243,-1.85859731,-1.02334791,-0.6877744,0.60984819,-0.70630121,-1.29161497,1.32385441,1.42150747,1.26567231,2.56569098,-0.11154792]\n", "row = asarray([row])\n", "yhat = model.predict(row)\n", "print('La predicción obtenida es : %d' % yhat[0])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Parámetros importantes del XGBoost.\n", "\n", "En este modelo se pueden utilizar para un mejor ajuste del modelo una buena cantidad de hiperparámetros y en lo que sigue se va a proceder a mostrar los más importantes.\n", "\n", "#### Número de árboles.\n", "\n", "Un importante hiperparámetro a utilizar en este modelo, es el número de árboles de decisión a tener en cuenta en el ajuste. Esto se consigue utilizando el hiperparámetro *n_estimators*. Veamos el efecto del mismo, gracias al siguiente ejemplo." ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">10 0.885 (0.029)\n", ">50 0.915 (0.029)\n", ">100 0.925 (0.028)\n", ">500 0.927 (0.028)\n", ">1000 0.926 (0.028)\n", ">5000 0.925 (0.027)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# cambiamos el número de árboles de ddecisión en xhboost\n", "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from xgboost import XGBClassifier\n", "from matplotlib import pyplot\n", "\n", "# función para obtener los datos\n", "def get_dataset():\n", "\tX, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "\treturn X, y\n", "\n", "# definimos varios modelo, cambiando n_estimators\n", "def get_models():\n", "\tmodels = dict()\n", "\ttrees = [10, 50, 100, 500, 1000, 5000]\n", "\tfor n in trees:\n", "\t\tmodels[str(n)] = XGBClassifier(n_estimators=n)\n", " # Devuelve un diccionario con los distintos modelos\n", "\treturn models\n", "\n", "# función para evaluar el modelo utilizando cross-validation\n", "def evaluate_model(model):\n", "\tcv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "\tscores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "\treturn scores\n", "\n", "# obtenemos los datos\n", "X, y = get_dataset()\n", "# obtenemos los modelos\n", "models = get_models()\n", "# evaluamos el modelo y alamacenamos los resultados\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\tscores = evaluate_model(model)\n", "\tresults.append(scores)\n", "\tnames.append(name)\n", "\tprint('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# para poder comparar, hacemos un bosplot de cada modelo\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Profundidad del árbol.\n", "\n", "Otro hiperparámetro importante es *max_depth* para indicar el nivel de profundidad de los árboles de decisión que se debe considerar en el modelo." ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">1 0.849 (0.028)\n", ">2 0.906 (0.032)\n", ">3 0.926 (0.027)\n", ">4 0.930 (0.027)\n", ">5 0.924 (0.031)\n", ">6 0.925 (0.028)\n", ">7 0.926 (0.030)\n", ">8 0.926 (0.029)\n", ">9 0.921 (0.032)\n", ">10 0.923 (0.035)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# nivel de profundidad de los árboles de decisión\n", "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from xgboost import XGBClassifier\n", "from matplotlib import pyplot\n", "\n", "# fnción para generar los datos\n", "def get_dataset():\n", "\tX, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "\treturn X, y\n", "\n", "# generación diccionario con los modelo a usar \n", "def get_models():\n", "\tmodels = dict()\n", "\tfor i in range(1,11):\n", "\t\tmodels[str(i)] = XGBClassifier(max_depth=i)\n", "\treturn models\n", "\n", "# evaluación de llos modelos\n", "def evaluate_model(model):\n", "\tcv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "\tscores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "\treturn scores\n", "\n", "# obtenemos los datos\n", "X, y = get_dataset()\n", "# sacamos los modelos\n", "models = get_models()\n", "# evaluación y almacenamiento de los resultados\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\tscores = evaluate_model(model)\n", "\tresults.append(scores)\n", "\tnames.append(name)\n", "\tprint('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# plot de los modelos\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Podemos ver la tendencia general de aumentar el rendimiento del modelo con la profundidad del árbol hasta un punto, después del cual el rendimiento empieza a ser plano o incluso se degrada con los árboles sobreespecializados.\n", "\n", "#### Learning rate (tasa de aprendizaje).\n", "\n", "La tasa de aprendizaje controla la cantidad de contribución que cada modelo tiene en la predicción del conjunto.\n", "\n", "Las tasas más pequeñas pueden requerir más árboles de decisión en el conjunto.\n", "\n", "La tasa de aprendizaje puede controlarse mediante el argumento *eta* y su valor predeterminado es 0,3." ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">0.0001 0.804 (0.039)\n", ">0.0010 0.814 (0.037)\n", ">0.0100 0.867 (0.027)\n", ">0.1000 0.923 (0.030)\n", ">1.0000 0.913 (0.030)\n" ] }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXoAAAD4CAYAAADiry33AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy86wFpkAAAACXBIWXMAAAsTAAALEwEAmpwYAAATMElEQVR4nO3db4xcV33G8efxJg6Qf+zGxi1xFJvKStayShVtLSSiUBcF7ErggqjkvIFERpalJEJViXBxpAQhq7SkL6gSaWThCJCK/SLF8SKBE4Rcpa5K8Tqs7djBZesEsjKKx3hLBCbJ2vPri7mbnWxmd+7uzPjeOfv9SKPdufeend89O3589syZO44IAQDStaToAgAA3UXQA0DiCHoASBxBDwCJI+gBIHFXFV1AM8uWLYtVq1YVXQYA9IyjR4+ej4jlzfaVMuhXrVqlkZGRossAgJ5h+5ez7WPqBgASR9ADQOIIegBIHEEPAIkj6AEgcQQ9ACSOoAeAxBH0AJC4Ur5hCkDxbLf9M/i8i3Ig6AE01SqkbRPkPYKpGwBIHEEPAIkj6AEgcQQ9ACSOoAeAxBH0AJA4llcCQAu9/p4Cgh4AWuj19xQwdQMAiSPoASBxBD0AJI6gB4DEEfQAkDiCHgASR9ADQOIIegBIHEEPAIkj6AEgcbmC3vZG26dtj9ne0WR/v+39to/b/qntdQ37XrZ9wvao7ZFOFg8AaK3ltW5s90l6QtLdksYlHbE9HBGnGg77sqTRiPiU7duz4z/asH9DRJzvYN0AgJzyjOjXSxqLiDMR8aakfZI2zzhmraQfS1JE/FzSKtsrOlopAGBB8gT9zZJeabg/nm1rdEzSpyXJ9npJt0pame0LSc/aPmp722wPYnub7RHbI9VqNW/9AIAW8gR9swsxz7we59ck9dselfSgpJ9JupTt+3BE3CFpk6T7bd/V7EEiYndEDEXE0PLly3MVDwBoLc/16Mcl3dJwf6Wks40HRMRrku6TJNev0P9SdlNEnM2+nrO9X/WpoOfarhwAkEueEf0RSWtsr7a9VNIWScONB9h+b7ZPkj4v6bmIeM32tbavz465VtLHJL3QufIBAK20HNFHxCXbD0h6RlKfpCcj4qTt7dn+iqRBSd+xfVnSKUlbs+YrJO3PPobrKknfjYiDnT8NAMBsXMaPvxoaGoqREZbcA2VW9o/Pu5LK0Be2j0bEULN9vDMWABJH0ANA4gh6YBEaGBiQ7bZuktr+GQMDAwX3xOKQZ3klgMRMTEwUPqcs6a3/MNBdjOgBLGqL4a8bRvQAFrXF8NcNI3oASBxBDwCJI+gBIHHM0QOLUDxyg/TojUWXUa8DXUfQA4uQv/JaaV6AjEeLriJ9TN0AQOIIegDzVr1Y1b0H79X5P/BR0L2AoAcwb5XjFT3/6vOqHKsUXQpyIOgBzEv1YlUHxg4oFHp67GlG9T2AoAcwL5XjFdWiJkmqRY1RfQ8g6AHkNjWan6xNSpIma5OM6nsAQQ80aPfCVKlfjbFxND+FUX35sY4eaNBqbXkZPjKuSMfOHXtrND9lsjap0XOjxRSEXAh6ALk99cmnii6hdKoXq3rouYf02Ece07J3Lyu6nKaYugGANvTCUlOX8c/QoaGhGBkZKboM4B1Smbopy3mUoo42rvlT7VuiTSvfrzeWLNE1tZoOjp/Vssu11g1nreW3C25q+2hEDDXbx9QNgEWtnev+VH7yVdV+sV+qTap21TWq3P13evhDDy+sji5e94epGwBYgF5aakrQA8AC9NJSU4IeABagl5aaMkcPAAvQS0tNGdEDQOIIegBIXK6gt73R9mnbY7Z3NNnfb3u/7eO2f2p7Xd62AIDuahn0tvskPSFpk6S1ku6xvXbGYV+WNBoRfyrps5K+MY+2AArQiQu4tXvr7+8vuhsWhTwvxq6XNBYRZyTJ9j5JmyWdajhmraR/kKSI+LntVbZXSPpAjrYArrBOvBu1FO9qRS55pm5ulvRKw/3xbFujY5I+LUm210u6VdLKnG2Vtdtme8T2SLVazVc9AHRA0X/ZdPuvmzwj+mYX2J753/jXJH3D9qikE5J+JulSzrb1jRG7Je2W6te6yVEXALRtMfx1kyfoxyXd0nB/paSzjQdExGuS7pMk1z954aXs9p5WbQEA3ZVn6uaIpDW2V9teKmmLpOHGA2y/N9snSZ+X9FwW/i3bAgC6q+WIPiIu2X5A0jOS+iQ9GREnbW/P9lckDUr6ju3Lqr/QunWutt05FQBAM1yPHpiHss/FXkn0xbQy9MVc16PnnbEAkDiCHgASx9UrofpCqfYU/WcrgNkR9GgZ0mWYfwSwcEzdAEDiCHoASBxBDwCJI+gBIHEEPQAkbtGuumFJ4eIzMDCgiYmJtn9Ou8+d/v5+Xbhwoe06gLwWbdCzpHDxmZiYKMXvtBODDGA+mLoBgMQR9ACQOIIeABJH0ANA4gh6AEgcQQ/kVL1Y1b0H79X5P5wvuhRgXgh6IKfK8Yqef/V5VY5Vii4FV5jtOW95jykKQQ/kUL1Y1YGxAwqFnh57mlH9IhMRbd+KRNADOVSOV1SLmiSpFjVG9egpBD3QwtRofrI2KUmarE0yqkdPWbSXQMDiE4/cID1647zbVW7qV+2666Ql0/OstcnXVfnmkB7+zfyvnROP3DDvNkA7CHosGv7KawuaKz02/BlNTpx+27bJJdborUPSg0/Nvw5b8ei8mwELRtADLTz1yfmHOVAmzNEDQOIIegBIHEEPAIkj6AEgcQQ9ACQuV9Db3mj7tO0x2zua7L/R9vdtH7N90vZ9Dftetn3C9qjtkU4WDwBoreXyStt9kp6QdLekcUlHbA9HxKmGw+6XdCoiPmF7uaTTtv81It7M9m+ICN5GCAAFyDOiXy9pLCLOZMG9T9LmGceEpOtdv0TbdZIuSLrU0UoBAAuSJ+hvlvRKw/3xbFujxyUNSjor6YSkL0RkV4Cq/yfwrO2jtrfN9iC2t9kesT1SrVZznwCA7uj1S/NiWp6gb/bbmvk+8o9LGpX0fkl/Julx21MX9PhwRNwhaZOk+23f1exBImJ3RAxFxNDy5cvz1A6gi3r90ryYlifoxyXd0nB/peoj90b3Sfpe1I1JeknS7ZIUEWezr+ck7Vd9KggAcIXkCfojktbYXm17qaQtkoZnHPMrSR+VJNsrJN0m6Yzta21fn22/VtLHJL3QqeIBAK21XHUTEZdsPyDpGUl9kp6MiJO2t2f7K5K+Kulbtk+oPtXzpYg4b/sDkvZnc3VXSfpuRBzs0rkAAJrIdfXKiPiBpB/M2FZp+P6s6qP1me3OSPpgmzUCANrAZYqxqJRhJUh/f3/RJWCRIeixaHRiFYhtVpOg53Ctm8QNDAy0XOvcifXSrW4DAwMF9wSweDGiT9zExEQpRqBlmDIBFitG9ACQOIIeABJH0APAAu3du1fr1q1TX1+f1q1bp7179xZdUlPM0QPAAuzdu1c7d+7Unj17dOedd+rw4cPaunWrJOmee+4puLq3Y0QPAAuwa9cu7dmzRxs2bNDVV1+tDRs2aM+ePdq1a1fRpb2Dy7AiY6ahoaEYGVn4h1ENDAxoYmKigxUtTH9/vy5cuFBoDWVZ912WOtqVynmgfX19fXr99dd19dVXv7VtcnJS73rXu3T58uUrXo/toxEx1GxfkiP6qSWFRd/K8J8NgO4YHBzU4cOH37bt8OHDGhwcLKii2SUZ9ADQbTt37tTWrVt16NAhTU5O6tChQ9q6dat27txZdGnvwIuxALAAUy+4Pvjgg3rxxRc1ODioXbt2le6FWCnROfqyzKOWoY4y1FCmOtqVynkgPYtujh4AMI2gB4DEEfQAkDiCHgASR9ADQOIIesyperGqew/eq/N/OF90KQAWiKDHnCrHK3r+1edVOVZpfTCAUiLoMavqxaoOjB1QKPT02NOM6oEeRdBjVpXjFdWiJkmqRY1RPdCjCHo0NTWan6xNSpIma5OM6oEeleS1buKRG6RHbyy6jHodZahhAX1Rualfteuuk5ZMf6h3bfJ1Vb45pId/M/+rcpahL/LI8yHmrY7hEgkoG65100VlqGOhNXxm+DM6PXH6Hdtv679NT33yqStWB4B85rrWTZIj+nZVL1b10HMP6bGPPKZl715WdDmFWEiYAygn5uibYEkhgJQQ9DOwpBBAanIFve2Ntk/bHrO9o8n+G21/3/Yx2ydt35e3bdmwpBBAaloGve0+SU9I2iRpraR7bK+dcdj9kk5FxAcl/YWkf7a9NGfb0mBJIYAU5RnRr5c0FhFnIuJNSfskbZ5xTEi63vV1Z9dJuiDpUs62pdE4mp/CqB5Ar8sT9DdLeqXh/ni2rdHjkgYlnZV0QtIXIqKWs60kyfY22yO2R6rVas7yO+vYuWNvjeanTNYmNXputJB6AKAT8iyvbPbukJkLoj8uaVTSX0r6E0k/sv0fOdvWN0bslrRbqq+jz1FXx7GkEECK8ozoxyXd0nB/peoj90b3Sfpe1I1JeknS7TnbAgC6KE/QH5G0xvZq20slbZE0POOYX0n6qCTZXiHpNklncrYFAHRRy6mbiLhk+wFJz0jqk/RkRJy0vT3bX5H0VUnfsn1C9emaL0XEeUlq1rY7pwIAaIZr3XRRGeooQw1lqgNI1VzXuuGdsQCQOIIeABLH1SsXgTzXWO+2/v7+oksAFi2CPnGdmBdnfh3obUzdAEDiCHoASBxBDwCJI+gBIHEEPQAkLtlVNywpBIC6JIOeJYUAMI2pGwBIHEEPAIkj6AEgcQQ9ACSOoAeAxBH0AJA4gh4AEkfQA0DiCHoASBxBDwCJI+gBIHEEPQAkjqAHgMQR9ACQOIIeABJH0ANA4gh6AEgcQQ8AicsV9LY32j5te8z2jib7H7I9mt1esH3Z9kC272XbJ7J9I50+AQDA3Fp+ZqztPklPSLpb0rikI7aHI+LU1DER8XVJX8+O/4Skv42ICw0/ZkNEnO9o5QCAXPKM6NdLGouIMxHxpqR9kjbPcfw9kvZ2ojgAQPvyBP3Nkl5puD+ebXsH2++RtFHSvzVsDknP2j5qe9tsD2J7m+0R2yPVajVHWQCAPPIEvZtsi1mO/YSk/5wxbfPhiLhD0iZJ99u+q1nDiNgdEUMRMbR8+fIcZQEA8sgT9OOSbmm4v1LS2VmO3aIZ0zYRcTb7ek7SftWnggAAV0ieoD8iaY3t1baXqh7mwzMPsn2jpI9IOtCw7Vrb1099L+ljkl7oROEAgHxarrqJiEu2H5D0jKQ+SU9GxEnb27P9lezQT0l6NiJ+39B8haT9tqce67sRcbCTJwAAmJsjZptuL87Q0FCMjBS75N62ytg3RaAvgPKzfTQihprt452xAJA4gh4AEkfQA0DiCHoASBxBDwCJI+gBIHEEPQAkjqAHgMQR9ACQOIIeABJH0ANA4gh6AEgcQQ8AiSPoASBxBD0AJI6gB4DEEfQAkLiWHyWYquzjDds6JpVPXaIvgLQt2qAnmKbRF0DamLoBgMQR9ACQOIIeABJH0ANA4gh6AEgcQQ8AiSPoASBxBD0AJM5lfLOM7aqkXxZcxjJJ5wuuoSzoi2n0xTT6YloZ+uLWiFjebEcpg74MbI9ExFDRdZQBfTGNvphGX0wre18wdQMAiSPoASBxBP3sdhddQInQF9Poi2n0xbRS9wVz9ACQOEb0AJA4gh4AEpds0NveaPu07THbO5rst+1/yfYft31Hq7a2B2z/yPYvsq/92fabbB+y/Tvbj1+ZM8yvS33xN7ZP2q7ZHprx8/4+O/607Y939+zmp82+eNL2OdsvzGjT9HmR7evlvrjd9n/ZfsP2F/O07cW+mO332rC/Y1mR7bvy/RARyd0k9Un6X0kfkLRU0jFJa2cc81eSfijJkj4k6b9btZX0T5J2ZN/vkPSP2ffXSrpT0nZJjxd9/leoLwYl3Sbp3yUNNfystdlx10hanbXvK7of2u2LbN9dku6Q9MKMNrM9L3q9L94n6c8l7ZL0xTxte7Qvmv5e2/z3Uap+SHVEv17SWESciYg3Je2TtHnGMZslfSfqfiLpvbb/uEXbzZK+nX3/bUl/LUkR8fuIOCzp9W6e1AJ1pS8i4sWION3k8TZL2hcRb0TES5LGsp9TBu30hSLiOUkXmvzcps8L9XhfRMS5iDgiaXIebXuuL+b4vU7pWFaooH5INehvlvRKw/3xbFueY+ZquyIifi1J2df3dbDmbulWX7TzeEVppy/mMtvzotf7YiFte7EvWulkVhTSD6kGvZtsm7mOdLZj8rTtJVe6L8rcf+30Rbceryjt1Jba86KVnv/3kWrQj0u6peH+Sklncx4zV9tXp/6Mz76e62DN3dKtvmjn8YrSTl/MZbbnRa/3xULa9mJftNLJrCikH1IN+iOS1thebXuppC2ShmccMyzps9kr6h+S9NvsT6y52g5L+lz2/eckHej2iXRAt/piNsOStti+xvZqSWsk/bSTJ9SGdvpiLrM9L3q9LxbSthf7opVOZkUx/VDkq93dvKn+Svn/qP6q9s5s23ZJ27PvLemJbP8JvX3lyDvaZttvkvRjSb/Ivg407HtZ9Rd0fqf6/9pru32OBffFp7LzfEPSq5Keadi3Mzv+tKRNRZ9/B/tir6Rfq/7i5LikrTmeF73cF3+Unedrkv4v+/6GNv6NlLIvmv1eu5wVV7wfuAQCACQu1akbAECGoAeAxBH0AJA4gh4AEkfQA0DiCHoASBxBDwCJ+39mT1IruCWEAwAAAABJRU5ErkJggg==\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "# tasa de aprendizaje en xgboost \n", "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from xgboost import XGBClassifier\n", "from matplotlib import pyplot\n", "\n", "def get_dataset():\n", "\tX, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "\treturn X, y\n", "\n", "# generamos modelos con diferentes tasas de aprendizaje\n", "def get_models():\n", "\tmodels = dict()\n", "\trates = [0.0001, 0.001, 0.01, 0.1, 1.0]\n", "\tfor r in rates:\n", "\t\tkey = '%.4f' % r\n", "\t\tmodels[key] = XGBClassifier(eta=r)\n", "\treturn models\n", "\n", "\n", "def evaluate_model(model):\n", "\tcv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "\tscores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "\treturn scores\n", "\n", "\n", "X, y = get_dataset()\n", "\n", "models = get_models()\n", "\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\tscores = evaluate_model(model)\n", "\tresults.append(scores)\n", "\tnames.append(name)\n", "\tprint('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# gráfico con los resultados obtenidos\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Podemos ver la tendencia general de aumentar el rendimiento del modelo con el incremento de la tasa de aprendizaje de 0,1, después de lo cual el rendimiento se degrada.\n", "\n", "#### Número de muestras.\n", "\n", "El número de muestras utilizadas para ajustar cada árbol se puede variar y ajustar a las necesidades de cada modelo. Esto significa que cada árbol se ajusta a un subconjunto seleccionado al azar del conjunto de datos de entrenamiento.\n", "\n", "Utilizar menos muestras introduce más varianza para cada árbol, aunque puede mejorar el rendimiento general del modelo.\n", "\n", "El número de muestras utilizadas para ajustar cada árbol se especifica con el argumento *subsample* y puede establecerse como una fracción del tamaño del conjunto de datos de entrenamiento. Por defecto, se fija en 1,0 para utilizar todo el conjunto de datos de entrenamiento.\n", "\n", "El ejemplo siguiente demuestra el efecto del tamaño de la muestra en el rendimiento del modelo con proporciones que varían del 10 al 100 por ciento en incrementos del 10 por ciento.\n", "\n" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">0.1 0.876 (0.027)\n", ">0.2 0.912 (0.033)\n", ">0.3 0.917 (0.032)\n", ">0.4 0.925 (0.026)\n", ">0.5 0.928 (0.027)\n", ">0.6 0.926 (0.024)\n", ">0.7 0.925 (0.031)\n", ">0.8 0.928 (0.028)\n", ">0.9 0.928 (0.025)\n", ">1.0 0.925 (0.028)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from numpy import arange\n", "\n", "def get_dataset():\n", "\tX, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "\treturn X, y\n", "\n", "# función para generar los modelos\n", "def get_models():\n", "\tmodels = dict()\n", "\tfor i in arange(0.1, 1.1, 0.1):\n", "\t\tkey = '%.1f' % i\n", "\t\tmodels[key] = XGBClassifier(subsample=i)\n", "\treturn models\n", "\n", "\n", "def evaluate_model(model):\n", "\tcv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "\tscores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "\treturn scores\n", "\n", "#\n", "X, y = get_dataset()\n", "\n", "models = get_models()\n", "\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\tscores = evaluate_model(model)\n", "\tresults.append(scores)\n", "\tnames.append(name)\n", "\tprint('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# plot modelos\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Número de features.\n", "\n", "Se puede variar el número de features utilizados para ajustar cada árbol de decisión.\n", "\n", "Al igual que el cambio del número de muestras, el cambio del número de features introduce una varianza adicional en el modelo, lo que puede mejorar el rendimiento, aunque podría requerir un aumento del número de árboles.\n", "\n", "El número de features utilizadas por cada árbol se toma como una muestra aleatoria y se especifica mediante el argumento *colsample_bytree* y, por defecto, todas las características del conjunto de datos de entrenamiento, por ejemplo, el 100% o un valor de 1,0. También se pueden muestrear columnas para cada división, y esto se controla con el argumento *colsample_bylevel*.\n", "\n" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">0.1 0.849 (0.032)\n", ">0.2 0.913 (0.028)\n", ">0.3 0.913 (0.033)\n", ">0.4 0.922 (0.027)\n", ">0.5 0.925 (0.028)\n", ">0.6 0.926 (0.029)\n", ">0.7 0.930 (0.029)\n", ">0.8 0.928 (0.026)\n", ">0.9 0.931 (0.030)\n", ">1.0 0.925 (0.028)\n" ] }, { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXoAAAD8CAYAAAB5Pm/hAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy86wFpkAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWW0lEQVR4nO3df4wc9X3G8ffDYYcGCNixQwrGgaQEzj2FiF5dmkQpVpQGEiWUlKa4VdO4l1pUwUrVBoFyNCFClqiSSG0NycmKLUSlHlJoDaSlkIq4tdyWwpn4J+D2akK4uirnYsVKicPZ9+kfO4bl2Lsd+3Z2vve95yWtfLszO/vs3PrZue/M7CoiMDOzfJ1WdwAzM6uWi97MLHMuejOzzLnozcwy56I3M8uci97MLHNti17SZkkvSto7zXRJ+gtJo5J2S7qiadrVkvYX027tZHAzMyunzBb9PcDVM0y/BrikuKwFvgkgqQe4u5i+AlgtacVswpqZ2clrW/QRsQ14aYZZrgXujYbHgXMl/SywEhiNiAMR8QpwXzGvmZl10ekdWMYFwAtN18eK21rd/ktlFrhkyZK46KKLOhDNzGx+2LFjx6GIWNpqWieKXi1uixlub70QaS2NoR+WL1/OyMhIB6KZmc0Pkp6fblonjroZAy5sur4MODjD7S1FxMaI6I+I/qVLW74pmZnZKehE0T8EfLo4+uZK4EcR8d/Ak8Alki6WtBC4oZjXzMy6qO3QjaRh4CpgiaQx4MvAAoCIGAIeBj4KjAIvA2uKacck3QQ8CvQAmyNiXwXPwczMZtC26CNidZvpAXxummkP03gjMDOzmvjMWDOzzLnorVLDw8P09fXR09NDX18fw8PDdUcym3c6cXilWUvDw8MMDg6yadMmPvCBD7B9+3YGBgYAWL16xhFBM+sgpfhVgv39/eHj6Oe+vr4+NmzYwKpVq169bevWraxbt469e1t+dJKZnSJJOyKiv+U0F71Vpaenh6NHj7JgwYJXb5uYmOCMM87g+PHjlT++1OqcvddL8fVfhRTWRZkMqeSYi6+LmYreY/RWmd7eXrZv3/6627Zv305vb29XHj8iXneZ7rb5IIV1MfXxUslRR4Zuc9FbZQYHBxkYGGDr1q1MTEywdetWBgYGGBwcrDua2bzinbFWmRM7XNetW8czzzxDb28v69ev945Ysy7zGL3NG5Ky/LP8VKSyLlLIkUKGTvAYvZnZPOaiNzPLnIvezCxzLnozs8y56M3MMufDK83MuqzbZwm76M3MuqxVgVd5mKeHbszMMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzPo7erGK5fnWdzR0uerOKTS3xXD7/3OYOD92YmWXORW9mljkXvZlZ5lz0ZmaZc9GbmWXORW9mljkXvZlZ5nwcfQelcGJMChlSymFmLvqOSuHEmBQypJTDzDx0Y2aWPRe9mWVt8eLFSJr2Asw4XRKLFy+u+VnMjoduzCxrhw8fnvWwYZl9TinzFr2ZWeZKFb2kqyXtlzQq6dYW0xdJ2iJpt6QnJPU1TfuBpD2Sdkoa6WR4MzNrr+3QjaQe4G7gw8AY8KSkhyLi6abZvgjsjIjrJF1WzP+hpumrIuJQB3ObmVlJZbboVwKjEXEgIl4B7gOunTLPCuAxgIh4FrhI0nkdTWpmZqekTNFfALzQdH2suK3ZLuCTAJJWAu8AlhXTAviupB2S1s4urpmZnawyRd9qd/PUXdh3Aosk7QTWAd8HjhXT3h8RVwDXAJ+T9MGWDyKtlTQiaWR8fLxUeLPUtDuUr8zhfJ04lC+FQwpTWRcpqHtdlDm8cgy4sOn6MuBg8wwRcQRYUwQV8FxxISIOFv++KGkLjaGgbVMfJCI2AhsB+vv7fQqlzUmpHMqXQo4UMqSi7nVRZov+SeASSRdLWgjcADw0JcC5xTSAzwLbIuKIpDMlnV3Mcybwq8DeU05rNoMUtmLNUtR2iz4ijkm6CXgU6AE2R8Q+STcW04eAXuBeSceBp4GB4u7nAVuK/2SnA38VEY90/mmY1b/VZJaqUmfGRsTDwMNTbhtq+vlfgUta3O8AcPksM5qZ2Sz4zFgzs8y56M3MMueiNzPLnIvezCxzLvpTVPcJEGVztMvgE2PM8ufPoz9FqRzKl0KOFDKY2fS8RW9mljkXvZlZ5lz0ZmaZ8xi9WYbiy2+B28+Z/TIyMNO6GO85jZuXLuFr44dYcnxy5mXMYZrtTrQq9Pf3x8hI2t86KKkjOyBzWEYKGVJZRgoZUllGChnaLeOOx+/g2/u/zacu/RS3XXlbZTm6sS4k7YiI/lbTPHRjNs+MvzzOZx75DId+Mr+/3XP85XEeHH2QIHhg9IGs14eL3myeGdo9xFP/8xRDu4baz1yhut9whnYPMRmN4ZrJmKx9fVTJRW82j6S0FVvnG86J9TAxOQHAxORE7eujSt4Za9ZBqe8EbbUVO9PYdFWmvuHcePmNLPmZJV17/Ob1cEKV66Pu14WL3uaF8ZfHuXnbzXztV75WaaHoK0dm3GFWJock4vbOZ5tuK7bbJQv1v+HsenHXq+vhhInJCXa+uLOSx2v3uii1jFm8Ljx0Y/NCKuPSdeaYaSu2m1IYNrn/E/ez53f3vOFy/yfu71qGZlXvr3DRW/ZSGZeuO0e3t2Knk8obTkqq3gBw0VvlfHRFGjlS2YpN5Q0nFd3YAPAYvVWueWul2zv+UhmXTiVHCuoaHklVN/ZXeIveKlX3cEUqwwSp5LC0dGt/hYveKlX3cEUqwwSp5LC0dGsDwEM3VpkUhitSGSZIJYelpVsbAP5Qs1M0Fz6wqWvLmOZEkDveuogtZ53FxGmvfXvUgsngkz/+Mbf97+EWy/nRqWeYIcfJL+fUcyTx+0hlGQn8PiCNdVH3h5q56E9RCi+eVJYx3f2vf+h69h/e/4bbL1106Ru2cFN4Hp1YRgoZUllGChlSWUbdRe+hG6uMhyvM0uCdsWZmmXPRV6Tuk4RSyWBm9XPRVySFz1ZJIYOZ1c9FX4G6TxJKJYOZpcFFX4G6TxJKJYOZpcFF32EpfARrChnMLB0u+g5L4TNNUshgZunI4jh6Se1nglmfsFBGtz/TpNVXlO06/+1MvGnhGzPs/kt45KutlzFLZX8H01m0aNGsM6SUIwUprIsUMqSUoy5ZnhnbibPQuvEYOS0jhcdIIYN/H3Mvx1xZ37M5M9ZDN2ZmmXPRm5llLosx+jq0Ghs/pWWYmVWsVNFLuhr4c6AH+FZE3Dll+iJgM/Au4CjwexGxt8x95yp95Uhnxtxu70weM7PptB26kdQD3A1cA6wAVktaMWW2LwI7I+I9wKdpFHvZ+5qZWYXKjNGvBEYj4kBEvALcB1w7ZZ4VwGMAEfEscJGk80re1ywrkmZ1meuH8ll6yhT9BcALTdfHitua7QI+CSBpJfAOYFnJ+5plIyLaXtrN99JLL9X8LCw3ZcboW51pMHVw+k7gzyXtBPYA3weOlbxv40GktcBagOXLl5eIVb/5fhKGmZVXZ1+UKfox4MKm68uAg80zRMQRYA2AGs/mueLy5nb3bVrGRmAjNE6YKhe/PmV2xKZwMoiZ1a/uvigzdPMkcImkiyUtBG4AHmqeQdK5xTSAzwLbivJve18zM6tW2y36iDgm6SbgURqHSG6OiH2SbiymDwG9wL2SjgNPAwMz3beap2JmZq34s24qlMtnaHRCCr+TFDKkkiOFDKnkSCFDJ3L4s27MzOYxF72ZWeZc9GZmmXPRm5llzp9emQGfuGXttHqNTL0thR2SVg0X/RzX7j9nKkcUWL38GpjfPHRjZpY5F72ZWeZc9GZmmXPRm5llzkVvZpY5F72ZWeZc9GZmmXPRm5llzidMmZl12XRns1d1trKL3sysy7p9prKHbszMMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzPo7eKpHCV9elkMFe0+2ThE4mR+6vCxe9VSKF/ygpZLDXpPL7SCVHN3noxswscy56M7PMuejNzDLnojczy5yL3swscy56M7PMuejNzDLnojczy9ycLPrFixcjadoLMON0SSxevLjjucrkMDPrtjl5Zuzhw4dnfXZbFaU7H8+4M7P0zcktejMzK89Fb2aWORe9mVnmShW9pKsl7Zc0KunWFtPPkfQdSbsk7ZO0pmnaDyTtkbRT0kgnw5uZWXtti15SD3A3cA2wAlgtacWU2T4HPB0RlwNXAV+XtLBp+qqIeG9E9HcmtpmdiuHhYfr6+ujp6aGvr4/h4eG6I1kXlNmiXwmMRsSBiHgFuA+4dso8AZytxqEsZwEvAcc6mrSk8ZfH+cwjn+HQTw7V8fBmyRoeHmZwcJANGzZw9OhRNmzYwODgoMt+HihT9BcALzRdHytua3YX0AscBPYAn4+IyWJaAN+VtEPS2lnmbWto9xBP/c9TDO0aqvqhzOaU9evXs2nTJlatWsWCBQtYtWoVmzZtYv369XVHs4qp3bHfkn4D+EhEfLa4/jvAyohY1zTP9cD7gT8C3gX8A3B5RByRdH5EHJT0tuL2dRGxrcXjrAXWAixfvvwXnn/++elD3X5Oy5vHe07jmmXn89PTTuNNk5M8MnaQJccnW87bWM6PZnzuOZDk4/trVuacjW78jnp6ejh69CgLFix49baJiQnOOOMMjh8/XvnjW7Uk7ZhueLzMCVNjwIVN15fR2HJvtga4Mxqv1lFJzwGXAU9ExEGAiHhR0hYaQ0FvKPqI2AhsBOjv75/xVa+vHGn5H2Po8TuY/I8tMDnB5OlvYujDf8xtV97WehkScftMj2LWGam80fb29rJ9+3ZWrVr16m3bt2+nt7e3xlTWDWWGbp4ELpF0cbGD9QbgoSnz/BD4EICk84BLgQOSzpR0dnH7mcCvAns7Fb7Z+MvjPDj6IBOTEwBMTE7wwOgDHqs3KwwODjIwMMDWrVuZmJhg69atDAwMMDg4WHc0q1jbLfqIOCbpJuBRoAfYHBH7JN1YTB8C7gDukbQHEHBLRByS9E5gS/Gn6+nAX0XEI1U8kaHdQ0zG64dpJmOSoV1D027Vm80nq1evBmDdunU888wz9Pb2sn79+ldvt3y1HaOvQ39/f4yMTH/Ifatx5+sfup79h/e/Yd5LF13K/Z+4v9QycjRfnqfZfDfbMfo5oVWZm5mZPwLBzCx7Lnozs8y56M3MMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPL3Jz9cnBJs7r/okWLOpTEzCxtc7LoI2LG6ZLazmNmNl/MyaK36bX6S2fqbX4TNJtfXPSZcYmb2VTeGWtmljkXvZlZ5lz0ZmaZc9GbmWXORW9mljkXvZlZ5lz0ZmaZc9GbmWXORW9mljkXvZlZ5lz0ZmaZc9GbmWXORW9mlrlSRS/pakn7JY1KurXF9HMkfUfSLkn7JK0pe18zM6tW26KX1APcDVwDrABWS1oxZbbPAU9HxOXAVcDXJS0seV8zM6tQmS36lcBoRByIiFeA+4Brp8wTwNlqfMPFWcBLwLGS9zUzswqVKfoLgBearo8VtzW7C+gFDgJ7gM9HxGTJ+5qZWYXKFH2rb+Ge+jVGHwF2AucD7wXukvSWkvdtPIi0VtKIpJHx8fESsczMrIwyRT8GXNh0fRmNLfdma4C/iYZR4DngspL3BSAiNkZEf0T0L126tGx+MzNro0zRPwlcIuliSQuBG4CHpszzQ+BDAJLOAy4FDpS8r5mZVajtl4NHxDFJNwGPAj3A5ojYJ+nGYvoQcAdwj6Q9NIZrbomIQwCt7lvNUzEzs1YU0XLIvFb9/f0xMjJyyveXRIrPy8ysKpJ2RER/q2k+M9bMLHMuejOzzLnozcwy56I3M8uci97MLHMuejOzzLnozcwy56I3M8uci97MLHMuejOzzLnozcwy56I3M8uci97MLHMuejOzzLX9PPq5oPGd5O1v80cXm9l8lEXRu8DNzKbnoRszs8y56M3MMueiNzPLnIvezCxzLnozs8y56M3MMueiNzPLnIvezCxzSvFkI0njwPOzWMQS4FCH4sxGCjlSyABp5EghA6SRI4UMkEaOFDLA7HO8IyKWtpqQZNHPlqSRiOh3jjQypJIjhQyp5EghQyo5UshQdQ4P3ZiZZc5Fb2aWuVyLfmPdAQop5EghA6SRI4UMkEaOFDJAGjlSyAAV5shyjN7MzF6T6xa9mZkV5nTRS7pa0n5Jo5JubTH9Mkn/Kumnkr5QU4bflrS7uPyLpMtrynFtkWGnpBFJH+h2hqb5flHScUnXdzpDmRySrpL0o2Jd7JT0pW5naMqxU9I+Sf/U6Qxlcki6uWk97C1+L4u7nOEcSd+RtKtYF2s6+fgnkWORpC3F/5MnJPVVkGGzpBcl7Z1muiT9RZFxt6QrOvLAETEnL0AP8J/AO4GFwC5gxZR53gb8IrAe+EJNGd4HLCp+vgb4t5pynMVrQ3XvAZ7tdoam+b4HPAxcX9O6uAr425pfm+cCTwPLT7xW68gxZf6PA9+rYV18EfjT4uelwEvAwhpyfBX4cvHzZcBjFfxOPghcAeydZvpHgb8HBFzZqb6Yy1v0K4HRiDgQEa8A9wHXNs8QES9GxJPARI0Z/iUiDhdXHweW1ZTjx1G8koAzgU7vnGmbobAO+GvgxQ4//snmqFKZDL8F/E1E/BAar9WacjRbDQzXkCGAs9X4/s+zaBT9sRpyrAAeA4iIZ4GLJJ3XyRARsY3G85vOtcC90fA4cK6kn53t487lor8AeKHp+lhxW8oZBmi8W9eSQ9J1kp4F/g74vW5nkHQBcB0w1OHHPqkchV8uhgr+XtLP15Dh3cAiSf8oaYekT3c4Q9kcAEh6M3A1jTfhbme4C+gFDgJ7gM9HxGQNOXYBnwSQtBJ4B9VsmM2kkl6by0X/xm//7vxWascySFpFo+hvqStHRGyJiMuAXwPuqCHDnwG3RMTxDj/2yeZ4isbp4pcDG4AHashwOvALwMeAjwB/IundNeQ44ePAP0fETFubVWX4CLATOB94L3CXpLfUkONOGm++O2n85fl9Ov+XRTuV9Npc/nLwMeDCpuvLaGwRJJdB0nuAbwHXRMT/1pXjhIjYJuldkpZERKc+46NMhn7gvsZf6CwBPirpWEQ80KEMpXJExJGmnx+W9I0a1sUYcCgi/g/4P0nbgMuBf+9QhrI5TriBzg/blM2wBrizGFoclfQcjTHyJ7qZo3hdrIHGTlHgueLSTdX0Wqd3NnTrQuNN6gBwMa/tXPn5aea9nWp2xrbNACwHRoH31bkugJ/jtZ2xVwD/deJ6t38fxfz3UM3O2DLr4u1N62Il8MNurwsaQxWPFfO+GdgL9HV7XRTznUNj3PjMmn4f3wRuL34+r3htLqkhx7kUO4GB36cxVt7R9VEs+yKm3xn7MV6/M/aJTjzmnN2ij4hjkm4CHqWxR31zROyTdGMxfUjS24ER4C3ApKQ/pLGn/ch0y+10BuBLwFuBbxRbsseiwx9cVDLHrwOfljQB/AT4zSheWV3MULmSOa4H/kDSMRrr4oZur4uIeEbSI8BuYBL4VkS0POSuyhzFrNcB343GXxcdVTLDHcA9kvbQKLhbonN/XZ1Mjl7gXknHaRwRNdDJDACShmkc9bVE0hjwZWBBU4aHaRx5Mwq8TPEXxqwft4OvbzMzS9Bc3hlrZmYluOjNzDLnojczy5yL3swscy56M7PMuejNzDLnojczy5yL3swsc/8PkS/40atSUdwAAAAASUVORK5CYII=\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "\n", "\n", "def get_dataset():\n", "\tX, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5, random_state=7)\n", "\treturn X, y\n", "\n", "def get_models():\n", "\tmodels = dict()\n", "\tfor i in arange(0.1, 1.1, 0.1):\n", "\t\tkey = '%.1f' % i\n", "\t\tmodels[key] = XGBClassifier(colsample_bytree=i)\n", "\treturn models\n", "\n", "\n", "def evaluate_model(model):\n", "\tcv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "\tscores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "\treturn scores\n", "\n", "\n", "X, y = get_dataset()\n", "\n", "models = get_models()\n", "\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\tscores = evaluate_model(model)\n", "\tresults.append(scores)\n", "\tnames.append(name)\n", "\tprint('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# plot de los modelos\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Random Forest (bosques aleatorios).\n", "\n", "El algoritmo Random Forest es un ensamble de árboles de decisión, y constituye una extensión de los métodos bootstrap aggregation (bagging) de árboles de decisión que puede ser utilizado tanto para regresión como para clasificación. Debido a que el método base es detipo bagging, se hace una serie de muestras con reemplazamiento que servirá cada una de estas muestras para entrenar el árbol de decisión correspondiente.\n", "\n", "Por lo tanto, en este tipo de modelos, tendremos tantas predicciones como muestras bootstrap tengamos, y entonce la predicción última o final depende del tipo de modelo que estemos ajustando.\n", "\n", "Si el modelo es de regresión, entonces la predicción final se hace en base a la media de todas las medias que se hayan obtenido. Si el modelo es de clasificación, entonces la predicción final se hace en base al voto mayoritario que se obtenga en los modelos base.\n", "\n", "El modelo de bosque aleatorio también implica la posibilidad de hacer selección de un subconjunto de características de entrada (features, columnas o variables) en cada punto de división en la construcción de los árboles. \n", "\n", "Al reducir las características o features a un subconjunto aleatorio que puede considerarse en cada punto de división obliga a cada árbol de decisión del conjunto a ser más diferente que los obtenidos en otros pasos.\n", "\n", "El efecto obtenido con este procedimiento de selección de features o columnas es que las predicciones, y a su vez, los errores de predicción, realizados por cada árbol del conjunto son más diferentes o están menos correlacionados.\n", "Cuando las predicciones de estos árboles menos correlacionados se promedian para hacer una predicción, a menudo se obtiene una acuracidad mejor. Por este motivo, tal vez el hiperparámetro más importante que hay que ajustar para el bosque aleatorio es el número de características aleatorias a considerar en cada punto de división.\n", "\n", "En este sentido, y aunque sólo es una recomendación, el número de features a seleccionar se sugiere sean las siguientes:\n", "\n", "* Para problemas de regresión, elegir el número total de features o columnas dividido entre tres.\n", "\n", "\n", "* Para problemas de clasificación, elegir como valor la raíz cuadrada del total de features.\n", "\n", "Otro hiperparámetro importante a ajustar en estos modelos es la profundidad de los árboles de decisión. Los árboles más profundos suelen ser más abiertos a los datos de entrenamiento, pero también menos correlacionados, lo que a su vez puede mejorar el rendimiento del conjunto. Los niveles de profundidad de 1 a 10 niveles pueden ser eficaces. Por último, para decidir el número de árboles de decisión a tener en cuenta en el conjunto, a menudo lo que se hace es aumentarlo hasta que no se observa ninguna no se observe ninguna mejora en el resultado final, o esta sea mínima.\n", "\n", "En scikit learn, existen dos clases para utilizar este tipo de ensambles: RandomForestRegressor y RandomForestClassifier. Ambos modelos tienen una serie de hiperparámetros muy similares y dada la naturaleza estocástica del procedimiento, no siempre se obtienen resultados iguales.\n", "\n", "### Ejemplo de clasificación.\n", "\n", "Veamos a continuación un ejemplo de uso de clasificación de este modelo en base a una serie de datos artificiales obtenidos con la función *make_clasification()* " ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Acuracidad media: 0.902 (0.023)\n" ] } ], "source": [ "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from sklearn.ensemble import RandomForestClassifier\n", "# obtenemos el conjunto de datos\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5,\n", "random_state=3)\n", "# definimos el modelo con los parámetros por defecto\n", "model = RandomForestClassifier()\n", "# hacemos una evaluación el modelo\n", "cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "#\n", "n_scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", "# sacamos la acuracidad media\n", "print('Acuracidad media: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Para hacer una predicción lo haríamos de la siguiente manera" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Predicted Class: 0\n" ] } ], "source": [ "\n", "X, y = make_classification(n_samples=1000, n_features=20, n_informative=15, n_redundant=5,\n", "random_state=3)\n", "\n", "model = RandomForestClassifier()\n", "# Ajustamos el modelo\n", "model.fit(X, y)\n", "# Hacemos una simple predicción\n", "row = [-8.52381793, 5.24451077, -12.14967704, -2.92949242, 0.99314133, 0.67326595,\n", "-0.38657932, 1.27955683, -0.60712621, 3.20807316, 0.60504151, -1.38706415, 8.92444588,\n", "-7.43027595, -2.33653219, 1.10358169, 0.21547782, 1.05057966, 0.6975331, 0.26076035]\n", "yhat = model.predict([row])\n", "# imprimimos la prediccióon\n", "print('La clase predicha es: %d' % yhat[0])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Ejemplo de regresión.\n", "\n", "Para este ejemplo, también vamos a obtener una serie de datos artificiales mediante la función make_regression()" ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "MAE: -90.329 (7.945)\n" ] } ], "source": [ "from numpy import mean\n", "from numpy import std\n", "from sklearn.datasets import make_regression\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedKFold\n", "from sklearn.ensemble import RandomForestRegressor\n", "# obtenemos los datos artificiales\n", "X, y = make_regression(n_samples=1000, n_features=20, n_informative=15, noise=0.1,\n", "random_state=2)\n", "# definimos el modelo con parámetros por defecto\n", "model = RandomForestRegressor()\n", "# definimos la validación \n", "cv = RepeatedKFold(n_splits=10, n_repeats=3, random_state=1)\n", "# evaluamos el modelo\n", "n_scores = cross_val_score(model, X, y, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1)\n", "# imprimimos el resultado de la evaluación del modelo\n", "print('MAE: %.3f (%.3f)' % (mean(n_scores), std(n_scores)))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En este caso también se pueden hacer predicciones utilizando para ello el método *predict()*" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Predicción obtenida: -164\n" ] } ], "source": [ "# ajustamos el modelo a los datos \n", "model.fit(X, y)\n", "# datos para hacer la prediccón\n", "row = [-0.89483109, -1.0670149, -0.25448694, -0.53850126, 0.21082105, 1.37435592,\n", "0.71203659, 0.73093031, -1.25878104, -2.01656886, 0.51906798, 0.62767387, 0.96250155,\n", "1.31410617, -1.25527295, -0.85079036, 0.24129757, -0.17571721, -1.11454339, 0.36268268]\n", "yhat = model.predict([row])\n", "# imprimimos la predicción.\n", "print('Predicción obtenida: %d' % yhat[0])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Hiperparámetros de Random Forest.\n", "\n", "En estas clases existen una serie importante de hiperparámetros que sirven para mejorar los ajustes del modelo. En este apartado vamos a ver los más importantes.\n", "\n", "#### Tamaño de las muestras.\n", "\n", "Se puede configurar esta clase para que no se haga ningún tipo de submuestreo, y en este caso, los árboles de decisión se ajustarán en base a la información que proporcionan todos los datos de entrenamiento con los que se cuente. Esto se consigue con el hiperparámetro *bootstrap* que admite un valor booleano, de tal manera que si su valor es false, entonces no se realiza submuestreo.\n", "\n", "Igualmente se pueden definir los tamaños de las muestras, en el caso de realizar submuestreo. Esto se configura con el hiperparámetro *max_samples* que es un valor entre 0 y 1 y mediante el cual se controla el porcentaje de muestra con reemplazamiento que se desea obtener.\n", "\n", "Veamos con el siguiente ejemplo, el efecto en la acuracidad que se obtiene en el modelo, cambiando este parámetro." ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">0.1 0.860 (0.028)\n", ">0.2 0.881 (0.025)\n", ">0.3 0.889 (0.026)\n", ">0.4 0.890 (0.027)\n", ">0.5 0.892 (0.025)\n", ">0.6 0.900 (0.028)\n", ">0.7 0.899 (0.027)\n", ">0.8 0.906 (0.027)\n", ">0.9 0.899 (0.026)\n", ">1.0 0.902 (0.025)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "from numpy import arange\n", "from sklearn.datasets import make_classification\n", "from sklearn.model_selection import cross_val_score\n", "from sklearn.model_selection import RepeatedStratifiedKFold\n", "from sklearn.ensemble import RandomForestClassifier\n", "from matplotlib import pyplot\n", "# función para generar los datos\n", "def get_dataset():\n", " X, y = make_classification(n_samples=1000, n_features=20, n_informative=15,\n", " n_redundant=5, random_state=3)\n", " return X, y\n", "# función para generar un diccionario de modelos\n", "def get_models():\n", " models = dict()\n", " # definimos porcentajes desde 10% to 100% incrementados en un 10% \n", " for i in arange(0.1, 1.1, 0.1):\n", " key = '%.1f' % i\n", " # poner max_samples=None para usar el 100% de los datos\n", " if i == 1.0:\n", " i = None\n", " models[key] = RandomForestClassifier(max_samples=i)\n", " return models\n", "\n", "# evaluamos el modelo usando cross-validation\n", "def evaluate_model(model, X, y):\n", " cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", " \n", " scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", " return scores\n", "\n", "\n", "# obtenemos los datos\n", "X, y = get_dataset()\n", "# Obtenemos los modelos\n", "models = get_models()\n", "# evaluamos modelo y almacenamos resultado\n", "results, names = list(), list()\n", "for name, model in models.items():\n", " # evaluación del modelo\n", " scores = evaluate_model(model, X, y)\n", " # almacenamos resultados\n", " results.append(scores)\n", " names.append(name)\n", " # imprimimos la acuracidad para cada paso\n", " print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# plot los modelos\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Configurando el número de features.\n", "\n", "El número de features a tener en cuenta, se configura mediante el hiperparámetro *max_features* que por defecto tiene un valor es igual a la raíz cuadrada del número total de features que tiene el dataset.\n", "\n", "Los valores que puede tomar este hiperparámetro son:\n", "\n", "* Un valor entero. En este caso se elige el número de features indicadas en ese valor.\n", "\n", "* Un valor de tipo float. En este caso se indican el porcentaje de features a considerar.\n", "\n", "* Un valor igual a \"auto\". En este caso max_features = n_features.\n", "\n", "* Un valor igual a \"sqrt\". En este caso max_features = sqrt(n_features). Es el valor por defecto.\n", "\n", "* Un valor igual a \"log2\". En este caso max_features = log2(n_features)\n", "\n", "* Un valor igual a None o 1.0. En este caso max_features = n_features.\n", "\n", "#### Configurando el número de árboles de dicisión.\n", "\n", "Otro factor muy influyente a la hora de trabajar con bosques aleatorios, es el número de árboles de decisión que deben tenerse en cuenta. Para configurar este valor se dispone del parámetro *n_estimatros* que por defecto tiene un valor igual a 100.\n", "\n", "#### Configurando la profundidad de los árboles de decisión.\n", "\n", "Se configura con el hiperparámetros *max_depth* que por defecto tiene un valor de None, que indica que los nodos se expanden hasta que todas las hojas sean puras o hasta que todas las hojas contengan menos muestras que min_samples_split. Un valor concreto para este hiperparámetro indica la máxima profundidad que se permite alcanzar cuando se construyen los árboles de decisión." ] }, { "cell_type": "code", "execution_count": 75, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ ">1 0.767 (0.041)\n", ">2 0.806 (0.034)\n", ">3 0.839 (0.035)\n", ">4 0.856 (0.033)\n", ">5 0.874 (0.027)\n", ">6 0.882 (0.020)\n", ">7 0.888 (0.025)\n", ">None 0.903 (0.020)\n" ] }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "def get_dataset():\n", " X, y = make_classification(n_samples=1000, n_features=20, n_informative=15,\n", " n_redundant=5, random_state=3)\n", " return X, y\n", "\n", "# generar un diccionario de modelos\n", "def get_models():\n", " models = dict()\n", " # definimos la profundidad de los modelos\n", " depths = [i for i in range(1,8)] + [None]\n", " for n in depths:\n", " models[str(n)] = RandomForestClassifier(max_depth=n)\n", " return models\n", "\n", "# evaluación del modelo con cross-validation\n", "def evaluate_model(model, X, y):\n", " cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)\n", " scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1)\n", " return scores\n", "\n", "\n", "X, y = get_dataset()\n", "\n", "models = get_models()\n", "\n", "results, names = list(), list()\n", "for name, model in models.items():\n", "\n", " scores = evaluate_model(model, X, y)\n", " # almacenamos resultados\n", " results.append(scores)\n", " names.append(name)\n", " # resumen de resultados\n", " print('>%s %.3f (%.3f)' % (name, mean(scores), std(scores)))\n", "# plot modelos para comparación\n", "pyplot.boxplot(results, labels=names, showmeans=True)\n", "pyplot.show()" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.6" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": true, "skip_h1_title": false, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": false, "toc_position": {}, "toc_section_display": true, "toc_window_display": false }, "varInspector": { "cols": { "lenName": 16, "lenType": 16, "lenVar": 40 }, "kernels_config": { "python": { "delete_cmd_postfix": "", "delete_cmd_prefix": "del ", "library": "var_list.py", "varRefreshCmd": "print(var_dic_list())" }, "r": { "delete_cmd_postfix": ") ", "delete_cmd_prefix": "rm(", "library": "var_list.r", "varRefreshCmd": "cat(var_dic_list()) " } }, "types_to_exclude": [ "module", "function", "builtin_function_or_method", "instance", "_Feature" ], "window_display": false } }, "nbformat": 4, "nbformat_minor": 4 }