{ "cells": [ { "cell_type": "markdown", "metadata": { "toc": true }, "source": [ "

Tabla de contenidos

\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Introducción \n", "\n", "En un [post anterior](https://bigdatafran.github.io/big_data//RegresionLogit){:target=\"_blank}, ya se ha comentado la parte teórica sobre la que se construye este modelo, además se han mostrado algunos ejemplos realizados con R.\n", "\n", "En este post me voy a centrar en el enfoque de este modelo que se da [desde scikit-learn](http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression){:target=\"_blank\"}.\n", " \n", "Como puede observarse en la parte expositiva, el concepto puede parecer diferente al expuesto en este sitio web, pero el enfoque y resltado final es muy similar en ambos enfoques. En resumen se trata de minimizar también unas serie de funciones con un enfoque similar, lo único que en scikit-learn, además de utilizar la métrica L2, también emplea la métrica L1.\n", "\n", "En scikit-learn el problema se enfoca desde un punto de vista de optimización, de tal manera que si se utiliza la métrica L2, se minimizará la siguiente función de coste:\n", "\n", "\\\\[ \\underset{w,c}{min}\\frac{1}{2}W^{T}W+C\\sum_{i=1}^{n}log(exp(-y_{i}(X_{i}^{T}W+c))+1) \\\\]\n", "\n", "En el supuesto de que se quiera minimizar la función de coste utilizando la norma L1, el problema de optimización es el siguiente:\n", "\n", "\\\\[ \\underset{w,c}{min}\\left\\Vert W\\right\\Vert _{1}+C\\sum_{i=1}^{n}log(exp(-y_{i}(X_{i}^{T}W+c))+1) \\\\]\n", "\n", "\n", "Recordar del post anterior que en este tipo de modelos, las probabilidades de los valores que toma la variable independiente , se modelan de acuerdo a la función de tipo logístico, y en concreto que:\n", "\n", "\\\\[ \\frac{1}{1+e^{-z}} \\\\]\n", "\n", "Los diferentes \"solvers\" implementados en scikit-learn para resolver los anteriores problemas de optimización son: \"liblinear\" ( es el que utiliza por defecto), \"newton-cg\", \"lbfgs\", \"sag\" y \"saga\". El modelo elegido se implementa dentro del parámetro *solver* de la funcion *LogisticRegression*.\n", "\n", "A continuación comenzamos importando las librerías que se necesitan para este modelo." ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "import numpy as np\n", "from sklearn import linear_model \n", "import matplotlib.pyplot as plt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Datos utilizados\n", "\n", "En primer lugar lo que hacemos es definir una función que va a servir, para delimitar las zonas de decisión que nos facilita el modelo. Antes de presentar la función, vamos a ver ciertas funciones de numpy que se utilizan en el ejemplo y conviene aclarar con carácter previo." ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[1 4]\n", " [2 5]\n", " [3 6]]\n", "[1 2 3 4 5 6]\n", "se obtiene el mismo resultado que antes\n", "[1 2 3 4 5 6]\n", "Lo mismo pero en orden diferente\n", "[1 4 2 5 3 6]\n" ] } ], "source": [ "#Primero un ejemplo de lo que hace np.c_\n", "print(np.c_[np.array([1,2,3]), np.array([4,5,6])])\n", "# A continuación veamos cómo trabaja la función ravel\n", "x = np.array([[1, 2, 3], [4, 5, 6]])\n", "print(np.ravel(x))\n", "print(\"se obtiene el mismo resultado que antes\")\n", "print(x.reshape(-1))\n", "print(\"Lo mismo pero en orden diferente\")\n", "print(np.ravel(x, order='F'))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A continuación definimos la función que se va a utilizar." ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [], "source": [ "def plot_classifier(classifier, X, y):\n", " # Se definen los rangos para dibujar la figura \n", " x_min, x_max = min(X[:, 0]) - 1.0, max(X[:, 0]) + 1.0\n", " y_min, y_max = min(X[:, 1]) - 1.0, max(X[:, 1]) + 1.0\n", "\n", " # Se define el paso que se va a utilizar para definir la malla de datos\n", " step_size = 0.01\n", "\n", " # Ahora definimos la malla\n", " x_values, y_values = np.meshgrid(np.arange(x_min, x_max, step_size), np.arange(y_min, y_max, step_size))\n", "\n", " # se calcula la predición dada por el modelo sobre los puntos de la malla\n", " #Ver el apartado anterior para entender el funcionamiento de las funciones\n", " mesh_output = classifier.predict(np.c_[x_values.ravel(), y_values.ravel()])\n", "\n", " # redimensionamos los valores de mesh_output\n", " mesh_output = mesh_output.reshape(x_values.shape)\n", "\n", " # Dibujamos la figura\n", " plt.figure()\n", " \n", " # Elegimos un color para definir las zonas de predicción\n", " # Ver enlace: http://matplotlib.org/examples/color/colormaps_reference.html\n", " plt.pcolormesh(x_values, y_values, mesh_output, cmap=plt.cm.gray)\n", "\n", " # Overlay the training points on the plot \n", " plt.scatter(X[:, 0], X[:, 1], c=y, s=80, edgecolors='black', linewidth=1, cmap=plt.cm.Paired)\n", "\n", " # especificamos los bordes del gráfico\n", " plt.xlim(x_values.min(), x_values.max())\n", " plt.ylim(y_values.min(), y_values.max())\n", "\n", " # indicamos lo ticks tanto del eje X como del eje Y \n", " plt.xticks((np.arange(int(min(X[:, 0])-1), int(max(X[:, 0])+1), 1.0)))\n", " plt.yticks((np.arange(int(min(X[:, 1])-1), int(max(X[:, 1])+1), 1.0)))\n", "\n", " plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como pequeña introducción a la creación de un modelo de estas acarcaterísticas, inicialmente se introducen unos pocos datos para entender el funcionamiento de cómo utilizar los comandos que facilita la [clase LogisticRegression](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html){:target=\"_blank\"}. \n", "\n", "Como vemos con las datos introducidos, se entiende que existen tres clases diferentes." ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Generamos los datos\n", "X = np.array([[4, 7], [3.5, 8], [3.1, 6.2], [0.5, 1], [1, 2], [1.2, 1.9], [6, 2], [5.7, 1.5], [5.4, 2.2]])\n", "y = np.array([0, 0, 0, 1, 1, 1, 2, 2, 2])\n", "\n", "# Se inicializa el clasificador\n", "classifier = linear_model.LogisticRegression(solver='liblinear', C=100)\n", "#Para más opciones de los parámetros del modelo, ver la definición de la \n", "#clase en el enlace anterior\n", "\n", "# Entrenamos el clasificador\n", "classifier.fit(X, y)\n", "\n", "# Ejecutamos la función definida anteriormente para dibujar las zonas de decisión\n", "plot_classifier(classifier, X, y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Extración de datos del modelo\n", "\n", "La función *classifier* admite muchos más parámetros que los utilizados en este ejemplo, su utilidad se puede ver en la página web que define el modelo. En este ejemplo se han utilizado:\n", "\n", "1.- **solver**.- Para indicar el algoritmo utilizado para la resolución del problema de optimización.\n", "\n", "2.- **C** .- que indica la inversa de la *\"regularization strength\"*. [Ver explicación de regularization aquí](https://en.wikipedia.org/wiki/Regularization_%28mathematics%29#Regularization_in_statistics_and_machine_learning){:_target=\"_blank\"}. Al igual que ocurre con el método de *support vector machines*, valores más pequeños especifican una regularización más fuerte. En un post futuro, tengo la intención de desarrollar con mayor precisión este concepto. De momento ten presente que este parámetro va a servir para controlar tanto el sub ajuste como el sobre ajuste.\n", "\n", "La función **decision_function**, nos va a facilitar las puntuaciones en cada punto de la muestra para cada una de las categorías de la variable independiente." ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([[ 4.7571468 , -6.10180605, -11.58794507],\n", " [ 7.21949016, -5.74395713, -15.52888975],\n", " [ 3.86180697, -3.76504774, -11.6304974 ],\n", " [ -4.64423906, 4.86628767, -3.91881734],\n", " [ -3.00846098, 3.20641548, -5.40183274],\n", " [ -3.3786801 , 2.86797242, -4.63904887],\n", " [ -7.14128738, -6.88219012, 6.8878137 ],\n", " [ -7.91784816, -5.95136796, 7.50642493],\n", " [ -6.23553607, -5.80175977, 4.87066012]])" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "classifier.decision_function(X)" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True,\n", " intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,\n", " penalty='l2', random_state=None, solver='liblinear', tol=0.0001,\n", " verbose=0, warm_start=False)" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "# Obtenemos los parámetros con los que ha trabajado el modelo\n", "classifier.densify()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Obtenemos las predicciones de clasificación de cada uno de los puntos con los que se ha entrenado el modelo" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[0 0 0 1 1 1 2 2 2]\n" ] } ], "source": [ "Y_Predic=classifier.predict(X)\n", "print(Y_Predic)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si en lugar de obtener las predicciones, queremos conocer las probabilidades que el modelo ha asignado, lo haremos con el siguiente código." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([[9.97742742e-01, 2.24792260e-03, 9.33573773e-06],\n", " [9.96815802e-01, 3.18401770e-03, 1.79813200e-07],\n", " [9.77395569e-01, 2.25955586e-02, 8.87246208e-06],\n", " [9.32603904e-03, 9.71603642e-01, 1.90703191e-02],\n", " [4.64593281e-02, 9.49108477e-01, 4.43219534e-03],\n", " [3.33424487e-02, 9.56974605e-01, 9.68294649e-03],\n", " [7.90475947e-04, 1.02402738e-03, 9.98185497e-01],\n", " [3.63177191e-04, 2.58928294e-03, 9.97047540e-01],\n", " [1.95992874e-03, 3.02110724e-03, 9.95018964e-01]])" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "classifier.predict_proba(X)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A continuación calculamos los parámetros estimados del modelo." ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [], "source": [ "coef=classifier.coef_" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[-6.28001714 6.52615987 -2.43580195]\n" ] } ], "source": [ "inter=classifier.intercept_\n", "print(inter)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Veamos cómo calcular las probabilidades obtenidas tres celdas más arriba. Lo único que hay que aplicar es que\n", "\n", "\\\\[ p(i/X_1,X_2) =\\frac{1}{1+e^{-(b_0+b_1*X_1+b_2*X_2)}} \\\\]\n", "\n", "siendo b0 los parámetros para cada una de las tres categorías obtenidos con la propiedad *_intercept* y b1 y b2 los parámetros almacenados en la variable *inter*.\n", "\n", "Al ejecutar el siguiente script, vemos que los valores obtenidos para las probabilidades que nos da la instrucción *\"classifier.predict_proba(X)\"* coinciden con el resultado que a continuación se muestra." ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " 9.915E-01, 2.234E-03, 9.277E-06, \n", "\n", " 9.993E-01, 3.192E-03, 1.803E-07, \n", "\n", " 9.794E-01, 2.264E-02, 8.891E-06, \n", "\n", " 9.525E-03, 9.924E-01, 1.948E-02, \n", "\n", " 4.705E-02, 9.611E-01, 4.488E-03, \n", "\n", " 3.297E-02, 9.462E-01, 9.574E-03, \n", "\n", " 7.911E-04, 1.025E-03, 9.990E-01, \n", "\n", " 3.641E-04, 2.596E-03, 9.995E-01, \n", "\n", " 1.955E-03, 3.013E-03, 9.924E-01, \n", "\n" ] } ], "source": [ "import math\n", "for i in range(0,X.shape[0]):\n", " for j in range(0,X.shape[1]+1):\n", " p=1/(1+math.exp(-(inter[j]+coef[j,0]*X[i,0]+coef[j,1]*X[i,1])))\n", " #print(\"%0.5f\" % (p),end=\", \")\n", " print(\"%10.3E\" % (p),end=\", \")\n", " print(\"\\n\")\n", " " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En scikit-learn, muchas clases tienen el método denominado *score* que obtiene la precisión del modelo (recordar que precisión=(casos bien clasificados)/(n. total de casos)). En nuestro caso, podemos comprobar que hemos acertado en todos los casos, ya que el valor obtenido es 1" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1.0" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "classifier.score(X,y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Con la matriz de confusión, nos permite clasificar en una tabla de doble entrada, el número de casos que hay en cada cruce entre los valores observados y los valores predichos." ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "array([[3, 0, 0],\n", " [0, 3, 0],\n", " [0, 0, 3]], dtype=int64)" ] }, "execution_count": 26, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import confusion_matrix\n", "confusion_matrix(y,Y_Predic)" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# initialize the logistic regression classifier\n", "classifier = linear_model.LogisticRegression(solver='liblinear', C=1000)\n", "# train the classifier\n", "classifier.fit(X, y)\n", "\n", "# draw datapoints and boundaries\n", "plot_classifier(classifier, X, y)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Evolución del modelo con parámetro C\n", "\n", "A continuación se va a ver el efecto que sobre el modelo puede tener el valor del parámetro C. Para ello, lo que se va a obtener son una serie de regiones de predicción haciendo variar el parámetro C. Lo primero que se hace es definir la función *plot_classifier2* muy similar a la vista en un bloque anterior, pero ligeramente modificada, para obtener todas las representaciones gráficas dentro del mismo gráfico." ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [], "source": [ "def plot_classifier2(figura,classifier, X, y,a=1,b=1,c=1,titulo=\"\"):\n", " # Se definen los rangos para dibujar la figura \n", " x_min, x_max = min(X[:, 0]) - 1.0, max(X[:, 0]) + 1.0\n", " y_min, y_max = min(X[:, 1]) - 1.0, max(X[:, 1]) + 1.0\n", "\n", " # Se define el paso que se va a utilizar para definir la malla de datos\n", " step_size = 0.01\n", "\n", " # Ahora definimos la malla\n", " x_values, y_values = np.meshgrid(np.arange(x_min, x_max, step_size), np.arange(y_min, y_max, step_size))\n", "\n", " # se calcula la predición dada por el modelo sobre los puntos de la malla\n", " mesh_output = classifier.predict(np.c_[x_values.ravel(), y_values.ravel()])\n", "\n", " # redimensionamos el array\n", " mesh_output = mesh_output.reshape(x_values.shape)\n", " \n", " ax=figura.add_subplot(a,b,c)\n", " ax.set_title(titulo)\n", " \n", " # Definimos los colores que queremos usar\n", " # here: http://matplotlib.org/examples/color/colormaps_reference.html\n", " ax.pcolormesh(x_values, y_values, mesh_output, cmap=plt.cm.gray)\n", " \n", " ax.scatter(X[:, 0], X[:, 1], c=y, s=80, edgecolors='black', \n", " linewidth=1, cmap=plt.cm.Paired)\n" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fig=plt.figure(figsize=(12,20))\n", "C_param_range = [0.0001,0.001,0.01,0.1,1,10,100,1000,2000,5000]\n", "J=1\n", "for i in C_param_range:\n", " # initialize the logistic regression classifier\n", " classifier = linear_model.LogisticRegression(solver='liblinear', C=i)\n", " # train the classifier\n", " classifier.fit(X, y)\n", "\n", " # draw datapoints and boundaries\n", " title=\"Resultado para C= \"+ str(i)\n", " plot_classifier2(fig,classifier, X, y,a=5,b=2,c=J,titulo=title)\n", " J =J+1\n", "plt.show() " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Para entender los gráficos anteriores hay que aclarar que **al aumentar C se tienen una penalización más alta por un error de clasificación**, y como puede verse se tiene una clasificación más óptima. Para valores bajos de C, los resultados son bastante malos, e incluso las zonas de decisión, prácticamente quedan delimitadas por una recta." ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "# Otro ejemplo\n", "\n", "En los apartados anteriores se ha mostrado un ejemplo muy simple para que el lector se vaya familiarizando con esta metodoligía. En lo que sigue, vamos a utilizar este método con otro tipo de aplicación. En concreto, se utilizará para poder clasificar los correos en spam o no spam, dependiendo del contenido del mensaje que traiga el correo. El ejemplo que utilizaremos, serán los datos de la [página UCI que puedes ver en este enlace](https://archive.ics.uci.edu/ml/datasets/sms+spam+collection){:target=\"_blank\"}. \n", "\n", "Como es un fichero de tipo zip, tenemos que descargarlo, descomprimirlo y posteriormente leerlo.Comenzamos por leer los datos con Pandas y obtener agunos estadísticos resumenes de los mismos." ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
01
0hamGo until jurong point, crazy.. Available only ...
1hamOk lar... Joking wif u oni...
2spamFree entry in 2 a wkly comp to win FA Cup fina...
3hamU dun say so early hor... U c already then say...
4hamNah I don't think he goes to usf, he lives aro...
\n", "
" ], "text/plain": [ " 0 1\n", "0 ham Go until jurong point, crazy.. Available only ...\n", "1 ham Ok lar... Joking wif u oni...\n", "2 spam Free entry in 2 a wkly comp to win FA Cup fina...\n", "3 ham U dun say so early hor... U c already then say...\n", "4 ham Nah I don't think he goes to usf, he lives aro..." ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pandas as pd\n", "datos= pd.read_csv('G:/MisCodigos/web/data/SMSSpamCollection.txt', delimiter='\\t',header=None)\n", "datos.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Como podemos observar el conjunto de datos está constituido por dos columnas. La primera indica si el correo es o no espam y la segunda columna, contiene el cuerpo del correo electrónico.\n", "\n", "Veamos cómo están distribuidos los correos, enter ser o no der spam." ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Número de mensajes que son spam: 747\n", "Número de mensajes que son ham 4825\n" ] } ], "source": [ "print ('Número de mensajes que son spam:', datos[datos[0] == 'spam'][0].count())\n", "print (\"Número de mensajes que son ham\",datos[datos[0] == 'ham'][0].count())" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n" ] } ], "source": [ "#datos[datos[0]=='ham',0]\n", "print(type(datos))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Inicio construcción del modelo\n", "\n", "Comencemos importando las bibliotecas necesarias para construir el modelo que buscamos." ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "D:\\programas\\Anaconda\\lib\\site-packages\\sklearn\\cross_validation.py:41: DeprecationWarning: This module was deprecated in version 0.18 in favor of the model_selection module into which all the refactored classes and functions are moved. Also note that the interface of the new CV iterators are different from that of this module. This module will be removed in 0.20.\n", " \"This module will be removed in 0.20.\", DeprecationWarning)\n" ] } ], "source": [ "import numpy as np\n", "import pandas as pd\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "from sklearn.linear_model.logistic import LogisticRegression\n", "from sklearn.cross_validation import train_test_split, cross_val_score" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Por regla general al construir un modelo con machine, lo que debe hacerse es dividir el conjunto de datos en dos subconjuntos: Unos será el que sirva para entrenar el modelo, mientras que el otro conjunto servirá para chequear el modelo obtenido en el paso anterior. Scikip-learn tiene una herramienta muy fácil de utilizar para conseguir esto, veamos cómo con el siguiente código (observar que se pone *\"random_state=20\"* para obtener siempre el mismos resultado en la elección aleatoria que se produce)." ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(5572, 2)\n", "(4179,)\n", "(1393,)\n" ] }, { "data": { "text/plain": [ "'hi baby im sat on the bloody bus at the mo and i wont be home until about 7:30 wanna do somethin later? call me later ortxt back jess xx'" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "X_train_raw, X_test_raw, y_train, y_test = train_test_split(datos[1],datos[0],\n", " random_state=20)\n", "\n", "print(datos.shape)\n", "print(X_train_raw.shape)\n", "print(X_test_raw.shape)\n", "X_test_raw.iloc[1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Codificamos la primera feature con cero si no es spam y uno si es spam" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [], "source": [ "y_train[y_train=='ham']=0\n", "y_train[y_train=='spam']=1\n", "y_test[y_test=='ham']=0\n", "y_test[y_test=='spam']=1\n", "y_train=y_train.astype('int')\n", "y_test=y_test.astype('int')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hacemos una trasnformación de los datos de la siguiente manera:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " (0, 6996)\t0.16556792560597175\n", " (0, 1324)\t0.26429710567869324\n", " (0, 1133)\t0.1996198979225791\n", " (0, 515)\t0.3722864947919741\n", " (0, 6672)\t0.14736275914770847\n", " (0, 5055)\t0.1951816469442735\n", " (0, 3574)\t0.28733559192349983\n", " (0, 1628)\t0.17373886759530308\n", " (0, 1566)\t0.11041199528377776\n", " (0, 115)\t0.28733559192349983\n", " (0, 1770)\t0.16310476115118047\n", " (0, 2586)\t0.17968998495260385\n", " (0, 710)\t0.28733559192349983\n", " (0, 5057)\t0.2251215486221769\n", " (0, 7273)\t0.25688036969281397\n", " (0, 4323)\t0.18170499641768148\n", " (0, 516)\t0.1922031619366998\n", " (0, 4795)\t0.2508204551521012\n", " (0, 139)\t0.25688036969281397\n", " (0, 3520)\t0.34759690783680136\n", " (0, 2513)\t0.937644063417614\n" ] } ], "source": [ "vectorizer = TfidfVectorizer()\n", "X_train = vectorizer.fit_transform(X_train_raw)\n", "X_test = vectorizer.transform(X_test_raw)\n", "print(X_train[0:1])\n", "print(X_test[0:1])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Implementación del modelo\n", "\n", "Ahora ya estamos en disposición de implementar un modelo de regresión logit." ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Predicción: 0 . mensage: K:)eng rocking in ashes:)\n", "Predicción: 0 . mensage: hi baby im sat on the bloody bus at the mo and i wont be home until about 7:30 wanna do somethin later? call me later ortxt back jess xx\n", "Predicción: 0 . mensage: We left already we at orchard now.\n", "Predicción: 0 . mensage: I absolutely LOVE South Park! I only recently started watching the office.\n", "Predicción: 0 . mensage: network operator. The service is free. For T & C's visit 80488.biz\n" ] } ], "source": [ "classifier = LogisticRegression()\n", "# Entrenamos ahora el modelo\n", "classifier.fit(X_train, y_train)\n", "#Ahora obtenemos la predicción de los datos que se han dejado para contraste del modelo\n", "predictions = classifier.predict(X_test)\n", "\n", "for i, prediction in enumerate(predictions[:5]):\n", " print('Predicción: {} . mensage: {}'.format(prediction, X_test_raw.iloc[i]))\n", " \n", " " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Medidas de fiabilidad\n", "\n", "Una vez construido el modelo, siempre es necesario hacer alfunas pruebas con él a fin de ver su fiabilidad. Scikip-learn tiene muchas funciones para hacer este tipo de estudios. En el ejemplo que sigue se muestra cómo se puede construir una matriz de confusión, para ver los posibles errores que se puedan cometer." ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[[1191 4]\n", " [ 45 153]]\n" ] } ], "source": [ "from sklearn.metrics import confusion_matrix\n", "matrizConfusion=confusion_matrix(y_test,predictions)\n", "print(matrizConfusion)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A continuación hacemos una representación gráfica de los datos contenidos en la matriz de confusión." ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as pl\n", "\n", "fig, ax = plt.subplots()\n", "ax.matshow(matrizConfusion)\n", "plt.title('Matriz de confusión')\n", "for (i, j), z in np.ndenumerate(matrizConfusion):\n", " ax.text(j, i, '{:0.0f}'.format(z), ha='center', va='center')\n", "\n", "plt.ylabel('Valor observado')\n", "plt.xlabel('valor predicho')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Acuracidad\n", "\n", "Esta medida nos da el porcentaje de aciertos del modelo, y por lo tanto su valor se calculará como la suma de los elementos de la diagonal, dividido entre la suma total." ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Acuracidad: 0.964824120603015\n", "0.964824120603015\n" ] } ], "source": [ "from sklearn.metrics import accuracy_score\n", "print('Acuracidad: {}'.format(accuracy_score(y_test,predictions)))\n", "# Calculado de forma manual, sería de la siguiente forma\n", "acu=((matrizConfusion[0,0]+matrizConfusion[1,1])/matrizConfusion.sum())\n", "print(acu)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Existe otro procedimiento para medir la fiabilidad del modelo, a grandes rasgos consiste en los siguiente. Se divide la muestra en una serie de grupos (K-fold's), en el ejemplo que sigue, esto se ha indicado con el parámetro *\"cv=5\"*, con lo que se indique que se haga una división en 5 grupos. Unos de estos grupos servirá para chequear el modelo y los otros cuatro para su entrenamiento. Con esta distribución de la muestra, se obtiene un valor de la acuracidad.\n", "\n", "En cada paso se van intercambiando los grupos que tienen datos de tipo test y por consiguiente de tipo train. En este caso concreto en total tenderemos 5 pasos pues cv=5. Los resultados obtenidos se muestran en el siguiente script." ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.956447583302295\n", "[0.9569378 0.96052632 0.96052632 0.95334928 0.9508982 ]\n" ] } ], "source": [ "from sklearn.cross_validation import cross_val_score\n", "scores = cross_val_score(classifier, X_train, y_train, cv=5)\n", "print (np.mean(scores))\n", "\n", "print(scores)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Precisión y recall\n", "\n", "Si bien la acuracidad es un valor muy importante, pues está midiendo la tasa de aciertos del modelo, no es menos importante saber qué estrutura tiene los casos en los que el modelo se equivoca. Para explicar lo que sigue, vamos a definir antes los siguientes conceptos:\n", "\n", "1.- Verdaderos Positivos (VP). Número de casos en los que el modelo predice positivo, y el dato real es positivo.\n", "\n", "2.- Verdaderos Negativos (VN). Número de casos en los que el modelo predice negativo, y el dato real es negativo.\n", "\n", "3.- Falsos Positivos (FP). Número de casos en los que el modelo predice un valor positivos, pero el valor real es negativo. \n", "\n", "4.- Falsos Negativos (FN). Número de casos en los que el modelo predice un valor negativo, pero el valor real es positivo.\n", "\n", "Interesa mucho también evaluar los casos 3 y 4, pues si el modelo está prediciendo la aparición o no de cáncer, con el error 3 estaríamos pronosticando que hay cáncer cuando no lo hay, mientra que el error 4 sería más grave aún, pues estamos pronosticando que una persona no tienen cáncer, cuando realmente lo tiene, y esto puede ser sumamente grave, pues el retraso de la aplicación de la medicación pertinente puede acarrear nefastas consecuencias para el paciente.\n", "\n", "Para estudiar este tipo de casos, se definen los siguiente indicadores: Precisión y Recall,\n", "\n", "Precisión se define de la siguiente manera:\n", "\n", "\\\\[ P=\\frac{VP}{VP+FP} \\\\]\n", "\n", "Mientras que Recall, se define así\n", "\n", "\\\\[ R=\\frac{VP}{VP+FN} \\\\]\n", "\n", "De lo que se trata con estas dos fórmulas es relativizar los verdaderos positivos y compararlo con las ocasiones en las que el predictor se equivoca.\n", "\n", "Veamos cómo se pueden obtener estos valores mediante la utilización de scikit-learn." ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Precision 0.989690423420296 [0.98684211 1. 0.97530864 0.98630137 1. ]\n", "Recalls 0.6756797331109258 [0.68181818 0.7 0.71818182 0.65454545 0.62385321]\n" ] } ], "source": [ "precisions = cross_val_score(classifier, X_train, y_train, cv=5, scoring='precision')\n", "print ('Precision', np.mean(precisions), precisions)\n", "recalls = cross_val_score(classifier, X_train, y_train, cv=5, scoring='recall')\n", "print ('Recalls', np.mean(recalls), recalls)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Podemos ver que el valor de Recall es ligeramente bajo y ello es debido a que se detectan bastantes falsos negativos, por lo tanto habrá que tener cuidado en este aspecto, cuando se utilice este modelo para la predicción. En nuestro ejemplo concreto se puede detectar un número algo alto de correos que el modelo predice son Spam, cuando realmente no lo es, en concreto se estarían clasificando aproximadamente el 22 por ciento de correo spam como no spam.\n", "\n", "# F1 score\n", "\n", "Es otro indicador muy utilizado dentro del mundo de la clasificación, y en términos matemáticos, no es otra cosa más que la media armónica entre la precisión y el recall, y se calcula utilizando la siguiente fórmula:\n", "\n", "\\\\[ F1= (\\frac{P^{-1}+R^{-1}}{2})^{-1} =2 \\frac{P*R}{P+R} \\\\]\n", "\n", "\n", "La medida de F1 penaliza a los clasificadores con una precisión y Recall desequilibrado. Veamos, cómo medir esto con scikit learn\n" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "F1: 0.8024905966761053 [0.80645161 0.82352941 0.82722513 0.78688525 0.76836158]\n" ] } ], "source": [ "f1s = cross_val_score(classifier, X_train, y_train, cv=5, \n", "scoring='f1')\n", "print ('F1: ', np.mean(f1s), f1s)\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Resumen fiabilidad\n", "\n", "En scikit learn existe la función *\"classification_report\"* que nos facilita estos tipos de valores con ejecutarla sólo una vez. Veamos cómo se haría en nuestro ejemplo:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "' precision recall f1-score support\\n\\n No spam 0.96 1.00 0.98 1195\\n spam 0.97 0.77 0.86 198\\n\\navg / total 0.97 0.96 0.96 1393\\n'" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from sklearn.metrics import classification_report\n", "targets = ['No spam', 'spam']\n", "classification_report(y_test,predictions,target_names=targets)\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Curva de Roc\n", "\n", "En un [post anterior](https://bigdatafran.github.io/big_data//LogitClasificacion), se ha presentado la curva de ROC y la forma de obtenerla mediante R, aquí vamos a ver cómo se consigue este resultado con scikit-learn.\n", "\n", "A diferencia de la acuracidad, la curva de ROC no depende de si los datos de cada una de las clases están o no balanceados.\n", "\n", "Recordemos, que el área de la curva de ROC es un indicador de la fiabilidad o bondad del modelo, de tal manera que cuanto mayor sea el valor del área de la curva de ROC, mejores predicciones tendremos.\n", "\n", "La curva de ROC en scikit-learn se calcula de la siguiente manera:" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYoAAAEWCAYAAAB42tAoAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMi4yLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvhp/UCwAAIABJREFUeJzt3XmYFOW1x/HvAQVcQA24RVZlUURQnIAYBY0bqJG4scUFN6LGGBU15ubeqzEkJu5L3HG7RiVqXNCgGBfEDQUVFFAUQYfBDRAQkWE994+3x1no6elZqqur5/d5nn7o6q6pOVPM1On3PVWnzN0RERGpTpO4AxARkfymRCEiIhkpUYiISEZKFCIikpEShYiIZKREISIiGSlRiDQwM+toZm5mm8Qdi0hDUKKQxDCzEWY2zcy+M7MvzOwZM9sv7rgakpldZmZrUz/jMjN73cz6VVlnazO71cy+NLPvzex9MzslzbYKfn9JbihRSCKY2QXA9cBfgO2B9sAtwOA6bCvfP+n/0923BNoALwGPlL1hZs2A54EOQD9gK+Ai4K+pfVS2XoPtLxHcXQ898vpBOBh+BxyfYZ17gTEVlg8ASiosfwr8DngPWA38N/BolW3cANyYen4K8AGwApgH/CrD924KXA0sTq37a8CBTSrEfxfwBbAQGAM0rWZblwH/qLDcPbWtbVPLpwFfA1tU+bqhqX3UKpv9pYcetXnk+ycrEQifnFsAj9dzO8OBIwgH9O2A/zKzVu7+rZk1BYYAR6fW/Ro4knDg7w88Y2ZT3f2dNNs9I7XuXsBK4F9V3r8P+AroDGwBPA0sAG7PFGxq9HASsARYmnr5EOAZd19ZZfV/AQ8Q9pXRMPtLBNDUkyRDa2Cxu6+r53ZudPcF7r7K3T8D3gF+kXrvZ8D37j4FwN3/7e6fePAy8BywfzXbHQJcn9r2N8AVZW+Y2fbAIOA8d1/p7l8D1wHDMsQ5xMyWAasISei4Cj97G8LIpJLU+4tT7zfU/hIBlCgkGZYAbRqgtrCgyvKDhFEGwIjUMgBmNsjMppjZN6mD9uGEg3A6P66y7c8qPO8AbAp8kSpOLyOMJLbLEOfD7r41obYwE9i7wnuLgR2rfkFq37RJvd9Q+0sEUKKQZHgDKKX80386K4HNKyzvkGadqq2SHwEOMLO2hCmnBwHMrDlhKudqYPvUQXsCYUonnS+AdhWW21d4voBQE2nj7lunHq3cffcMP0sI1n0x8CvgMjMrSw7PA4PMbIsqqx+b+j5TyG5/iWRNiULynrsvB/4XuNnMfmFmm5vZpqlP/VemVpsOHG5mPzKzHYDzstjuImAScA8w390/SL3VDGgOLALWmdkg4NAMm3oYONfM2prZNsAlFb7HF4Rpq2vMrJWZNTGzXcxsQJY/+4fARODi1Ev3AyXAI6nrNTY1s8OAG4HL3H15lvtLJGtKFJII7n4tcAHhbKVFhE/q5wBPpFa5H5hBOLvpOeCfWW76QeBgKkw7ufsK4FxCAlhKmJYan2EbdxIO5jMIdY/Hqrx/EiH5zE5t71HSTB9lcBUwysy2c/fVqXgXAG8C3wLXAn9w96sq/Aw17S+RrJm7blwkIiLV04hCREQyiixRmNndZva1mc2s5n0zsxvNbK6ZvWdmvaOKRURE6i7KEcW9wMAM7w8CuqQeo4BbI4xFRETqKLJE4e6TgW8yrDIY+L/UBU1TgK0rnAIoIiJ5Is4Lcnai8kVKJanXNrrq1MxGEUYdbLHFFnvvuuuuOQlQRCTfucPq1VBaGh5lz1evhrVroT2fsTXLeI91i91927p8jzgTRbqLl9KeguXudwB3ABQVFfm0adOijEtEJK+sXw8LFsBHH8HHH4d/yx6ffgobNpSvu+220Kun07UrdO1mHDbvVn68ydfscOtln1X7DWoQZ6IoofLVrG2Bz2OKRUQkVu6waFHlJFD2mDs3jBDKbLkldO0KP/kJ/PKX4XnXrtClC2zz/UI46yw4eGh4k7PCF916WZ1jizNRjAfOMbNxQF9geeoqVhGRgvXtt5VHBRWfL19evt6mm8Iuu4QEMGhQeTLo2hV22AGs6pyMO4wdCxdeGOacjjiiwWKOLFGY2UOEewK0MbMS4FJCczTc/TZC75zDgbnA94T+/yIiibd6Ncybl3508OWX5euZQfv24eB/wglhRFCWDDp0gE2yPUJ/8gmccQa89BIceCDceWfIMg0kskTh7sNreN8JN3gREUmcinWDio+PP05fN0g3MthlF9hsswYI5v334e234Y474PTT0ww36kdtiEVEquEOX3+dvohcXd2gT58wOqhYN9h66wiCmzkT3nkHTjoJfvGLMIRp3TqCb6REISKyUd2g4uPbb8vXq3XdIApr1sBf/hIe228PQ4ZAixaRJQlQohCRRmL16jCVn66IXF3d4MQTKyeD9u1rUTeIwptvwmmnwaxZYdhy3XUhSURMiUJECkZ1dYOPPoLPPqtcN9huu3DwP/zw8imiBq0bNLSFC2H//cMo4umnG/SsppooUYhIolSsG1QtIldXN+jbt/LoILK6QRQ++igEvdNO8M9/wkEHQatWOQ1BiUJE8lJt6gadO1ceHZQlg5zVDaKwbBlcfHG4NmLSJOjfH44+OpZQlChEJDZV6wYVH199Vb5eXtcNojB+fLi6+ssv4aKLwiXYMSq03SsieWb9eiguTn+KaXV1gyOO2Ph6gxzUbPPD6afDXXfBHnvAk09CUVHcESlRiEj9VVc3KLveYM2a8nVbtgwH/332SXDdoKGV3ZLaLCSGDh3gd7+DZs3ijStFiUJEsrZ8efV9iqqrG1QdHWy/fYLrBlFYsADOPBOGDQuZ88wz445oI0oUIlJJbeoGHTqEg/9JJ1U+xbRDB2jaNL6fIRE2bIDbbw8jh/XrYytUZ0OJQqQRqlg3SHe9gVe4M8z224cE0KjrBg3t449DLWLyZDj44NCjqVOnuKOqlhKFSIFyDyOA6voUpasb9OsHJ59cuW6w1Vbx/QwFa/ZseO89uPtuGDky7+filChEEq5q3aDiY8WK8vWaNVPdIFYzZsD06SETDx4cmvhts03cUWVFiUIkAUpLq+9TVF3doOLIoOx6A9UNYrB6NYwZA3/9K+y4IwwdGubsEpIkQIlCJG/Utm7QtSsceeTGfYpUN8gjb7wRmvh98EGo+F97bSL/g5QoRHKoYt2g6uOTT1Q3KCgLF8KAAaGPyIQJoS95QilRiERg+fL0ReTq6gbdusHPf155qmi77VQ3SKQPPoDddgtN/B5+ODTxa9ky7qjqRYlCpI6q1g0qPr7+unw9M+jYsXx0oLpBgVq6FEaPhnvuCae97r9/uPNcAVCiEMlg/fpQH0hXRK6ublB1ZLDzzomclpbaePxxOPtsWLQIfv/72Jv4NTQlCmn0als36NYN9t03nP5eVjNQ3aARO/XUMIrYc0/497+hd++4I2pwShTSaJTVDdLd8EZ1A6mVik389tknfFK48MLQ5KoAKVFIQalL3eCnP62cDNq1U91AMvjsM/jVr2DEiHDK66hRcUcUOSUKSZyqdYOKj+LiynWDHXYIH/ZUN5B627ABbr0VLrkk/JIdf3zcEeWMEoXkJfdwc690p5hWrRu0alU+MjjllMrXG+T41sJSqObMCU38Xn0VDj00dH3t2DHuqHJGiUJitWxZ9X2KvvuufL3mzUPdYNdd4aijyq9EVt1AcmLOHJg1C+69N0w3NbJfOCUKidyqVRvXDcqSg+oGkrfefTc08TvllPDpZN68RnsLPiUKaRC1rRt07Rr+9qrWDZo3j+9nEAHCGRGXXw5XXhmurh4+PBS0GmmSACUKqYWKdYN01xusXVu+ruoGkkivvRaa+M2ZE35xr7lGZz2gRCFpLFtWfZ+idHWD3XYL7fUrjg623bbRTeNK0i1cCAceGEYREyeGorUAShSNVrq6Qdlj0aLy9Zo0Ka8b7Ldf5SKy6gZSEGbPhu7dQ4L4179Csthyy7ijyitKFAVs3bqN6wZlo4Tq6gZVRwaqG0jB+uYbuOACuO8+ePll6N8/XHAjG1GiSLja1g26dQsjg4rJoHNn1Q2kkfnXv+DXv4YlS+APf4A+feKOKK8pUSREWd0gXZ8i1Q1EamHkyDCK6N0bnn02NPOTjJQo8siqVTB3bvoicnV1g/33r5wM2rZV3UBkIxWb+O27b/gkNXo0bKJDYDYi3UtmNhC4AWgKjHX3v1Z5vz1wH7B1ap1L3H1ClDHFLV3doOyxYEHlusGOO6puIFJv8+eHxn0nnBDuKdsImvg1tMgShZk1BW4GDgFKgKlmNt7dZ1dY7b+Bh939VjPrDkwAOkYVU664wxdfpL/ZTdW6wVZbpR8ZdOmS+LsnisRr/Xq4+eZwI6EmTeCXv4w7osSKckTRB5jr7vMAzGwcMBiomCgcKCujbgV8HmE8DW7p0ur7FK1cWb5e8+bhwN+9e7gzYlkiUN1AJCIffBAunHvjDRg0CG67Ldx3VuokykSxE7CgwnIJ0LfKOpcBz5nZb4AtgIPTbcjMRgGjANrn+D+7rG6Qroicbd2gXbvwvojkyNy54erq++8PIwl9GquXKBNFuv8Zr7I8HLjX3a8xs37A/WbWw903VPoi9zuAOwCKioqqbqPeMtUNiosrr1tWNygbGZQ9OnVS3UAkVm+/DTNmhFuT/vznoTah874bRJSJogRoV2G5LRtPLZ0GDARw9zfMrAXQBviaBla1blDxMW/exnWDbt3C9TcVr0RW3UAkD61aBX/8I1x9dRi+jxgR+jMpSTSYKBPFVKCLmXUCFgLDgBFV1ikGDgLuNbPdgBbAIuph6dL0ReTq6ga77w5HH115dNCmjUaqIokweXK4odDHH4eaxNVXq4lfBCJLFO6+zszOASYSTn29291nmdnlwDR3Hw+MBu40s/MJ01Ij3b3GqaXq6gYffQSLF5ev16RJmBLq2jWMDioWkVU3EEm4hQvhoIPCH/Pzz4fnEgnL4ricVzp2LPLi4mlprzeo+th5Z2jWLL5YRSQC778Pe+wRnj/9dGjit8UW8caUAGb2trsX1eVrE3dZ4qpV4eB/333lfYpUNxBpBBYvhvPPh3/8o7yJ35FHxh1Vo5C4RAGw2WYwdGjcUYhITrjDI4/AOeeEIuSll0LfqmfaS5QSlyjcVVsQaVROPjlcD1FUBC+8UD7tJDmTuEQBShQiBa9iE78BA6BnTzjvPDXxi0kiD7k6dVWkgM2bBwcfDPfeG5ZPOw0uvFBJIkaJSxSaehIpUOvXw/XXh6mlqVP1h55HEpmi9fsjUmBmzw6tN958E444IjTxa9s27qgkJZGJQlNPIgVm/vzQg//BB2HYMP2R55nEJQpNPYkUiKlTYfp0OOOMMIqYN08XReWpRB5ylShEEuz770Nxep994IoroLQ0vK4kkbcSechVohBJqEmTwqmu11wTRhLvvqsmfgmQyKknTV+KJFBJCRxyCHToAC++GHo0SSIk8rO5RhQiCTJjRvi3bVt48kl47z0liYRJ5CFXiUIkARYtCjcR2nPP0MQP4PDDYfPN441Lak1TTyLSsNxh3Dg491xYvjzcfa5fv7ijknpIXKIAjShE8tqJJ8IDD4QOr3fdFW4jKYmmRCEi9bdhQxjqm4X6w957hxFF06ZxRyYNIHGHXE09ieSZuXPDbUjvuScsn3ZauMGQkkTBSFyiAI0oRPLCunVw9dWhid+77+q+wwUscVNPauEhkgdmzoRTToFp02DwYLjlFvjxj+OOSiKSuEQBShQisSsuhs8+C2c3DRmi+eACl8hEod9JkRi8+Wa4eG7UqHA9xLx5sOWWcUclOZC4z+aaehLJsZUr4YILwrUQV14Jq1eH15UkGo1EHnKVKERy5MUXQxO/666DM8+Ed96B5s3jjkpyTFNPIpJeSQkcdhh06hRacPTvH3dEEpPEfTbX1JNIxN59N/zbti089VSoSyhJNGqJPOQqUYhE4KuvYOhQ6N27vInfwIGw2WbxxiWxS+QhV4lCpAG5wz/+Ad27wxNPwJgxsO++cUcleSRxNQq18BBpYCNGhOsh+vULTfx22y3uiCTPJC5RgEYUIvVWsYnfoYeGJPHrX6s/k6SVyEOuEoVIPXz0UejwevfdYfmUU9TpVTJK3CFXU08idbRuXbhgrlevcDtSFaklS5p6EmkM3nsPTj0V3n4bjj4abr4Zdtwx7qgkIZQoRBqDkhJYsAAeeQSOPVbDcqmVSA+5ZjbQzOaY2Vwzu6SadYaY2Wwzm2VmD9a0TV1wJ5Kl11+H224Lz8ua+B13nJKE1Fpkh1wzawrcDAwCugPDzax7lXW6AL8HfuruuwPnZbftBg5WpJB89x389rew335wzTXlTfy22CLeuCSxovxs3geY6+7z3H0NMA4YXGWdM4Cb3X0pgLt/nc2GNaIQqcZzz0GPHnDTTeF0VzXxkwYQ5SF3J2BBheWS1GsVdQW6mtlrZjbFzAam25CZjTKzaWY2be3adUoUIuksWABHHAEtWsDkySFZtGwZd1RSAKI85KabIPIqy5sAXYADgOHAWDPbeqMvcr/D3YvcvWiTTTbR1JNIRW+/Hf5t1w4mTIDp08O0k0gDiTJRlADtKiy3BT5Ps86T7r7W3ecDcwiJIyONKESAL7+E44+HoqLyJn6HHBJGFCINKMpD7lSgi5l1MrNmwDBgfJV1ngAOBDCzNoSpqHmZNqqznqTRc4f77gtN/J56Cv7yFzXxk0hFdh2Fu68zs3OAiUBT4G53n2VmlwPT3H186r1DzWw2sB64yN2X1LRtTT1JozZsGDz8MPz0pzB2LOy6a9wRSYEz96plg/zWokWRDx48jX/+M+5IRHKoYhO/++6DFSvg7LM1vJasmdnb7l5Ul69N5G+Z/jakUfnww3CHubvuCssnnwznnKM/BMmZRP6m6e9DGoW1a0P9oVcvmD0bttwy7oikkUpcryd1j5VGYfr00P57+vTQduOmm2CHHeKOShqpxCUK0IhCGoEvvwyPf/0Ljjkm7mikkcuYKMzsgkzvu/u1DRtOdpQopCC9+mpoB3722TBwIHzyCWy+edxRidRYo2hZwyPnNPUkBWfFilCc3n9/uP768iZ+ShKSJzKOKNz9j7kKpDY0opCCMXEijBoV+jT99rcwZoya+EneqWnq6cZM77v7uQ0bTnaUKKQgLFgARx4JnTuHaSddXS15qqZi9ts5iaIW1MJDEs0dpk6FPn1CE79nngkN/NSfSfJYTVNP9+UqkNpQjUIS6Ysvwj0iHn8cJk2CAQPg4IPjjkqkRlmdHmtm2wK/I9yp7oePPu7+s4jiykgjCkkUd7j3XrjgAigthb/9LfRpEkmIbA+5DwAfAJ2APwKfErrD5pymniRxhgyBU0+FPfaAGTPg4othk0RewiSNVLaH3Nbufhew1t1fdvdTgX0ijCsjTT1J3lu/PjTyA/j5z+GWW8J0U9eusYYlUhfZJoq1qX+/MLMjzGwvwo2IYqERheS1Dz4I10SUNfE76SQ46yz94kpiZTv+HWNmWwGjgZuAVsD5kUWVgaaeJG+tXRvqD3/6U2jgt9VWcUck0iCyShTu/nTq6XJSd6SLk6aeJO+8+y6MHBlacAwdCjfeCNttF3dUIg0iq8/mZnafmW1dYXkbM7s7urAy04hC8s5XX8HixfDEEzBunJKEFJRsp556uvuysgV3X5qqU+Scpp4kb0yeDO+/H66NGDgQ5s6FzTaLOyqRBpftIbeJmW1TtmBmPyLGFuVKFBKrb78NHV4HDAhTTGVN/JQkpEBle7C/BnjdzB4FHBgC/DmyqGqgGoXEZsIE+NWv4PPPwwV0l1+uJn5S8LItZv+fmU0DfgYYcIy7z440smpj0YhCYrJgAQweDN26waOPQt++cUckkhO1OeT+CFjp7jcBi8ysU0Qx1UiJQnLGHaZMCc/btYPnnoN33lGSkEYl27OeLiX0evp96qVNgX9EFVTN8cT1naVR+fxz+MUvoF8/ePnl8NqBB0KzZvHGJZJj2X42Pxo4ClgJ4O6fE9Md7kAjComYO4wdC927hxHE1VeriZ80atkWs9e4u5uZA5jZFhHGVCMlConUccfBY4+Fs5rGjg03FhJpxLJNFA+b2e3A1mZ2BnAqMDa6sDJTopAGt359mNNs0iRMNx16KJxxhn7ZRMj+rKerzewQ4FugG/C/7v6fSCPLQDUKaVAzZ8Lpp8Npp4XkcOKJcUckkleyvmgulRj+A2BmTc3sl+7+QGSRZaAPedIg1qyBK66AP/85NPDbZpuav0akEcp4yDWzVmb2ezP7u5kdasE5wDzCRXexUKKQenv7bdh7b7jsMjj+eJg9O9QmRGQjNY0o7geWAm8ApwMXAc2Awe4+PeLYqqWpJ6m3JUtg2TJ46ik48si4oxHJazUlip3dfQ8AMxsLLAbau/uKyCPLQCMKqZOXXgpN/M49NxSrP/4YWrSo+etEGrmaDrlld7bD3dcD8+NOEqBEIbW0fHnoz/Szn8Gtt5Y38VOSEMlKTYfcXmb2beqxAuhZ9tzMvs1FgOlo6kmy9tRT4cK5sWPhwgtDbUJN/ERqJePUk7s3zVUgtaERhWRlwQI49ljYdddwQ6Gf/CTuiEQSKZGHXCUKqZY7vP56eF7WxG/aNCUJkXqI9JBrZgPNbI6ZzTWzSzKsd5yZuZkVZbNdJQpJq6QEjjoq9GUqa+J3wAFq4idST5Edcs2sKXAzMAjoDgw3s+5p1msJnAu8mf22GypKKQgbNsDtt4daxAsvwLXXwn77xR2VSMGI8rN5H2Cuu89z9zXAOGBwmvX+BFwJlGa7YY0opJJjj4UzzwzTSzNnwvnnQ9O8LK+JJFKUh9ydgAUVlktSr/3AzPYC2rn705k2ZGajzGxa6i57ShQC69aFkQSERHHnnfD887DzzvHGJVKAojzkppsg8h/eNGsCXAeMrmlD7n6Huxe5e1H42gaLUZLovffCzYTuvDMsn3BCaOqnXwyRSESZKEqAdhWW2wKfV1huCfQAJpnZp8A+wPhsCtoaUTRSq1fDpZeGHk2ffQbbbht3RCKNQtbdY+tgKtAldW/thcAwYETZm+6+HGhTtmxmk4AL3X1aTRtWomiEpk6FkSND874TT4TrroPWreOOSqRRiCxRuPu6VKfZiUBT4G53n2VmlwPT3H18XbetRNEILV0K330HEybAoEFxRyPSqEQ5osDdJwATqrz2v9Wse0C229VUdCPx4ouhid9vfxua+H30kdpviMQgkZ/NNaIocMuWhTvNHXRQuD6irImfkoRILBJ5yFWiKGBPPhkunLv7brj4YjXxE8kDkU49RUVTTwWquDjcbW633WD8eCjKqqOLiEQskZ/NNaIoIO7wyivhefv24aK5qVOVJETySCIPuUoUBaK4GI44Avr3L2/i17+/mviJ5JlEHnI19ZRwGzbALbfA7rvD5Mlw441q4ieSxxJZo9CIIuGOOSYUrQ85BO64Azp2jDsiEclAiUJyY9268B/XpAkMHQqDB4crrTU8FMl7iTzkKlEkzIwZ0LdvGD0ADB8Op5yiJCGSEIk85Or4khClpfDf/x3OYCopgR12iDsiEakDTT1JNN56C04+GT78MPx77bXwox/FHZWI1IEShUTj229h1Sp49lk47LC4oxGRekhkotDUU5567jmYNSvcivTgg2HOHLXfECkAifxsrhFFnlm6NBSnDzsM7rpLTfxECkwiD7lKFHnkscdCE7/774ff/x6mTVOCECkwiZx6UqLIE8XFMGwY9OgRbii0115xRyQiEUjkIVc1ihi5l/dlat8+3FzozTeVJEQKWCIThUYUMfnss3Ab0gMOKE8W++0Hm24aa1giEq1EHnKVKHJswwb4+99DE79XX4WbboL99487KhHJkUTWKDT1lGO/+AU89VQ4q+n226FDh7gjEpEcSmSi0IgiB9auhaZNw84ePhyOOw5OPFFZWqQRSuQhV4kiYu+8A336wG23heXhw+Gkk5QkRBqpRB5ylSgismpVuBaiTx/48kto1y7uiEQkDyRy6kkfbCMwZUpo3vfRR3DqqXD11bDNNnFHJSJ5IJGJQiOKCKxcGeoS//lP6NMkIpKiRNGYPftsaOI3ejQcdFBoCd6sWdxRiUieSeQhV1NP9bRkSZhmGjQI7rsP1qwJrytJiEgaiUwUGlHUkTs8+mho4vfgg+Huc1OnKkGISEaaempMiothxAjo2TPcO6JXr7gjEpEESOQhV1NPteAeGvdBuKJ60qRwhpOShIhkKZGJQiOKLM2fD4ceGgrVZU389t0XNknkQFJEYpLIQ64SRQ3Wr4cbbgj3iXjzTbj1VjXxE5E6S+RHSyWKGgweDP/+Nxx+eGjDoSusRaQeEpkoVKNIo2ITvxNPDP2ZRozQzhKReov0s7mZDTSzOWY218wuSfP+BWY228zeM7MXzCyr/tUaUVQxbRoUFYUpJoChQ+GXv1SSEJEGEdkh18yaAjcDg4DuwHAz615ltXeBInfvCTwKXJnNtpUoUlatgt/9Dvr2hUWLdJ8IEYlElIfcPsBcd5/n7muAccDgiiu4+0vu/n1qcQrQNpsN64My8MYb4RTXK68MTfxmz4Yjj4w7KhEpQFHWKHYCFlRYLgH6Zlj/NOCZdG+Y2ShgVFjaWyMKCKOJDRvg+efD6a8iIhGJMlGk+9zvaVc0OwEoAgake9/d7wDuCOsWeaNNFBMmhCZ+F10EP/sZfPABbLpp3FGJSIGL8pBbAlQ8L7Mt8HnVlczsYOAPwFHuvjqbDTe6RLF4MZxwAhxxBDzwQHkTPyUJEcmBKA+5U4EuZtbJzJoBw4DxFVcws72A2wlJ4utsN9xoahTuMG4c7LYbPPwwXHopvPWWmviJSE5FNvXk7uvM7BxgItAUuNvdZ5nZ5cA0dx8PXAVsCTxi4ehf7O5H1bTtRjOiKC4O7cB79YK77oI99og7IhFphMw9bdkgb5kV+aJF02jTJu5IIuIOL7xQfpe5KVPgJz8JF9OJiNSRmb3t7kV1+dpEfjYv2KmnTz4JZzAdckh5E7999lGSEJFYJTJRFNzU0/r1cO21YWrp7bfh9tvVxE9E8kYiez0VXKL4+c/hmWfCBXO33gpts7ruUEQkJxKZKAqIo5+gAAANnElEQVRi6mnNmnBfiCZNYOTI0Mhv2LAC+eFEpJAk8rN54kcUb70Fe+8Nt9wSlocMCd1elSREJA8l8pCb2ETx/fcwejT06wdLl8Iuu8QdkYhIjRI59ZTIRPHqq+GaiHnz4Fe/gr/9DbbaKu6oRERqlMhEkcgZmrIbC730EhxwQNzRiIhkLZGJIjEjiqeeCo37Lr4YDjwwtALfJJG7XEQasaQccivJ+0SxaFG4DelRR8FDD5U38VOSEJEEyvdDblp5O/XkDg8+GJr4PfooXH45vPmmmviJSKIl8iNu3iaK4mI45RTYa6/QxG/33eOOSESk3jSiqK8NG2DixPC8Qwd45RV47TUlCREpGIlMFHnj44/DneYGDoTJk8NrffqoiZ+IFBQlirpYtw6uugp69oTp08M0k5r4iUiBSlyNIi+mnY48Mkw3DR4c2nD8+MdxRySSl9auXUtJSQmlpaVxh9JotGjRgrZt27JpA94qOXE3LmrSpMg3bJiW+2+8enW4R3WTJuGMpg0b4Pjj8yRzieSn+fPn07JlS1q3bo3pbyVy7s6SJUtYsWIFnTp1qvReo7txUc5NmQK9e8PNN4fl444Ljfz0iy+SUWlpqZJEDpkZrVu3bvARXOISRU5/31auhPPPh333hRUroEuXHH5zkcKgJJFbUezvxNUocuaVV0ITv/nz4eyz4YoroFWruKMSEcm5xI0ocmbdulCTePnlMOWkJCGSWI8//jhmxocffvjDa5MmTeLII4+stN7IkSN59NFHgVCIv+SSS+jSpQs9evSgT58+PPPMM/WO5YorrqBz585069aNiWXXYFXxwgsv0Lt3b/bcc0/2228/5s6dC0BxcTEHHngge+21Fz179mTChAn1jicbiUsUkY5in3gijBwgNPGbNQv694/wG4pILjz00EPst99+jBs3Luuv+Z//+R+++OILZs6cycyZM3nqqadYsWJFveKYPXs248aNY9asWTz77LOcffbZrF+/fqP1zjrrLB544AGmT5/OiBEjGDNmDABjxoxhyJAhvPvuu4wbN46zzz67XvFkS1NPAF99Bb/5DTzySChajx4d+jOpiZ9IgznvvHDZUUPac0+4/vrM63z33Xe89tprvPTSSxx11FFcdtllNW73+++/584772T+/Pk0b94cgO23354hQ4bUK94nn3ySYcOG0bx5czp16kTnzp1566236NevX6X1zIxvv/0WgOXLl/Pj1Cn41b0etcQdCRt0ROEO//hH+A3+7jv485/hoovClJOIFIQnnniCgQMH0rVrV370ox/xzjvv0Lt374xfM3fuXNq3b0+rLKaczz//fF566aWNXh82bBiXXHJJpdcWLlzIPvvs88Ny27ZtWbhw4UZfO3bsWA4//HA222wzWrVqxZQpUwC47LLLOPTQQ7nppptYuXIlzz//fI3xNYTEJYoGVVwMp58ORUXh6updd407IpGCVdMn/6g89NBDnHfeeUA4eD/00EP07t272rODanvW0HXXXZf1uumuW0v3/a677jomTJhA3759ueqqq7jgggsYO3YsDz30ECNHjmT06NG88cYbnHjiicycOZMmEd97ofElirImfoMGhSZ+r70Wur2qP5NIwVmyZAkvvvgiM2fOxMxYv349ZsaVV15J69atWbp0aaX1v/nmG9q0aUPnzp0pLi5mxYoVtGzZMuP3qM2Iom3btixYsOCH5ZKSko2mjxYtWsSMGTPo27cvAEOHDmXgwIEA3HXXXTz77LMA9OvXj9LSUhYvXsx2222X5R6pI3dP1GPTTff2Opszx33//d3BfdKkum9HRLIye/bsWL//bbfd5qNGjar0Wv/+/X3y5MleWlrqHTt2/CHGTz/91Nu3b+/Lli1zd/eLLrrIR44c6atXr3Z3988//9zvv//+esUzc+ZM79mzp5eWlvq8efO8U6dOvm7dukrrrF271lu3bu1z5sxxd/exY8f6Mccc4+7uAwcO9Hvuucfdw77dcccdfcOGDRt9n3T7HZjmdTzuxn7gr+2jToli7Vr3v/7VvXlz9623dr/nHvc0O1dEGlbciWLAgAH+zDPPVHrthhtu8DPPPNPd3V999VXv27ev9+rVy4uKivy55577Yb3Vq1f7RRdd5Lvssovvvvvu3qdPH3/22WfrHdOYMWN855139q5du/qECRN+eH3QoEG+cOFCd3d/7LHHvEePHt6zZ08fMGCAf/LJJ+7uPmvWLN933329Z8+e3qtXL584cWLa79HQiSJxvZ6aNSvyNWtq2evpsMPguefgmGPCNRE77BBNcCJSyQcffMBuu+0WdxiNTrr9Xp9eT4mrUWRdZyotDWcvNW0Ko0aFx7HHRhqbiEghStwFd1l57bVwgnVZE79jj1WSEBGpo8JKFN99B+eeG24iVFoKGvKKxC5p09tJF8X+TlyiqHbq6eWXoUcP+Pvf4ZxzYOZMOOSQnMYmIpW1aNGCJUuWKFnkiKfuR9GiRYsG3W7iahQZbb556Pr605/GHYmIEK4bKCkpYdGiRXGH0miU3eGuISXurKcWLYq8tDR11tNjj8GHH8J//VdYXr9eF86JiKSRt3e4M7OBZjbHzOaa2SVp3m9uZv9Mvf+mmXWseZvAl1+Gu8wdeyw8/jisWRPeVJIQEWlwkSUKM2sK3AwMAroDw82se5XVTgOWuntn4DrgbzVtd+v1S0KR+umnQ0vw118PnV5FRCQSUY4o+gBz3X2eu68BxgGDq6wzGLgv9fxR4CCroSPXj9d+ForWM2bAJZeo06uISMSiLGbvBCyosFwC9K1uHXdfZ2bLgdbA4oormdkoYFRqcbW9+upMdXoFoA1V9lUjpn1RTvuinPZFuW51/cIoE0W6kUHVynk26+DudwB3AJjZtLoWZAqN9kU57Yty2hfltC/KmVktex+Vi3LqqQRoV2G5LfB5deuY2SbAVsA3EcYkIiK1FGWimAp0MbNOZtYMGAaMr7LOeODk1PPjgBc9aefriogUuMimnlI1h3OAiUBT4G53n2VmlxPa3Y4H7gLuN7O5hJHEsCw2fUdUMSeQ9kU57Yty2hfltC/K1XlfJO6COxERya3E9XoSEZHcUqIQEZGM8jZRRNH+I6my2BcXmNlsM3vPzF4wsw5xxJkLNe2LCusdZ2ZuZgV7amQ2+8LMhqR+N2aZ2YO5jjFXsvgbaW9mL5nZu6m/k8PjiDNqZna3mX1tZjOred/M7MbUfnrPzHpnteG63kM1ygeh+P0JsDPQDJgBdK+yztnAbannw4B/xh13jPviQGDz1POzGvO+SK3XEpgMTAGK4o47xt+LLsC7wDap5e3ijjvGfXEHcFbqeXfg07jjjmhf9Ad6AzOref9w4BnCNWz7AG9ms918HVFE0v4joWrcF+7+krt/n1qcQrhmpRBl83sB8CfgSqA0l8HlWDb74gzgZndfCuDuX+c4xlzJZl840Cr1fCs2vqarILj7ZDJfizYY+D8PpgBbm9mONW03XxNFuvYfO1W3jruvA8rafxSabPZFRacRPjEUohr3hZntBbRz96dzGVgMsvm96Ap0NbPXzGyKmQ3MWXS5lc2+uAw4wcxKgAnAb3ITWt6p7fEEyN8bFzVY+48CkPXPaWYnAEXAgEgjik/GfWFmTQhdiEfmKqAYZfN7sQlh+ukAwijzFTPr4e7LIo4t17LZF8OBe939GjPrR7h+q4e7b4g+vLxSp+Nmvo4o1P6jXDb7AjM7GPgDcJS7r85RbLlW075oCfQAJpnZp4Q52PEFWtDO9m/kSXdf6+7zgTmExFFostkXpwEPA7j7G0ALQsPAxiar40lV+Zoo1P6jXI37IjXdcjshSRTqPDTUsC/cfbm7t3H3ju7ekVCvOcrd69wMLY9l8zfyBOFEB8ysDWEqal5Oo8yNbPZFMXAQgJntRkgUjfH+rOOBk1JnP+0DLHf3L2r6orycevLo2n8kTpb74ipgS+CRVD2/2N2Pii3oiGS5LxqFLPfFROBQM5sNrAcucvcl8UUdjSz3xWjgTjM7nzDVMrIQP1ia2UOEqcY2qXrMpcCmAO5+G6E+czgwF/geOCWr7RbgvhIRkQaUr1NPIiKSJ5QoREQkIyUKERHJSIlCREQyUqIQEZGMlChEADNbb2bTKzw6Zli3Y1l3TjM7wMwapF1Ialv7NsS2RBpSXl5HIRKDVe6+Z8wxHAB8B7wecxwilWhEIVKN1MjhFTN7J/Wo1ad9Mzsodf+D91P3CWieev3T1JXSmFmRmU1KjWDOBM5PjWj2b+ifR6SulChEgs0qTDs9nnrta+AQd+8NDAVuzHZjZtYCuBcY6u57EEbvZ1W3vrt/CtwGXOfue7r7K3X7MUQanqaeRIJ0U0+bAn83sz0JLTC61mJ73YD57v5Ravk+4NfA9fWOVCTHlChEqnc+8BXQizD6zngjJDObCGwPTAP+nmHVdZSP5lvUP0yRaClRiFRvK6DE3TeY2cmEhnPVcvfDyp6npp46mllnd58LnAi8nHr7U2Bvwg2mjq2wiRWU34VNJG+oRiFSvVuAk81sCmHaaWW2X+jupYTOnI+Y2fvABkINAuCPwA1m9gphSqvMU8DRKmZLvlH3WBERyUgjChERyUiJQkREMlKiEBGRjJQoREQkIyUKERHJSIlCREQyUqIQEZGM/h/7yqBfLIWjzwAAAABJRU5ErkJggg==\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import roc_curve, auc\n", "\n", "false_positive_rate, recall, thresholds = roc_curve(y_test,predictions)\n", "roc_auc = auc(false_positive_rate, recall)\n", "plt.title('Curva de ROC')\n", "plt.plot(false_positive_rate, recall, 'b', label='AUC = %0.2f' % roc_auc)\n", "plt.legend(loc='lower right')\n", "plt.plot([0, 1], [0, 1], 'r--')\n", "plt.xlim([0.0, 1.0])\n", "plt.ylim([0.0, 1.0])\n", "plt.ylabel('Recall')\n", "plt.xlabel('Fall-out')\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.5" }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": true, "skip_h1_title": false, "title_cell": "Tabla de contenidos", "title_sidebar": "Contenidos", "toc_cell": true, "toc_position": {}, "toc_section_display": true, "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 2 }