Documentar un modelo – Será aburrido pero muy útil

Recordando la sabiduría del puedo, se dice que el que: “Quien no conoce su historia está condenado a repetir sus errores”… y esto qué tiene que ver con documentar un modelo, pues mucho, ya que el documentarlos nos ayudará a que futuros desarrollos sean mejores en muchos aspectos que envuelven el crear un modelo.

En anteriores publicaciones hemos platicado que un Data Scientist debe cubrir varios puntos: la parte matemática, conocimiento del negocio y la tecnología… y al no documentar un modelo considerando lo anterior se cae en errores típicos de novatos.

Tomemos como ejemplo un modelo realizado con alguna técnica de machine learning y que devuelve un score como la probabilidad de un suceso o segmenta nuestra población para aplicar estrategias a cada segmento, pensemos también que la información con la que se hizo era parte interna y parte de un proveedor externo….si seguimos imaginando el querer describir nuestro modelo se volvería confuso y sin orden y seguramente perderíamos información valiosa.

Que puntos básicos debería llevar nuestra documentación:

  1. Resumen ejecutivo. Un recorrido rápido del modelo considerando todos puntos a continuación.

  2. Visión general

    • Descripción del producto/ portafolio/ población en donde se quiere aplicar el modelo.
    • Justificación basado en el punto anterior explicar como el modelo ayudará a alcanzar objetivos, utilizando indicadores generales/comerciales/etc y tendencias actuales. Importancia del modelo en la toma de decisiones de la empresa. colocar si será utilizado para cumplir una regulación.
    • Objetivo del modelo, cuál será el alcance del modelo
    • Descripción del modeloen que será utilizado desde un punto de la empresa y versiones del modelo. 
  3. Aspecto Técnico  – Origen de los Datos

    • Descripción del origen de datos – Internos o externos, para casos que no se cuenta con información suficiente se puede explicar procesos como Reject inference.
    • Descripción de los datos: Fecha de observación, periodo de observación, venta de desempeño, volumen de datos, etc.
    • Soporte del volumen de información comparando con Reportes oficiales.
    • Muestreo: Uso total de datos, una muestra, metodología de muestreo
    • Distribución de los datos: desarrollo, testing y validación.
    • Accesibilidad de los datos. Verificación de los datos usados, así como las accesibilidad a los datos, volumen de registros, campos, tipo de campo, tablas, bases de datos, permisos, etc .
    • Exclusiones. Datos que serán excluidos por aspectos de negocio o por acceso a datos, mostrar gráfica histórica para revisar estabilidad en la selección de las categorías de exclusión.
    • Observaciones en datos. Debilidades, limitaciones y alcances relacionado con el manejo de los datos.
  4. Aspecto Técnico – Fundamentos del modelo

    • Objetivo del modelo desde un punto técnico: salida del modelo Score, segmentación con su nivel esperado mencionado en indicadores de desempeño (KS, POD, FPR, accuracy, etc).
    • Metodología aplicable para el tipo de modelo. Descripción conceptual
    • Definición de GBI – Bueno, malo e indeterminado soportándolo la definición con una análisis para determinar el GBI, así como sus distribución histórica y de la muestra para evitar errores.
    • Definición de la ventana de desempeño, usualmente se utilizan análisis de vintage.
  5. Aspecto Técnico – Selección de variables

    • Descripción del proceso de selección de variables.
    • Descripción de las variables. Verificación de las variables usadas y de su integridad basado en estadística descriptiva de los datos, mising, avg, max, min, distribución histórica, etc.
    • Variable excluidas por experiencia de negocio. justificación
    • Analizando variables  – Multicolinealidad, Information value, WOE, R cuadrad, etc.
    • Input del modelo – Variable seleccionadas
  6. Aspecto Técnico – Desarrollo del modelo

    • Descripción del proceso de desarrollo del modelo
    • Descripción de las alternativas utilizadas en el modelaje
    • Cuadro comparativo de las alternativas exploradas
    • Detalle de la técnica utilizada en el modelo – Regresión logística, árbol de decisión, Random Forest, SVM, neural network, etc., cualquier técnica de machine learning o técnica utilizada.
    • Descripción de los parámetros utilizados en el modelo.
    • Output del modelo: Score, segmentación, etc.
    • Observaciones del desarrollo. Debilidades, limitaciones y alcance del modelo.
  7. Desempeño del modelo – Testing del modelo

    • Definición de las variables de desempeño aplicables para el modelo KS, Accuracy, ROC, Falso positivo, estabilidad de la población, etc.
    • Definición de alarmas de desempeño, niveles en los que se manda un mensaje de alarma del modelo.
    • Reporte de desempeño del modelo, métricas, tiempo de revisión, etc.
    • Desempeño con datos de desarrollo, testin y validación
    • Comparativa de indicadores entre las diferentes bases
    • Observaciones del desempeño. Debilidades, limitaciones y alcance del desempeño del modelo.
  8. Implementación del modelo

    • Plan de implementación e indicadores de éxito de implementación
    • Recursos necesarios para la implementación
    • Revisión de la implementación
    • Comunicación de la implementación.
  9. Post implementación

    • Establecimiento de validaciones del modelo por parte de un comité revisando:  funcionalidad, desempeño y  aspectos técnicos.
  10. Código y soporte

    • Descripción del lenguaje y herramientas utilizadas para el desarrollo, así como las versiones.
    • Código de exploración de datos
    • Código para manipulación de datos: Data cleasing, data quality, estadística descriptiva de las variables.
    • Código para el manejo de las exclusiones
    • Código del modelo
    • Código para generar el reporte de desempeño

 

Si llegaste hasta este comentario y no te has aburrido es que has considerado esta información útil para documentar tu modelo y seguramente ya tendrás algunas dudas o comentarios… lo cual te pido agregues y con gusto las podemos analizar para generar una mejor documentación.

One thought on “Documentar un modelo – Será aburrido pero muy útil”

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s