Acabar con la mina de oro de los corruptos!!!

¿Machine learning podrá ser la solución para detectar actos ilícitos a funcionarios públicos?

De un noticiero mañanero escuetamente logre escuchar que entre las propuestas del presidente electo Andrés Manuel López Obrador (AMLO) se tiene pensado agregar revisiones aleatorias, sin duda lo que me llamo la atención fue el concepto de aleatorio, realmente en que podía ser aplicado y qué impacto o beneficio puede lograrse con ello.

Otra palabra que escuche fue Aduana, sin embargo no entendí más que eso, buscando en la red lo único que encontré fue una publicación del periódico proceso con el siguiente párrafo:

“… Esta ley podría incluir, entre muchas otras disposiciones, revisiones aleatorias sobre ingresos, propiedades y depósitos en México y en el extranjero de los juzgadores y demás servidores públicos …”  Ministros el candado del privilegio

Ya que de lo poco que escuche se mencionó la palabra aduana, tenemos que en las aduanas, el SAT manejaba hasta hace poco algo que se llama un semáforo aleatorio, es parte del sistema de control establecido por el gobierno federal  para realizar la verificación de importaciones y exportaciones realizadas en el país, y que tiene como objetivo el verificar que las mercancías cumplan con el pago de impuestos , requisitos y regulaciones establecidas. Aunque el nombre dice que es aleatorio realmente no lo era ya que utilizaba varios factores (tipo de Mercancía, nomenclatura arancelaria, importador o exportador, agencia aduanera, etc.), que determinaban si era necesaria la revisión de dicha mercancía.

Ahora que estamos metidos en modelos predictivos usando técnicas de Machine Learning, empecemos a desmenuzar si una revisión aleatoria es lo mejor para detectar mercancías ilícitas:

Cosas a favor de una revisión aleatoria:

  • Necesidad. El proceso aleatorio se hizo porque los recursos existentes no son suficientes para una revisión total de las mercancías que pasan por una aduana.
  • Mensaje. El mensaje es claro todos tienen las misma probabilidad de caer en revisión y esto parece ser justo para los usuarios.
  • Implementación. Utilizar un algoritmo aleatorio es sencillo, ya que en todos los lenguajes de programación tienen integrados funciones de aleatorios, incluso Excel cuenta con uno.

Cosas en contra de una revisión aleatoria:

  • No aleatoriedad. Ningún algoritmo de computadora es 100% aleatorio, ya que se pueden reproducir las condiciones y función que la genera.
  • Baja eficacia. El volumen de ilícitos identificados dependerá de incrementar recursos y no en la productividad de los mismos.
  • Baja eficiencia. Tendremos recursos desperdiciando tiempo al revisar mercancías que no requieren revisión.
  • Baja Efectividad.   La taza de ilícitos identificados sobre el total de ilícitos será igual a la proporción de mercancías revisadas del total que pasan por la aduana.
  • Molestia. Retrasar la llegada de la mercancía solo por ser aleatorio puede generar perdidas de tiempo, dinero, etc. al importador o exportador que cumple con los lineamientos de ley.

Buscando más información referente a las aduanas me tope con algunas agencias aduanales que ofrecían no pasar por una revisión, ya que sin duda conocen los factores y procesos, además posibles conexiones para evitar la revisión.

No todo lo que encontré fue malo, al contrario me tope con buenas noticias y el uso de modelos (machine learning) ya es una realidad en nuestras aduanas, el SAT cuenta con modelos de riesgo que en combinación con información generada por el Proyecto de Integración Tecnológica Aduanera (PITA)  son más asertivos y menos agresivos en las revisiones. Una prueba de esto es:

“Durante las primeros seis meses del año, gracias al modelo, se han decomisado más de 66 mil piezas de armamento, lo cual es 129 porciento más que el año pasado que no existía el sistema, mientras que se detectaron 15 millones de dólares en efectivo, que es 11 veces más de lo que se detectó el año pasado.”  Con modelos de riesgo agilizan revisión aduanera

Con el texto anterior publicado en el periódico el diario.mx, se ve claramente los beneficios que conlleva el utilizar modelos en aduanas.

Regresando a la propuesta del nuevo presidente de México, esperamos que el próximo gabinete de gobierno tomé el concepto de revisiones aleatorias pero realmente se lleve acabo la implementación y continuidad de modelos que ayuden a identificación actos delictivos. Por ello, me gustaría que llegue principalmente esta necesidad social a Rosalinda López Hernández e Irma Eréndira Sandoval (futuras  responsables del SAT  y Secretaria de la Función Publica respectivamente).

Me gustaría comentar que este modelo son complejos , que una técnica como la regresión logística no es recomendable, porque debe responder rápidamente a las tendencias y nuevas formas de cometer un ilícito, además de que aunque se maneje como una caja negra un buen data scientist podría identificar los factores y replicar el modelo y así saltar la revisión, algo que podrían vender agencias aduanales de dudoso comportamiento.

Finalmente, estos modelos deben ocupar técnicas de autoaprendizaje como redes neuronales o mucho más complejas (machine learning), donde la definición de su Variable objetivo cambia constantemente, así como los factores para identificar el acto ilícito. En la industria financiera, los modelos de fraude tienen este comportamiento principalmente a causa del rápido avance tecnológico y de las nuevas modalidades de fraudes, estos modelos dinamicos lo explicaremos a mayor detalle próximamente.

Si me tratas mal, no te pago!

 Cuidado … un mal servicio post venta afecta el pago de los clientes!

Después de un día de coraje ocasionado por un mal servicio post venta llegó el momento de reflexionar de como esto impacta en el poder de predicción de un modelo.

Consideremos un modelo que su salida es un score que califica a nuestros clientes de manera que una calificación baja nos indica que será un mal pagador y una alta es que será un buen pagador.

Los modelos no siempre logran definir con certeza si un cliente es bueno o es malo, en la matriz de confusión podemos encontrarnos dos conceptos interesantes:

  1. Falso Positivo. Se predijo que el cliente iba a ser bueno y resultó mal pagador.
  2. Falso Negativo. Se predijo que el cliente iba a ser mal pagador y resulto bueno.

Considerando el punto 1 … ¿Por qué un cliente con un alto score, alta probabilidad de ser buen cliente, dejó de pagar? … uniendo piezas, una razón para explicar esta situación son aquellos clientes que castigan a la empresa por recibir un mal servicio, no es difícil de entender esta situación, sin embargo esto impacta a la empresa y al cliente en muchos sentidos.

Seguramente el área de cobranza aplicará las estrategias usuales para este cliente y esto incrementará la molestia del cliente, dando lo siguiente:

  • Paga, pero en cuanto pueda dará mal prestigio a la empresa.
  • No paga y además trata de dañar la reputación de la empresa.

Identificar clientes en atrasos por mal servicio post venta depende de los recurso y el nivel tecnológico que tiene la empresa, pero sobre todo el interés por hacer algo:

  • Sistema de CRM  – Registro de quejas y seguimiento.
  • Modelo de comportamiento – Lanzar alarmas basado en patrones de comportamiento.
  • Modelo de cobranza -Segmentando o calificando para aplicar una estrategia de cobranza.
  •  Buró de Crédito – Desempeño en otras empresas.
  • Organismo o instituciones de gobierno – Registro de quejas.

Uniendo cabos, un cliente con un alto score que cambia su patrón de pago (dejó de pagar), que levantó una o varias quejas y que en otras empresas sigue pagando, muy probablemente esta castigando a la empresa por un mal servicio post venta. Entre más rápido se identifique en menos atrasos caerá.

Post la identificación debe seguir la estrategia de recuperación del cliente, desde mi opinión debe estar bajo el paraguas del CRM, pero debe estar ligado al modelo de cobranza para incluirlos en un programa justo de pago.

Un cliente con una experiencia negativa hará que se pierdan futuros clientes, una gestión de estos clientes molesto no debe considerarse como un “Nice to have”, al contrario esto es básico para la empresa…

¿En tu empresa cómo se identifican y gestionan los malos pagadores por un mal servicio post venta?.

 

NO ALCANZAR METAS …

Culpable un modelo sin Variable objetivo bien definida

En una platica de mesa una persona expreso su descontento y preocupación debido a que le habían pedido investigar el porqué cierto producto estaba lejos de lo pronosticado para ese año, el crecimiento de clientes y rentabilidad no era lo que se esperaba y como resultado de su análisis tenia que dar una recomendación… Puedo asegurar que muchos hemos pasado por una situación similar.

Como parte de la conversación se le hicieron preguntas relacionadas con cambios estratégicos (No esperes resultados diferentes si siempre haces lo mismo):

  • Estrategias para incrementar ventas: Campañas comerciales, Promociones, Relajamiento de políticas de otorgamiento, nuevos nichos de mercado, extensión territorial, programas de retención de clientes, incrementar la fuerza de venta y agregar o modificar los canales , etc.
  • Estrategias para mejorar rentabilidad: Reducción de costos, inversión en tecnología, control de riesgos, modificaciones al producto, incrementar la productividad, etc.
  • Otras acciones: Capacitación, alianzas, etc.

Sus respuestas fue rápida y tajante, se ha invertido dinero en casi todos los aspectos, sin embargo se sigue vendiendo igual y el portafolio de clientes se esta deteriorando. Su frustración aumenta cuando expresa que se siente atacado porque en una reunión sucedió algo por este estilo:

El área de Operaciones esta culpando a Mercadotecnia por no ver impacto en el volumen de ventas, esta avienta la bolita a riesgos porque las aplicaciones aumentan y no el volumen de ventas, riesgos asegura que sus modelos trabajan bien y que los rechazados no traen el mejor perfil, además que el área comercial y  finanzas no hicieron bien el presupuesto” … así se vuelve una novela de echar culpas al que se deje!

“Yo no fui, fue teté, pégale, pégale que ella fue …”

Al termino de la reunión todas las áreas llaman a sus equipos de análisis para cubrirse y poder pasar la bola caliente a otra área; en paralelo se generan muchos análisis, lo malo de ello es que no se busca la causa real para resolver el problema y pasando un tiempo  se buscaran factores externos (excusas) como situación económica,  política, crimen o alguna otra causa que pudiera excusar el no alcance a los objetivos.

¿Pero qué es lo que esta mal?, sin duda el presupuesto es incorrecto pero no solo por culpa de quienes hacen el modelo de pronósticos, sino también por los insumos que provienen de los modelos de riesgo, mercadotecnia y el área operativa. Esto malos insumos se deben a que sus modelos no tienen una misma visión o variable objetivo. Por ejemplo, pensemos en las diferentes interpretaciones para la siguiente variable objetivo “Buen Cliente”:

  • Operaciones: El cliente que de mayor comisión
  • Mercadotecnia: El cliente que se convierta fácilmente en venta
  • Riesgos: El Cliente que no cae en alto atrasos/perdida
  • Finanzas: El Cliente más rentable

Los dos últimos suenan similar pero no siempre es lo mismo, consideremos clientes de una institución financiera: un cliente que paga puntal y no renueva es menos rentable comparado con uno que tiene un pequeño atraso, que se le cobra un interés mayor y que renueva su prestamos.

Regresando a las diferentes percepciones que en una empresa se pueden tener de “Buen Cliente”, esto es como darle a cada área un remo y una dirección diferente lo que hace que no haya avance, por ello incremental esperado por invertir en estrategias se reduce cuando:

  • Se atraen prospectos pero no se convierten porque no es la mejor comisión.
  • Se llevan clientes potenciales con buena comisión pero son rechazados.
  • Se vende a los clientes con mayor probabilidad de pago, pero no a los más rentables.

Es más que claro que la generación de un presupuesto es un proceso de estira y afloje entre las áreas, pero la construcción de un presupuesto puede tener un mejor resultado si se siguen los siguientes pasos (sugerencia basada en mi experiencia):

  1. Variable objetivo. Definir qué es un cliente bueno, malo e indeterminado
  2. Generar la distribución de dichos clientes en un histórico representativo de ventas – Distribución normal de probabilidad.
  3. A cada bucket de la distribución agregar comisión promedio, tasa de rechazo por modelos de riesgo, y rentabilidad por cliente. (nos dará una visión clara de como están nuestros esfuerzos y resultados).
  4. Generar una distribución nueva con un volumen mayor de ventas lo cual impactará en el volumen de aplicaciones por parte de Merca con un perfil especifico, un nivel de productividad y costo de comisiones para el área de operaciones.
  5. Generar un pronóstico base considerando estacionalidad, comportamientos periódicos, y otros factores que den forma al presupuesto.
  6. Platicarlo con las áreas para ver la viabilidad de este modelo y construir en conjunto una propuesta de presupuesto, así como la inversión y acciones necesaria para alcanzar las metas.
  7. De igual forma se tendrán que hacer los ajustes necesarios a los modelos de riesgo o políticas, modificación de las comisiones y cambios en producto para hacerlos aun más rentables.
  8. Repetir el paso 6 y 7, como máximo 2 veces para evitar un proceso engorroso.
  9. Construir las metas a detalle, para que el nivel más bajo de la organización este involucrado y comprometido a ellas.
  10. Seguimiento al alcance de metas con frecuencia adecuada, identificando el GAP con base en los supuestos (comisión, tasa de rechazo, rentabilidad) para poder tomar decisiones a tiempo sobre como invertir o ajustar las estrategias actuales, de tal forma que se recupere el GAP y se alcance el objetivo establecido.

Como se darán cuenta es un tema bastante interesante que conlleva aun más variables y áreas involucradas, al crear un modelo, ya sea de pronóstico o un simple score de originación de crédito el error que generalmente se comete es el definir erróneamente la variable objetivo y/o no alinear a las áreas a trabajar con una sola definición.

Finalmente, aquella persona regreso a su trabajo a hacer análisis donde su modelo mostraba buen desempeño de acuerdo a su variable objetivo, y por lo que entendí dicha variable objetivo esta ligeramente ligada con rentabilidad y pero muy lejos del crecimiento de clientes. A este error común se le puede nombrar como ceguera de taller.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Análisis no parálisis…

… en varias ocasiones un líder de una compañía en donde trabaje me decía esa frase “Análisis no parálisis”, puedo asegurar que la primera vez que me lo dijo no lo entendí, tal vez hasta me ofendí, ¿es que no es importante saber la razón del problema y tomar las decisiones adecuadas a partir de dicho análisis? … ¿las decisiones que tomarás seguramente no son las mejores?

Para entender mejor, les voy a contar una situación real por la que pase: en una ocasión bajo mi cargo contaba con un miembro de mi equipo el cual su nivel de análisis era muy bueno, su talón de Aquiles era la impuntualidad y el manejo del tiempo.

Un día se le asignó un análisis referente a un producto de la empresa, se tenía que dar una recomendación sobre seguir o parar aquel producto basado en el desempeño del piloto. Se contaba con la información histórica suficiente para identificar su comportamiento en diferentes escenarios y tiempos. El detalle como en casi todos los ambientes de análisis para poder colocar el real desempeño del proyecto necesitas quitar factores que alteran los resultados, tales como otro producto corriendo en paralelo, zonas con muy buen o mal desempeño, etc.

El piloto era un requerimiento a nivel internacional, y por ello tenía un soporte financiero y una fecha de terminó. Dado lo anterior el board tenía que tomar una decisión en 3 semanas para poder preparar el lanzamiento general o la salida del mismo.

La primera semana, este analista me dijo estoy limpiando la base y pensando cómo hacerlo, mis respuesta fue platiquemos lo que has pensado, a lo cual solo expresó ideas difusas de su objetivo y sin una hipótesis a refutar o comprobar, final de la platica le dije cuida estos factores que meten ruido al piloto.

La segunda semana, me comentó que había encontrado una cantidad de factores que alteraban el resultado del piloto pero aún no sabía cómo quitarlos, buenas ideas pero eso ya parecía un reto no fácil de alcanzar por lo que le recomendé reducir el número de factores considerando el concepto de Pareto (80-20) basado en una plática que tuvimos con el equipo que operaba el producto. Para el ya era un reto intelectual, así que continuo y descartaba por completo la percepción que tenía el área operativa.

Tercera semana, considerando que para no limitar la creatividad del equipo permites que ellos manejen sus tiempos, pero por otro lado generas un plan B, correr un análisis más sencillos, considerando menos factores y ciertas situaciones operativas que daban un sustento no cualitativo pero real de producto. A dos días de la entrega el contaba con una gran cantidad de información, varios modelos y pronósticos, algunos que convergían en ciertas respuestas pero no concluyente, el tenía que unirlas y convertirla en formato beneficio-costó, algo que no le gusta del todo porque para él ver su análisis desde un punto financiero era quitarle importancia a otros indicadores que quería calcular.

El día de la toma de decisión, Se presentó el plan B, utilizando algunas salidas del análisis que generó el, así como la parte cualitativa por parte del área operativa y se agregó el impacto financiero, de esto la decisión fue no lanzar el producto, se veía un desempeño aceptable con un pequeño impacto positivo en los ingresos de la compañía, pero con varias fallas en la parte operativa debido a que no había la correcta aceptación por aspectos tecnológicos.

Una semana después el analista término, era una presentación impecable donde a regañadientes agregó la parte financiera y sus conclusión fue que el producto era muy rentable, pero este debería ser implementado un segmento muy específico. Al ser solo un segmento muy exclusivo aunque era muy rentable el impacto al negocio seguía siendo muy pequeño y requería incluso mayor complejidad de implementación.

De todas maneras se mandó el análisis con la etiqueta de “Deep analysis”, pero realmente pocos miembros del board lo leyeron, uno de ellos me preguntó: “¿si leo este documento tendremos que cambiar la decisión?, a lo que dije “No”, respuesta seguida de “ok, luego lo leo”, no creo que lo haya leído. El analista me acompañó y se dió cuenta del valor que tiene la información no solo por ser buena sino también por estar en el momento adecuado. (Las mejores enseñanzas no vienen del tutor, sino de entender los errores que cometes).

Años después el producto fue lanzado utilizando tecnología más reciente que hizo que mejorara la aceptación del área de operaciones cubriendo el segmento completo y con un impacto moderado en los ingresos.

Si se hubiera esperado una semana más se hubiera paralizado la toma de decisión, un costo para la compañía y con el mismo resultado, ya que la decisión de este producto mayormente dependía del aspecto operativo. Aunque hubiera sido un producto con fuerte impacto financiero al ser mal implementado y ejecutado podría generar un resultado contrario para la empresa. Hay factores simples y rápidos que definen el camino a seguir… el análisis con fuerte soporte en datos e indicadores no ayudará a cambiar la decisión resultante.

Si ves el cielo lleno de nubes oscuras, a lo lejos se escuchan truenos y te cae una gota, no tiene caso que te quedes parado en ese lugar esperando que cargue en tu celular el pronóstico de lluvia y menos que lo confirmes en varios sitios u otros análisis para estar seguro. Si lo haces seguramente te mojaras y el resultado será el mismo … la lluvia es eminente basado en pocos pero sencillos factores.

Otro ejemplo de parálisis, es el caso en donde por buenos análisis se han tomado buenas decisiones, y por ello los directores no quieren tomar decisiones sin un análisis previo, por lo cual se baja la instrucción de generar análisis por todo proceso o situación en la empresa … esto hará que haya una sobre carga en el equipo de análisis. Con base en anterior ejemplo si bien es claro la información debe estar en tiempo, pero no mal entendamos, un análisis requiere su tiempo para que tenga resultados adecuados. El hecho de que la planta directiva no tome decisiones hasta tener las prueba exhaustivas puede ser más perjudicial para la empresa que tomarlas con la información existente, tales como alarmas, indicadores y retroalimentación de expertos del tema… ¿te ha tocado verlo en tu empresa? … ¿Esto se mejora incrementando el equipo de análisis o mejorando el liderazgo?

Un problema similar, cuando a una organización le da la famosa juntitis por todo, en esas juntas todos van sin ganas, criticando todo pero sin alcanzar fácilmente el objetivo de definir acciones y funciones así como la asignación responsabilidades… esto se vuelve un gasto de recursos sin ser productivo….¿tu que opinas?… ¿Esto mejora incrementando las salas de juntas o se mejoran los procesos donde estén bien definidas las funciones y responsabilidades?

La imagen también cuenta para un Data Scientist

Recientemente se habla de la sustitución de la mano de obra humana por maquinas, en blogs anteriores se comentó sobre el futuro de las áreas de análisis, donde  la generación de modelos que utilizan técnicas de Machine Learning se sistematizará y de igual forma se automatizarán procesos como data mining, Information Management, reporting, etc. Dado lo anterior podría ponerse en duda la continuidad del rol de Data scientist, esto no debe ser preocupante, ya que sigue existiendo una área de oportunidad mientras la decisiones sigan del lado de los humanos, esta oportunidad sonará fuera de contexto, pero es la forma en que los científicos de datos presenten los análisis y soluciones a problemas.

Para muchos científicos de datos contar con un KPI (Key Performance Indicators) puesto en un reporte es suficiente para explicar el desempeño de un modelo o del comportamiento de algún aspecto del negocio. Me he topado con varias organizaciones donde esos KPIs solo los revisan los que los hacen, triste realidad pero cierto.

Otros consideran que un dashboard con gráficas dinámicas son la opción para presentar ante un consejo directivo. Un plus si dicho dashboard contine warnings que disparen alarmas al área operativa o comercial de la organización. Esto casi siempre son creados a solicitud de un director y más porque quiere presumirlos o por reacción a un problema que no fue detectado en tiempo.

Si observamos en el interior de una empresa, esta seguramente esta llena de KPIs, dashboards de cada departamento, los cuales tienen su tiempo de moda y se quedan produciendo por mucho tiempo sin que nadie los utilice. Como se dice tan malo es no tener información como tenerla en exceso.

Otro problema que viene de contar con KPIs es que cuando le preguntas a un gerente que sucede en su departamento/área la respuesta es me esta yendo mal en cierto indicador, pero no menciona la causa operativa y cuando le preguntas por su plan de mejora su respuesta es mejorar el indicador… con respuestas como estas se puede observar un claro desconocimiento de la relación entre el indicador y la parte operativa, ya que seguramente las instrucciones que serán derivadas a los subordinados será que mejoren dicho indicador y no un plan con acciones especificas a corto, mediano y largo plazo. Las instituciones están creando gerentes con mayor información del desempeño pero menor control de la situación.

Un científico de datos no es una persona que se dedica a hacer reportes y muchas veces se piensa que ese es su objetivo. Como lo mencione anteriormente, muchos aspectos serán automatizados, pero ¿Qué pasaría con los científicos de datos? … pues, continuar con el objetivo principal de resolver problemas con datos complejos mediante el empleo de una profunda experiencia en alguna disciplina científica, pero sobre todo hacer que el resultado obtenidos pasen de una solución teórica a acciones con impacto positivo en el desempeño/utilidades de la empresa.

Suena bonito, pero si tu eres un científico de datos o estas en camino a serlo, cuestiónate si  has sido actor activo de las tomas de decisiones, y no es valido mencionar que si, porque los indicadores de desempeño de tu modelo muestran un poder predictivo o poder de clasificación en buenos niveles y estable. Aclaro no subestimo la creación de un buen modelo, lo que quiero dar a entender es que esa parte en un futuro no estará en nuestra mano… lo que estará en nuestra mano es resolver problemas y cómo presentarlos, por ello pensemos en lo siguiente puntos que involucran la solución de un problema:

  • Síntoma. Usualmente lo observamos por indicadores, pueden tenerse alarmas, early warnings, tendencias, etc. que son observados en KPIs y/o Dashboards.
  • Identificación. Se trata de entender el impacto que tiene el problema, qué otros indicadores podrán ser afectados, es un problema general o esta focalizado, ya ha pasado un problema similar, etc.
  • Causa. Se dejan los indicadores y se habla de situaciones reales, causas internas o externas que están afectando los procedimientos o aspectos operativos.
  • Plan de acción. Se genera una solución Smart con objetivos claros y de sencillo entendimiento para equipo operativo, utilizando su lenguaje.
  • Seguimiento. Los objetivos trazados en el plan se convierten en indicadores al que se les estará dando seguimiento por medio de indicadores de desempeño a corto, mediano y largo plazo. También se debe hacer un análisis del impacto del plan generado.
  • Registro de buenas practicas. El plan con los resultados de análisis de impacto deben ser guardados para ser utilizados en un futuro, ya sea para implementarlo o evitar usar aquellos sin impacto positivo.

La solución debe tener un soporte técnico por parte del científico de datos que le sentido a cada punto,  seguramente se estará usando minería de datos, aplicar la estadística en análisis e interpretación de indicadores, investigaciones en campo como levantamiento de un muestreo, para identificar impactos se pueden generar modelos de elasticidad, pronósticos, etc.

Con todo lo anterior,  se debe generar un documento que contenga todo el sustento del análisis y una presentación ejecutiva para la toma de decisiones, en esta presentación se debe tener un guion claro de lo que se quiere contar y así como el efecto que debe causar en las personas que tomaran decisiones. Para ello, se necesita conocer que es lo que esperan ver en el documento, no siempre una tabla con números será la opción más adecuada y tendrás que colocar alguna imagen que mande tu mensaje de forma rápida y sencilla, la interpretación de los indicadores sin demasiado texto y de forma puntual harán que se reduzcan las preguntas, los números toman mayor credibilidad si son sustentados con aspectos operativos extraídos de la gente experimentada que esta involucrada en el tema, como cosas como lo anterior podemos mejorar la imagen de nuestra presentación (Aun hay más recomendaciones para realizar una presentación el cual serán explicadas en futuro blog) .

La forma en que se analiza un problema, como se interpreta y comunica la solución para otros humanos es la imagen que también cuenta para un data scientist y que le seguirá dando valor a pesar de la sistematización y automatización de muchos proceso. Digamos que el generar una buena imagen será el reto más difícil de copiar que tendrán las maquinas.

Hoy pañales … Mañana un monstruo sin nombre!!

He estado leyendo artículos colocando Machine Learning como el futuro que esta tocando nuestra puerta,  y sin duda creo que es un parte aguas de lo que actualmente conocemos con impacto en muchos áreas de nuestras vidas, sin embargo al analizar lo que tenemos creo que aun estamos en tiempos de pañales.

Machine Learning es un subconjunto de la Inteligencia Artificial  en el que se concentran varios algoritmos o técnicas; al crear un modelo tenemos 3 etapas principales (al post de documentación hay más detalle):

  • Data creation,
  • Model development,
  • Implementation and monitoring

Un algoritmo es usado en Model development dependiendo del problema, conocimiento del desarrollador y por ultimo por el resultado arrojado al compararlos. Los algoritmos no son nuevos y mucho menos el sustento estadístico, lo que ha ayudado mucho es el volumen de información y la forma de procesarlo, es decir los adelantos tecnológicos han colocado un catalizador para lo que viene.

tipos

evolu

Las imágenes que tome de otro blog me fueron de mucho interés porque sin duda me he topado con diferentes personas que eligen una tribu y como la evolución de los ha algoritmos continua, pero aun así hay otros aspectos más por ver que están en mi mente:

  1. Autoevaluación, capaz de trabajar con datos y metadatos para mejorar la misma forma de aprendizaje,
  2. Oportunidad de desaprender, que el modelo pueda rechazar un aprendizaje previo por uno nuevo, los humanos generamos ciertos paradigmas y con el tiempo podemos cambiarlos para reaprender.
  3. Independencia de selección de la data, un sistema que pueda explorar miles o millones de fuentes y aplicar el aprendizaje para seleccionar la data más adecuada para el modelo.
  4. Aprendizaje no supervisado y agregaría no limitado, es decir permitir experimentar algoritmos nuevos, incluso crear nuevos al combinarlos y romper limitantes iniciales.
  5. Seguimiento con alarmas que detonen acciones inmediatas que permiten automáticamente el rediseño del aprendizaje.
  6. Dejar el concepto de modelo con base de técnicas de Machine Learning a un sistema cognitivo

Consideremos la siguiente analogía:  Las clases típicas de un idioma pueden para persona no ser la mejor opción de aprendizaje ya que siente que no tiene avances, esta persona hace una autoevaluación (1) y toma decisiones de cambiar su aprendizaje, reprograma su base de como aprender y decide volver iniciar su aprendizaje de otra manera (2), para ello busca información de diferentes medios, incluso publica en la web que le envíen información (3), de ello selecciona recursos como clases online más grupos de conversación con nativos del idioma y en futuro esta explorando la idea de ir por un tiempo a un país donde se hable solo ese idioma (4). post el curso identificar si el aprendizaje va con su estilo de vida, pero sobre todo con el alcance de su objetivo de mejorar su nivel (5) y por ultimo poder identificar costos y otros factores que impactan para seguir o reiniciar el proceso de aprender un nuevo idioma (6).

Si lo pensamos muchos de los casos se hacen actualmente basado en que se hacen manualmente por un equipo o tribu  que da seguimiento a un modelo, ahora imagínate que es un sistema automatizado que lo hace constantemente, buscando optimizar los recurso y en si mismo el aprendizaje….para mi el futuro de Machine Learning aun no tiene nombre!!

 

Una humanidad organizada por algoritmos de machine learning

El día de hoy entro en mi cabeza la idea de tener una estructura social organizada mediante algoritmos de machine learning, puedes imaginarte que cada persona fuera seleccionada para tener una función en la sociedad, es decir un trabajo, ya sé te sonó a una película, a mi también pero veamos más conceptos que estarían envueltos en un modelo desarrollado e implementado para su uso en un país como México.

Para desarrollar dicho modelo tomemos en cuenta los siguientes aspectos que nos darían un mejor entendimiento del resultado del desarrollo:

  • Data creation
  • Reject inference
  • GBI definition
  • Vintage Analysis.
  • Segments
  • Selection of variables
  • Model outcome

Podríamos ocupar más y mayor detalle, pero si lo hiciéramos podríamos perder el enfoque de este post, que es dar una probada del problema y dejar que las ideas fluyan, así como los temas controversiales que se deriven.

Data Creation. Se tomaría la población de México considerando algunos siglos de información, se tendría que excluir aquellas personas con las que no se cuenta con información laboral y en algunos casos algunos trabajos que dejaron de utilizarse o aquellos que no aplicaran en la nueva organización de México.

Reject Inference. Usaremos información externa para algunos trabajo, ya que para estos podríamos tener poca información, por ejemplo funciones de gobierno donde  no contamos con los suficientes casos para identificar a los mejores empleados de gobierno…recuerda es un ejercicio y nuestra historia nos respalda.

GBI definition. Decir si un empleado ha tenido buen desempeño o no, es difícil de saberlo, pero supongamos que contamos con evaluaciones de los empleados de todas las empresas. Cuando se modela, usualmente el objetivo deseado se denomina “BAD”, por lo que las definiciones quedaría de la siguiente manera:

  • Good. Personas que tuvieron bajo desempeño en su trabajo
  • Bad.  Personas que tuvieron un desempeño sobresaliente en su trabajo.
  • Indeterminate. Personas del que no se tiene información precisa para definir cómo Good o Bad

Vintage AnalysisIdentificación de la edad adecuada para que una persona fuera asignada a una labor especifica, desde mi punto de vista este sería muy cercano a la edad que los jóvenes están entrando a la universidad.

Segments. Desde mi punto de vista tendríamos segmentos muy parecidos a la clasificación de trabajos a nivel general:  Agricultura, industria, gobierno, Servicios, etc.

Selection of variables.  Tendríamos un mundo de variables, desde quienes son nuestros padres y a que se dedicaron, como los gustos, desempeño escolar por materia, actividades físicas, etc.

Model outcome. Tendríamos una cantidad de segmentos y por cada segmento tendríamos un árbol de decisión donde los nodos serían un trabajo especifico y la salida del modelo final seria un score que indicará que tan viable seria la persona para ese trabajo.

Dada la anterior información nos encontramos que un joven saliendo de la preparatoria/bachiller tendrá que ser calificado con todos los modelos, dándole un abanico de trabajos y segmentos donde podría desempeñar de la mejor manera. Incluso si lo pensamos bien la parte de la universidad a partir de su selección sería manejada como una capacitación especializada para su futuro trabajo.

Todos iniciarían con un puesto bajo, tales como obrero, analista, chalan, etc y la parte de escalamiento (coordinador, gerente, head, director, etc.) en las funciones del trabajo dependería de la personas y con ellos también sus ingresos, posiblemente la salida de su score sería un parámetros para una promoción.

Puedes imaginarte que tendrías a los mejores y más honestos gobernantes, tendrías a las personas más capacitadas y con habilidades necesarias para que la productividad subiera, y teniendo esto posiblemente no se tendría que trabajar 8 horas, posiblemente se bajaría a 4 o menos, ya podríamos reducir por completo aquellas personas que no trabajan, más vida social para todos!

Suena bonito, un México con una estructura social bien organizada, donde con ellos la diferencia sociales se reduzcan al mínimo, pero que pasaría con aquellos muchos que no quieren trabajar “NINIs”, el ser ama de casa se consideraría un trabajo, y que hay de trabajos como futbolistas… y que me dicen sobre los niños que sueñan con ser bombero, desde pequeños se le diría, no  sueñes, cuando crezcas tu selección dependerá de tus padres y lo que hagas en los siguientes años… hay muchas preguntas que salen de esta idea, que parece ser futurista pero no imposible a ser aplicada, hay muchos temas de controversia desde muchos ángulos: Ético, legal, justicia, economía, etc.

¿Machine Learning sería una buena solución para organizar una sociedad?

Coloca tus comentarios…sería genial leer tus ideas sobre este tema.