¿Cómo resolvería un científico de datos este problema comercial?

A menudo, a los profesionales de análisis de datos se les presenta una pregunta que no se ha reducido por completo. Además, a menudo se les suministra un conjunto de datos incompleto. No es aceptable decir “no se puede hacer” o “¿cómo puedo trabajar con estas herramientas?”. Deben hacer lo mejor de lo que se les da mientras emergen suavemente formas de mejorar la situación al gritar las advertencias.

A diferencia de un problema completamente trabajado con datos ideales, este es un poco más como un problema de investigación de ciencias sociales con datos limitados: ¿cómo podemos arrancar una mejor comprensión de la “venta de barcos” dado un conjunto de datos de vendedores de barcos solamente?

Como se ha mencionado, sería útil complementar el conjunto de datos del vendedor de su embarcación con aquellos que no vendieron embarcaciones para obtener un modelo predictivo completamente resuelto.

En ausencia de esto, podemos reformular la pregunta: dado un conjunto de datos de compradores de embarcaciones, ¿cómo podemos arrancar una comprensión refinada del comportamiento de compra de embarcaciones que podría servir para informar los próximos pasos? Es decir, nos gustaría refinar nuestra comprensión de los vendedores de embarcaciones en los últimos 7 años en el conjunto de datos históricos, para aislar aquellos factores que fueron determinantes clave para el comportamiento de venta de embarcaciones. Aquí podemos al menos intentar comprender los determinantes clave de la venta de botes y refinar una comprensión de las variables de acuerdo con los pesos y correlaciones relativas.

Sería útil reunir todos los datos demográficos disponibles con respecto a los vendedores de botes: edad, ingresos, estado civil, código postal (y cualquier demografía en el código postal), número de residencias, número de niños, etc., básicamente cualquier cosa que brinde antecedentes a quienes son los vendedores Entonces sería útil agregar variables macroeconómicas históricas clave (ligadas a las fechas): tasa de desempleo (ligada idealmente a la región), tasa de interés preferencial, inflación, quizás incluso variables de índice de mercado (es decir, DOW, etc.).

Dado el conjunto de variables, uno podría sumergirse en estadísticas descriptivas y aplicar métodos multivariados para perfilar ‘vendedores de barcos’ y posibles correlaciones de venta de barcos. Uno podría, por ejemplo, realizar el Análisis de Componentes Principales (PCA) y el Análisis Factorial (este último es distinto del PCA en formas importantes que uno debe entender, es decir, el Análisis Factorial que hipotetiza variables latentes).

Entonces se podría realizar un análisis de conglomerados para identificar patrones ocultos que sugieran agrupaciones entre vendedores de barcos. Esto sugeriría perfiles característicos de vendedores de barcos ‘canónicos’. Esta es una técnica de aprendizaje automático no supervisada: no se necesita ningún grupo contador de vendedores que no sean barcos, solo queremos hacer un perfil de los vendedores de barcos.

Dados los subgrupos de vendedores de barcos derivados del análisis de conglomerados (idealmente con análisis variables realizados previamente), tenemos un conjunto de grupos de venta de barcos segmentados. A partir de aquí, podemos derivar un modelo de regresión logística (con reserva) para predecir la propensión a comprar embarcaciones en un grupo específico dada una ecuación de regresión (con los diagnósticos asociados, la bondad de ajuste, la matriz de confusión, etc.).

Ahora hemos derivado agrupaciones de vendedores de embarcaciones segmentadas en función de las características asociadas con una fórmula sobre la importancia de variables relativas ponderadas vinculadas al comportamiento de compra de embarcaciones.

En el futuro, presentados con nuevos datos, podemos intentar determinar en qué medida los nuevos vendedores potenciales se ajustan a una categoría identificada de vendedores de embarcaciones (teniendo en cuenta que la dinámica de la compra sin embarcación sigue siendo opaca). Más aún, si hemos recopilado variables econométricas (datos económicos), también podemos intentar determinar en qué medida las circunstancias económicas predisponen al nuevo individuo particular (ahora asociado con un grupo histórico) a comprar o no comprar.

Afortunadamente, hemos realizado series de tiempo y análisis econométricos en grupos de compra de botes vinculados a factores económicos (por ejemplo, los compradores adinerados de mayor edad se correlacionan con la compra de botes, independientemente de las condiciones económicas prevalecientes, mientras que los nuevos compradores de riqueza más jóvenes compran durante los períodos de auge).

Idealmente en el futuro, ahora deseamos comenzar a rastrear la compra o la no compra según la membresía del grupo. Incluso podríamos aplicar un modelo bayesiano para comenzar, comenzando con una estimación aproximada de la propensión de compra por grupo y condición económica y actualizando cada vez que confirmamos o negamos el perfil de compra del barco en base a nuevas observaciones.

A través de este enfoque, hemos comenzado a poner en marcha un modelo predictivo, trabajando desde no supervisado a semi-supervisado, a supervisado.

Para herramientas, recomiendo JMP de SAS y un libro o clase en análisis multivariante. Algunos podrían decir que use R o Python, pero evite los gastos generales a menos que haya sido entrenado previamente en estas herramientas. Si está buscando respuestas rápidas, ¡use una herramienta de análisis de datos visuales como SAS ‘JMP!

Primero, para simplificar el problema, concéntrese en el conjunto de datos que tiene bajo el supuesto : la demanda y la oferta de embarcaciones son constantes. Extraiga cualquier información relacionada como candidatos para modelos predictivos, por ejemplo, estado civil, ingresos, número de años que posee el barco, etc.

En segundo lugar, puede optimizar el modelo desafiando su suposición . Por ejemplo, si las ventas están relacionadas con algo como el crecimiento económico, el crecimiento de la población, etc. Si es así, intente escalar / modificar su modelo anterior.

Como software, diría que hay muchos paquetes python listos para usar, dependiendo de su modelo. Es posible que desee echar un vistazo al paquete scikit-learn . Realmente depende de la naturaleza de los datos y las preguntas, en algún momento un modelo de regresión lineal también funcionaría …

Una última cosa, ya que está tratando de construir un modelo predictivo. Asegúrese de validar su modelo con un conjunto de datos de validación para que, con suerte, pueda generalizarse a su conjunto de prueba.

Primero comenzaré con herramientas de software. Puede usar cualquier herramienta de análisis de datos, por ejemplo, R, SAS, Python, etc. Prefiero R y Python, ya que ambos son de código abierto y fáciles de usar si tiene habilidades básicas de programación.

Ahora, para predecir las personas que probablemente venderán sus barcos en un futuro cercano, necesita mucha información o puntos de datos. Pero he preguntado sobre conjuntos de datos. Supongo que por conjunto de datos te refieres a algunos conjuntos de datos estandarizados que son abiertos y de uso gratuito. No conozco ninguno de estos conjuntos de datos, pero puedes buscarlo en Google.

Hablando sobre los puntos de datos para su predicción, lo siguiente puede ser útil.

  1. Propósito (uso comercial o personal)
  2. Fecha de compra.
  3. Características del barco.
  4. Mantenimiento por año
  5. Es eficiencia
  6. Situación económica y social de los propietarios.

Los anteriores son algunos de los puntos de datos que se pueden utilizar. Pero puedes agregar muchos más. Puede consultar a algunos empresarios de esa industria para conocer las condiciones en que los propietarios venden su barco.

Hay dos problemas con su conjunto de datos.

Está tratando de resolver un problema de clasificación de dos resultados (binomial).

Desea predecir, según quién sea el propietario de un barco hoy, cuál será el resultado en el futuro: vender o no vender.

Desafortunadamente, todos en su conjunto de datos vendieron su barco. Eso significa que su modelo siempre predecirá un resultado de venta, porque eso es todo lo que sabe.

Lo que necesita es un conjunto de datos de todos los propietarios de embarcaciones, independientemente de si se vendieron en un año determinado o no. Entonces puede comenzar a construir un clasificador significativo.

La segunda cuestión a tener en cuenta con su conjunto de datos es que si se basa en datos de ventas, solo puede contener información que se conocía después del evento de venta, por ejemplo, el precio de venta. Desea asegurarse de que este tipo de información no esté incluida en el modelo, ya que no se sabe en el momento en que estamos haciendo nuestras predicciones.

Una reflexión final sobre otros conjuntos de datos que podrían ser útiles.

¿Por qué la gente vende barcos? ¿Muy caro? ¿Ya no lo usan? ¿Mejorar a un bote mejor? ¿Te mudas de ciudad y no puedes llevártelo?

Si puede conseguir que un experto le brinde un desglose de las principales razones por las que las personas venden embarcaciones, eso lo ayudará a señalar las fuentes de datos que le brindarán el mayor valor predictivo.

El problema que describe no es un problema de negocios. Ejemplos de problemas comerciales son “¿Cómo generar clientes potenciales para nuestros vendedores?” Y “¿Cómo estimar el potencial de mercado para evaluar una inversión potencial?” Para darle dos problemas bastante diferentes para los cuales un modelo predictivo podría ser parte de la solución. Tenga en cuenta también que un modelo predictivo es solo una parte de la solución, ya que tiene que integrarse con otros procesos para ser útil.

Las herramientas y los datos que se utilizarán dependerán del problema comercial real que se quiera resolver y podría variar desde un modelo bayesiano jerárquico en R basado en una encuesta de marketing multimillonaria sobre la regresión lineal de los datos ya disponibles en su almacén de datos en Excel hasta multiplicación y adición de algunas estimaciones inteligentes en el reverso de un sobre.

En mi libro, lo que diferencia a un Data Scientist de una función analítica más tradicional es que tienen todas estas herramientas en su cinturón de herramientas y pueden elegir la adecuada para el problema comercial dado.

Necesita datos de un negocio de barcos, como vendedores comerciales. Puede encontrar dichos datos en línea en foros de vendedores y compradores de embarcaciones. Pero debe hablar con los empresarios de los barcos, como pescadores, marineros, personal de cruceros o cargadores pesados. Este tipo de personas experimentan trabajar en embarcaciones o hacer negocios con embarcaciones todos los días. Por lo tanto, pueden darle un buen sentido sobre el negocio con los barcos y ayudarlo a modelar el problema con sus datos. Entonces puedes interpretar el modelo, en cierto sentido con barcos.