A menudo, a los profesionales de análisis de datos se les presenta una pregunta que no se ha reducido por completo. Además, a menudo se les suministra un conjunto de datos incompleto. No es aceptable decir “no se puede hacer” o “¿cómo puedo trabajar con estas herramientas?”. Deben hacer lo mejor de lo que se les da mientras emergen suavemente formas de mejorar la situación al gritar las advertencias.
A diferencia de un problema completamente trabajado con datos ideales, este es un poco más como un problema de investigación de ciencias sociales con datos limitados: ¿cómo podemos arrancar una mejor comprensión de la “venta de barcos” dado un conjunto de datos de vendedores de barcos solamente?
Como se ha mencionado, sería útil complementar el conjunto de datos del vendedor de su embarcación con aquellos que no vendieron embarcaciones para obtener un modelo predictivo completamente resuelto.
- ¿Los científicos independientes se ven más afectados por los recortes en la financiación científica que los científicos que trabajan en universidades?
- ¿Qué saben los científicos de datos experimentados que los científicos de datos principiantes no saben?
- ¿Cómo pueden los aspirantes a científicos de datos aprovechar mejor los recursos de Kaggle?
- ¿Cuáles son los proyectos más valiosos que puede crear un científico de datos?
- ¿Cuáles deberían ser las habilidades básicas de un científico de datos?
En ausencia de esto, podemos reformular la pregunta: dado un conjunto de datos de compradores de embarcaciones, ¿cómo podemos arrancar una comprensión refinada del comportamiento de compra de embarcaciones que podría servir para informar los próximos pasos? Es decir, nos gustaría refinar nuestra comprensión de los vendedores de embarcaciones en los últimos 7 años en el conjunto de datos históricos, para aislar aquellos factores que fueron determinantes clave para el comportamiento de venta de embarcaciones. Aquí podemos al menos intentar comprender los determinantes clave de la venta de botes y refinar una comprensión de las variables de acuerdo con los pesos y correlaciones relativas.
Sería útil reunir todos los datos demográficos disponibles con respecto a los vendedores de botes: edad, ingresos, estado civil, código postal (y cualquier demografía en el código postal), número de residencias, número de niños, etc., básicamente cualquier cosa que brinde antecedentes a quienes son los vendedores Entonces sería útil agregar variables macroeconómicas históricas clave (ligadas a las fechas): tasa de desempleo (ligada idealmente a la región), tasa de interés preferencial, inflación, quizás incluso variables de índice de mercado (es decir, DOW, etc.).
Dado el conjunto de variables, uno podría sumergirse en estadísticas descriptivas y aplicar métodos multivariados para perfilar ‘vendedores de barcos’ y posibles correlaciones de venta de barcos. Uno podría, por ejemplo, realizar el Análisis de Componentes Principales (PCA) y el Análisis Factorial (este último es distinto del PCA en formas importantes que uno debe entender, es decir, el Análisis Factorial que hipotetiza variables latentes).
Entonces se podría realizar un análisis de conglomerados para identificar patrones ocultos que sugieran agrupaciones entre vendedores de barcos. Esto sugeriría perfiles característicos de vendedores de barcos ‘canónicos’. Esta es una técnica de aprendizaje automático no supervisada: no se necesita ningún grupo contador de vendedores que no sean barcos, solo queremos hacer un perfil de los vendedores de barcos.
Dados los subgrupos de vendedores de barcos derivados del análisis de conglomerados (idealmente con análisis variables realizados previamente), tenemos un conjunto de grupos de venta de barcos segmentados. A partir de aquí, podemos derivar un modelo de regresión logística (con reserva) para predecir la propensión a comprar embarcaciones en un grupo específico dada una ecuación de regresión (con los diagnósticos asociados, la bondad de ajuste, la matriz de confusión, etc.).
Ahora hemos derivado agrupaciones de vendedores de embarcaciones segmentadas en función de las características asociadas con una fórmula sobre la importancia de variables relativas ponderadas vinculadas al comportamiento de compra de embarcaciones.
En el futuro, presentados con nuevos datos, podemos intentar determinar en qué medida los nuevos vendedores potenciales se ajustan a una categoría identificada de vendedores de embarcaciones (teniendo en cuenta que la dinámica de la compra sin embarcación sigue siendo opaca). Más aún, si hemos recopilado variables econométricas (datos económicos), también podemos intentar determinar en qué medida las circunstancias económicas predisponen al nuevo individuo particular (ahora asociado con un grupo histórico) a comprar o no comprar.
Afortunadamente, hemos realizado series de tiempo y análisis econométricos en grupos de compra de botes vinculados a factores económicos (por ejemplo, los compradores adinerados de mayor edad se correlacionan con la compra de botes, independientemente de las condiciones económicas prevalecientes, mientras que los nuevos compradores de riqueza más jóvenes compran durante los períodos de auge).
Idealmente en el futuro, ahora deseamos comenzar a rastrear la compra o la no compra según la membresía del grupo. Incluso podríamos aplicar un modelo bayesiano para comenzar, comenzando con una estimación aproximada de la propensión de compra por grupo y condición económica y actualizando cada vez que confirmamos o negamos el perfil de compra del barco en base a nuevas observaciones.
A través de este enfoque, hemos comenzado a poner en marcha un modelo predictivo, trabajando desde no supervisado a semi-supervisado, a supervisado.
Para herramientas, recomiendo JMP de SAS y un libro o clase en análisis multivariante. Algunos podrían decir que use R o Python, pero evite los gastos generales a menos que haya sido entrenado previamente en estas herramientas. Si está buscando respuestas rápidas, ¡use una herramienta de análisis de datos visuales como SAS ‘JMP!