Si se ajusta a mis necesidades, sí. Lamentablemente, parece que mis necesidades no están en línea con lo que ofrecen tales plataformas.
Mis 2 quejas principales con las opciones que he visto son:
Problema 1: bloqueo de flujo de trabajo
- ¿Cuál es la diferencia entre los científicos de datos y los informáticos? ¿Los científicos de datos son principalmente estadísticos o informáticos?
- ¿Qué hace un científico de datos en una empresa de publicidad digital?
- ¿Cuánto conocimiento de programación se requiere para un analista de datos o un científico de datos?
- ¿Qué puede hacer un científico de datos si cada vez se automatizan más cosas (especialmente desde que se adoptó la caja de herramientas analíticas automatizadas)?
- ¿Por dónde empiezo y cuál es el proceso paso a paso para convertirse en un científico de datos?
Estas herramientas parecen empeñadas en generar reglas basadas en las operaciones que realizas. (deduplicación, cambio de tipo de datos, lo que sea …)
Todo bien, pero eso significa que no puedo tomar esas operaciones e implementarlas en otro lugar. Si quiero realizar el análisis de datos futuros, esos datos deben moverse nuevamente por la plataforma.
Lo que me gustaría en su lugar
Es decir, lo que sería un gran activo, es una plataforma de ciencia de datos que genera un código limpio basado en esas reglas. (en Python, Java, )
O quizás le permite exportar esas reglas a cualquier formato de archivo y también proporciona bibliotecas para para manejar el procesamiento de datos, basado en ese archivo.
Problema 2: son principalmente las cosas triviales que se están automatizando
Deduplicación, valores faltantes, conversión de marcas de tiempo de cadena, redondeo, caída de columnas …
Estas son las operaciones típicas que estas herramientas proporcionan y promocionan. Pero estas son las operaciones triviales. Y puede hacerlo fácilmente en un idioma con un buen ecosistema de datos. (dicen los pandas de Python)
Hasta cierto punto, lo mismo ocurre con los modelos. Aunque existe un valor agregado al proporcionar de inmediato una amplia gama de métricas para realizar una evaluación básica del modelo.
El área principal que queda en pie es la visualización. Pero hay otras herramientas en esa área, con un enfoque exactamente en eso. Y para ser sincero, para muchas comprobaciones rápidas donde las cosas no necesitan ser bonitas, el ecosistema Python también tiene algunas bibliotecas convenientes.
Lo que me gustaría en su lugar
Soñando por un segundo aquí: una herramienta interactiva y conversacional que hace (por escrito está bien: p) preguntas puntuales mientras hago las cosas.
- Detectar relaciones de muchos a muchos en un pequeño conjunto de claves.
- Detectar que faltan datos en un período de tiempo muy específico.
- Detectando que parece haber una relación bastante buena entre unit_price, units_bought y total_cost. Y marcan situaciones para mí donde está fuera de grande. (y luego, permítame informarle que esto tiene que ver con los valores de código de promoción x, y & z)
- Detectando que hay 2 clientes John Doe y Jon Doe en la misma dirección y que podría ser un error tipográfico. (en realidad, para este tipo de trabajo, existen buenas herramientas)
- Detectar que los valores en past_spending siempre aumentan para cada cliente a lo largo del tiempo, excepto en una proporción muy pequeña. Una vez marcado, vas a hablar con las personas que manejan las relaciones de la tienda y aprendes que esto no es normal. También pasa por TI y descubre que todos estos son clientes que se fusionaron con su herramienta de limpieza de datos automatizada, que acaba de elegir el valor más bajo de ambos clientes.
- …
Hay un valor limitado para ayudarme a ejecutar operaciones de datos simples. Hay mucho valor en ayudarme a razonar sobre los datos, ayudándome a cuestionar los datos. Al menos cuando se hace de una manera más inteligente que auto-generar inconscientemente cargas de parcelas de distribución de datos.