¿Usaría un científico de datos una plataforma automatizada de ciencia de datos?

Si se ajusta a mis necesidades, sí. Lamentablemente, parece que mis necesidades no están en línea con lo que ofrecen tales plataformas.

Mis 2 quejas principales con las opciones que he visto son:

Problema 1: bloqueo de flujo de trabajo

Estas herramientas parecen empeñadas en generar reglas basadas en las operaciones que realizas. (deduplicación, cambio de tipo de datos, lo que sea …)

Todo bien, pero eso significa que no puedo tomar esas operaciones e implementarlas en otro lugar. Si quiero realizar el análisis de datos futuros, esos datos deben moverse nuevamente por la plataforma.

Lo que me gustaría en su lugar

Es decir, lo que sería un gran activo, es una plataforma de ciencia de datos que genera un código limpio basado en esas reglas. (en Python, Java, )

O quizás le permite exportar esas reglas a cualquier formato de archivo y también proporciona bibliotecas para para manejar el procesamiento de datos, basado en ese archivo.

Problema 2: son principalmente las cosas triviales que se están automatizando

Deduplicación, valores faltantes, conversión de marcas de tiempo de cadena, redondeo, caída de columnas …

Estas son las operaciones típicas que estas herramientas proporcionan y promocionan. Pero estas son las operaciones triviales. Y puede hacerlo fácilmente en un idioma con un buen ecosistema de datos. (dicen los pandas de Python)

Hasta cierto punto, lo mismo ocurre con los modelos. Aunque existe un valor agregado al proporcionar de inmediato una amplia gama de métricas para realizar una evaluación básica del modelo.

El área principal que queda en pie es la visualización. Pero hay otras herramientas en esa área, con un enfoque exactamente en eso. Y para ser sincero, para muchas comprobaciones rápidas donde las cosas no necesitan ser bonitas, el ecosistema Python también tiene algunas bibliotecas convenientes.

Lo que me gustaría en su lugar

Soñando por un segundo aquí: una herramienta interactiva y conversacional que hace (por escrito está bien: p) preguntas puntuales mientras hago las cosas.

  • Detectar relaciones de muchos a muchos en un pequeño conjunto de claves.
  • Detectar que faltan datos en un período de tiempo muy específico.
  • Detectando que parece haber una relación bastante buena entre unit_price, units_bought y total_cost. Y marcan situaciones para mí donde está fuera de grande. (y luego, permítame informarle que esto tiene que ver con los valores de código de promoción x, y & z)
  • Detectando que hay 2 clientes John Doe y Jon Doe en la misma dirección y que podría ser un error tipográfico. (en realidad, para este tipo de trabajo, existen buenas herramientas)
  • Detectar que los valores en past_spending siempre aumentan para cada cliente a lo largo del tiempo, excepto en una proporción muy pequeña. Una vez marcado, vas a hablar con las personas que manejan las relaciones de la tienda y aprendes que esto no es normal. También pasa por TI y descubre que todos estos son clientes que se fusionaron con su herramienta de limpieza de datos automatizada, que acaba de elegir el valor más bajo de ambos clientes.

Hay un valor limitado para ayudarme a ejecutar operaciones de datos simples. Hay mucho valor en ayudarme a razonar sobre los datos, ayudándome a cuestionar los datos. Al menos cuando se hace de una manera más inteligente que auto-generar inconscientemente cargas de parcelas de distribución de datos.

Aunque algunas personas pueden verlo como un camino hacia la redundancia, y como una opción para principiantes, no existe delito en un científico de datos que utiliza una plataforma automatizada de ciencia de datos. Sin embargo, su uso podría depender de muchas cosas.

Además, los sectores como los proveedores de servicios de TI, salud, meteorología y transporte ya están adoptando las plataformas de auto DS, ya que reduce la necesidad de mano de obra humana y elimina los presupuestos excesivos al tiempo que preserva sus objetivos orientados a objetivos.

Creo que la adopción de una plataforma de DS automática se trata de hacer un mejor uso de un sistema simplificado y reducir los costos vertiginosos.

No es necesario que un científico de datos use una plataforma automatizada, pero se puede usar para facilitar la vida de un científico de datos. Data Science es un campo que se basa principalmente en datos y el caso de uso en el que uno tiene que trabajar. Las herramientas automatizadas también facilitan la vida de cualquier científico de datos, ya que solo tiene que conectar los datos y jugar con ellos.

Pero, si elige dicha técnica, usted como Científico de Datos se limitará a muy pocos casos usados ​​y, por lo tanto, no podrá crear el modelo que realmente desea implementar. En los softwares automatizados no tienes muchas opciones frente a ti para trabajar. Por lo tanto, terminas sin poder hacer o hacer algo que realmente quieras modelar.

Por lo tanto, el libro está abierto al frente y depende de usted decidir cuál es mejor cuando. Todo lo mejor.

¡Espero que esto ayude!

Supongo que su pregunta “le gustaría a un científico de datos usar una plataforma automatizada de ciencia de datos”; bueno, la respuesta varía de una persona a otra, si usted pregunta mi opinión personal, me interesaría diseñar dicha plataforma y dejarla en manos de un principiantes o laicos para su uso. Ciertamente, a casi todos los negocios les encantaría usarlos, ya que les reduce una gran cantidad de mano de obra y dinero en adelante, por lo que siempre les encantaría hacerla cumplir como parte de su práctica.