¿Qué tipo de proyectos realizan los científicos de datos?

Los científicos no trabajan en proyectos, esa es una palabra de gestión.

Los científicos crean hipótesis y luego crean sistemas para probarlas. A menudo, estos se vuelven en capas y complejos (por ejemplo, aprendizaje profundo) o se vuelven circulares, con la información del primer experimento que informa la próxima iteración en un proceso de mejora continua (por ejemplo, aprendizaje automático).

Pero para encajarlos en el palomar de gestión del siglo XX …

1. Visualización basada en datos
Se recopilan datos y se aplica un algoritmo adecuado para obtener información, que luego se visualiza para que los científicos que no tienen datos lo vean. Estos podrían ser gerentes, trabajadores de primera línea en un sistema de gestión visual o incluso usuarios / clientes entregados a través de una interfaz móvil. Esto ha recorrido un largo camino desde gráficos bonitos en los paneles de control de los administradores a sitios web sensibles al contexto, conscientes del usuario y en constante cambio.

2. Acción basada en datos
Los sensores pueden entregar datos que brindan contexto para una decisión; por ejemplo, por encima de 20 ° C, encienda el aire acondicionado. Datascience puede proporcionar un nivel completamente nuevo de inteligencia a esta información, convirtiéndola de un simple cambio a un sistema de aprendizaje inteligente que, por ejemplo, promedia las temperaturas en todo un edificio, tiene en cuenta los pronósticos y patrones climáticos e incluso el número de personas en el edificio y preferencias individuales del usuario para optimizar tanto la temperatura como la gestión de la energía. Esto también puede aprender, observando el historial y optimizando los parámetros que se consideren más importantes y puedan ser completamente continuos, con mejores algoritmos aplicados, más datos recopilados y nuevas hipótesis que salgan a la luz. El algoritmo también puede integrarse en un dispositivo inteligente como una aplicación en curso.

3. inmersión profunda
Aquí se lleva a cabo un análisis más extenso durante un período de semanas o meses de una serie de parámetros y su interdependencia, cómo influir en uno cambia a otro y visualizar datos para uso propio de los científicos de datos para descubrir nuevas opciones para probar, efectos de cambios, etc. puede dar respuestas increíblemente poderosas a problemas complejos.

Esos son solo tres tipos de usos: probablemente hay tantos como científicos de datos. Proyectos es una palabra demasiado simple.

Suponiendo que está preguntando sobre los proyectos realizados por los científicos de datos en el campo. Data Science es un vasto campo que es una suma de varios campos de Matemáticas e Informática. Y debes saber, la ciencia de datos reales está siendo realizada por personas que ni siquiera se llaman a sí mismas científicas de datos. Hay investigadores y científicos sentados en los laboratorios día y noche trabajando para descubrir mejores formas de resolver los problemas. Hay ingenieros de software contratados por Google o Facebook que están trabajando para filtrar el spam desde su buzón, recomendando amigos y mostrándole los anuncios en los que es más probable que haga clic.

Saltando los segmentos antes mencionados, todavía tenemos que formar varias distinciones entre científicos de datos, analistas de datos e ingenieros de datos. Los siguientes proyectos de ejemplo son más adecuados para los científicos de datos, pero debido a la inmensidad del campo y al no tener límites estrictos, otros dos segmentos también pueden involucrar un trabajo similar.

Nota: Estos son solo ejemplos. Es posible que varias compañías ya estén trabajando con esto y esta respuesta no contiene información como “quién está haciendo qué”.

1. Filtro de spam, clasificación de usuarios falsos, clasificación de publicaciones no sinceras
Envíe gigantes a los desarrolladores de software de correo electrónico, todos quieren mantenerlo alejado de los spam. Facebook quiere evitar que se creen perfiles falsos para fines de spam o divertidos. Además, el spam también existe en las redes sociales.

2. Fraudes publicitarios, fraudes con cupones
El comercio electrónico y las empresas de venta de anuncios (incluido Google) quieren mantener a sus clientes libres del miedo a los clics falsos y a los usuarios libres de anuncios desalineados. Estas empresas han estado trabajando en esto durante años antes de que naciera el término ‘Ciencia de datos’. Las compañías de E-Com quieren evitar que los usuarios que no se supone que los usen usen cupones. Este es un problema relativamente nuevo. En líneas similares, los bancos desean realizar un seguimiento del comportamiento de la cuenta para ver si hay alguien más que opere su cuenta.

3. Análisis de mercado
CocaCola contrata continuamente a compañías de terceros para procesar datos relacionados con ellas desde Twitter y Facebook. Lanzan campañas creativas y quieren monitorear constantemente si la audiencia está aceptando la campaña. Muchas compañías intentan comprender las fallas en sus procesos tratando de entender lo que sus usuarios / clientes dicen sobre sus productos o servicios. Los analistas están automatizando su trabajo mediante la creación de herramientas que leen las noticias y tratan de predecir las situaciones del mercado para el día siguiente. El Análisis de sentimientos sigue siendo una de las aplicaciones más populares (y la suya realmente se ha dedicado a la investigación sobre el Análisis de sentimientos durante dos años). Puede leer sobre Análisis de riesgos y Análisis predictivo para conocer las últimas concentraciones y avances en estas áreas.

4. Robótica
Los robots ya no son simplemente juguetes preprogramados. Tratan de aprender cómo hacer su trabajo a partir de sus experiencias anteriores. Algoritmos genéticos para el aprendizaje por refuerzo, hay muchas áreas de la informática que intentan resolver estos problemas desde múltiples perspectivas. Nos encantaría sentarnos en el automóvil que conduce solo si demuestra que puede pensar sobre la marcha. Queremos que los misiles lleguen al objetivo a pesar de estar en una tierra desconocida con un clima totalmente diferente y velocidades de viento inesperadamente altas.

5. Fabricación, automoción, aviación
La concentración está en mejorar los procesos de fabricación para optimizar el tiempo y el material, y garantizar una producción de alta calidad en la línea de montaje. Esto se extiende más allá de la fábrica y en la carretera cuando los sistemas de frenado modernos saben cuánta presión se debe aplicar en cada neumático para detener su automóvil de la manera más cómoda. La industria del aire y el espacio está trabajando en el desarrollo de modelos de rendimiento de aeronaves.

En los próximos 5 a 10 años, el campo de la ciencia de datos (o más apropiadamente aprendizaje automático y reconocimiento de patrones) se utilizaría en casi todas las industrias. Dondequiera que los humanos puedan aprender por experiencia, podemos hacer que las máquinas hagan el mismo trabajo de manera más diligente y rápida.

Los científicos de datos realizan todo tipo de proyectos. Lo que une a los proyectos es que generalmente involucran estadísticas y / o aprendizaje automático, junto con tecnologías de programación o big data. Aquí hay algunos tipos de proyectos que los científicos de datos suelen hacer.

1. Informes / paneles : los científicos de datos a menudo son llamados a crear informes o paneles para contar una historia útil sobre los datos de una manera fácil de digerir. Por ejemplo, el vicepresidente de ventas podría querer hacer un seguimiento del desempeño de los equipos de ventas a lo largo del tiempo en diferentes regiones, con proyecciones estadísticas para números de ventas futuras.

2. Modelos de aprendizaje automático: es muy común que los científicos de datos creen modelos de aprendizaje automático. Por ejemplo, un científico de datos podría construir un modelo de clasificación para identificar el correo electrónico no deseado. O tal vez un modelo de agrupación que agrupa automáticamente a los clientes en diferentes tipos. O tal vez construirían un sistema de recomendación para recomendar productos similares a los clientes que acaban de comprar algo en un sitio de comercio electrónico.

3. Estadísticas: la mayoría de los científicos de datos son estadísticos aceptables (pero generalmente no son expertos). Hay momentos en que los modelos de aprendizaje automático realmente no resuelven el problema. Por ejemplo, un científico de datos podría necesitar poder comparar varias campañas publicitarias para determinar cuál fue la más efectiva. Pero si las campañas publicitarias eran de diferentes tamaños, y se llevaron a cabo en diferentes momentos y tenían audiencias objetivo ligeramente diferentes, entonces el científico de datos debe usar estadísticas para controlar todas las variables y determinar si las diferencias entre las campañas son estadísticamente significativo.

4. Big data : los científicos de datos a menudo dedican mucho tiempo a diseñar, implementar y consultar sistemas de big data como Hadoop o Spark. Esto es tan común que hay un título de trabajo separado para las personas que hacen mucho este trabajo: un ingeniero de datos. Un ingeniero de datos puede construir un sistema para analizar y procesar millones de correos electrónicos maliciosos por día (lo hacemos en Return Path, por ejemplo).

4. Solución de problemas comerciales : Por supuesto, esta es la razón por la que se paga a la mayoría de los científicos de datos. Están ahí para resolver problemas de negocios. Por lo tanto, los científicos de datos pasan mucho tiempo pensando en los problemas comerciales fundamentales que intentan resolver. Estoy constantemente sorprendido por la frecuencia con la que hablo con los gerentes de producto y la gente de marketing. La mitad del tiempo, el problema empresarial no requiere estadísticas o aprendizaje automático, solo una comprensión profunda del problema comercial y los datos subyacentes. Por ejemplo, al profundizar en los datos de clics de los clientes y hablar con un diseñador de experiencia de usuario, un científico de datos podría configurar una prueba A / B simple para determinar el llamado a la acción óptimo en la página de compra del producto (tal vez debería decir “¡Compre ahora!” en lugar de “¡Compre ahora!”).

Probablemente hay 100 cosas más que hacen los científicos de datos que no enumeré, pero la mayor parte del trabajo de un científico de datos cabe en uno de estos cuatro cuadros. Sin embargo, todas las cajas son bastante divertidas.

Aquí hay un gran artículo que brinda una explicación simple de dos áreas generales donde se utiliza el término científico de datos:
La pregunta que debe hacerse antes de contratar a un científico de datos

Todo lo que puedo decir es que las personas tienden a trabajar solo en una de las dos funciones descritas en el artículo. Los métodos son diferentes, por lo que hay poca superposición.

El análisis de sentimientos (como un subconjunto de toda la moda del procesamiento del lenguaje natural) y los motores de recomendación parecen estar de moda para mucha gente. Hay muchas formas de ejecutar estos casos de uso, desde lo simple hasta lo complejo. También hay muchas formas en las que puedes equivocarte.