¿Los científicos de datos son ‘parásitos de investigación’?

Hemos tenido una acalorada discusión sobre este artículo entre mis colegas desde que salió el artículo de opinión.

Para fines de discusión, aquí está el párrafo problemático:

Una segunda preocupación sostenida por algunos es que surgirá una nueva clase de investigador: personas que no tuvieron nada que ver con el diseño y la ejecución del estudio pero que usan los datos de otro grupo para sus propios fines, posiblemente robando la productividad de la investigación planificada por el recolectores de datos, o incluso usar los datos para tratar de refutar lo que los investigadores originales habían postulado. Existe la preocupación de algunos investigadores de primera línea de que el sistema será asumido por lo que algunos investigadores han calificado como “parásitos de investigación”.

La idea de llamar a las personas que reanalizan publicaciones ya publicadas, “parásitos de investigación” de datos públicos es absurda. En primer lugar, no hay “usar la investigación de otra persona para su propio fin”. Nadie afirma que los datos son suyos, solo que la nueva forma de ver los datos es su propia idea. ¡Y el resultado final es que todo el campo se beneficia del análisis adicional ! Y si el nuevo análisis resulta determinar que el análisis inicial fue incorrecto, ¡aún mejor ! Luego, se evita más investigación basada en suposiciones erróneas, y todos ganan. La refutación de las hipótesis es uno de los pilares del método científico, ¡por el amor de Dios!

Por supuesto, siempre es agradable y potencialmente más productivo acercarse a los generadores de datos en el equipo original para asegurarse de que nada se malinterprete, y las colaboraciones son siempre la mejor manera de hacerlo, pero a veces ciertos científicos son ferozmente posesivos (este artículo es un ejemplo) y no quieren jugar bien en la caja de arena, prefieren arrojar arena a los ojos de otros investigadores.

Digo que pares de ojos adicionales en los datos, especialmente los grandes datos, siempre son bienvenidos , nunca parásitos, y si es necesario etiquetarlos, debe ser mutualismo o, en el peor de los casos, comensalismo .

Estoy expresando mis puntos de vista aquí, pero puedo decir con confianza que hasta ahora, el 100% de mis colegas han estado de acuerdo con lo que estoy expresando aquí. Hay muchos grupos independientes que vuelven a analizar los datos de TCGA (la página de inicio del Atlas del genoma del cáncer) y proponen nuevos ARN reguladores potenciales y otros descubrimientos interesantes y útiles. Creo que solo los científicos que estén realmente inseguros acerca de la calidad de los datos que están generando se sentirían incómodos al saber que otros revisarán sus datos con un peine fino. ¡Estoy orgulloso de trabajar con tantos “parásitos” sobresalientes!

Absolutamente no.

La ciencia se hace por comparación. El debate y el desafío son esenciales para producir una buena ciencia.

Mientras que el autor del artículo tiene una preocupación válida sobre la falta de comprensión de las variables ambientales específicas de los estudios. Mi opinión es que esas variables deberían estar disponibles. Solo destaca que el estudio primario no ha documentado tan a fondo como es necesario para permitir que las personas interpreten y reinterpreten los resultados.

Además, los datos se publican y comparten por una razón, para dar a las personas la capacidad de usar esos resultados. Es por eso que una gran cantidad de estos estudios también son financiados por el gobierno. Afirmar que alguien debería colaborar es realmente contradictorio. Entiendo que la presión de financiación es lo que crea esta visión, pero realmente no importa.

Los científicos de datos están agregando valor, esto es muy importante para la forma en que progresamos en la ciencia.

Para otra persona, agregar datos y ejecutar métodos interesantes, útiles o contrarios en los datos es una buena ciencia. Agrega valor y debate a la ciencia, y nos permite aprender a través de los estudios además de los estudios individuales.

Parece que no hay una definición clara de lo que es un científico de datos. Pero, en general, la demanda de científicos de datos aumenta como un efecto del volumen de datos electrónicos que producimos hoy en día: ¡es una mina de oro preexistente para extraer información y ponerla en buen uso!

No están en demanda solo para extraer información de proyectos de investigación clínica cuyos datos se recopilaron específicamente para la pregunta del proyecto / investigación. Por supuesto, también pueden hacerlo con sus habilidades, pero creo que la mayoría de los proyectos de investigación clínica tienen un conjunto de datos mucho más pequeño que el campo de juego habitual de los científicos de datos.

Lo que describe el artículo de NEJM es el intercambio de datos entre investigadores, lo cual no es inusual y ha funcionado bien en muchas otras instituciones y países. No es un fenómeno nuevo.

La revisión sistemática / metaanálisis se está volviendo cada vez más prominente en la investigación médica, por ejemplo, las revisiones Cochrane, e intentar reproducir los resultados de los datos en la literatura científica y evaluar sus métodos es fundamental para el método científico. Estoy de acuerdo con Adriana Heguy en que sería respetuoso comunicarse con los autores originales si están abiertos a ello, pero la reutilización de los datos científicos y médicos disponibles públicamente para futuros análisis no debe verse de ninguna manera negativa.

Creo que un término mejor sería simbionte mutuo. Ese es un término en biología para un “buen parásito” que beneficia a su huésped. Nuestra supervivencia como humanos requiere una gran cantidad de bacterias llamadas microbiomas. ¡En el futuro, la investigación en todos los campos de la ciencia puede requerir simbiontes de la ciencia de datos! ¡Quizás no sea el título más llamativo pero mejor que el parásito!

¿Quizás Adriana Heguy sonará aquí?

La mayoría de los científicos de datos trabajan en la industria y no aprovechan las fuentes de datos generadas por terceros (y publican en ellos). Por lo tanto, dado que el concepto de parásitos de investigación parece muy académico, muy pocos científicos de datos calificarían solo por eso.

Teniendo en cuenta que la mayoría de los científicos de datos realmente están tratando de descubrir cómo hacer que la gente haga clic en los anuncios, no veo cómo este documento podría estar dirigido a los llamados “científicos de datos” en la industria.

¿Qué tienen que ver los estudios clínicos con la predicción de CTR de anuncios?

Esta es la medicina NEJ, no la ciencia.

Publico en revistas científicas, y hoy en día esto requiere que los autores pongan a disposición sus datos para que cualquier otra persona pueda analizar los datos de cualquier manera que ellos elijan.

Yo diría que epifitas sería una mejor palabra de descripción para él que los parásitos en general, pero, por supuesto, algunos en cualquier ámbito usarán mal lo que están disponibles para ellos.

More Interesting

¿Cómo encuentro mi primer trabajo de científico de datos?

Estoy en datawarehouse y perfil ETL. Quiero convertirme en científico de datos. ¿Cómo puedo cambiar el perfil?

¿Los científicos de datos son 'parásitos de investigación'?

¿Necesito hacer un curso académico para ser un científico de datos?

¿Cómo hace un aspirante a científico de datos para encontrar un mentor?

¿Qué oportunidades profesionales hay en el aprendizaje automático? ¿Qué puedo hacer con el aprendizaje automático además de aplicarlo en Data Science?

¿Cómo se puede definir la ciencia de datos? ¿Se puede describir como un tema? ¿Cuál es su dominio? ¿Se puede limitar? Como científico de datos, ¿cómo definirá los requisitos previos para convertirse en científico de datos?

Estoy trabajando como un genoma científico. No tengo un buen conocimiento de las computadoras y las matemáticas. ¿Cómo debo proceder para lograr habilidades de ciencias de datos?

¿Cómo podría mejorarse el Diagrama de Venn de ciencia de datos?

¿Cuáles son las cosas que necesitas aprender para convertirte en un científico de IA?

¿Qué cursos y libros sugiere para convertirse en un buen científico de datos en Python?

¿Cómo es ser un científico de datos independiente / independiente?

¿La analítica de datos es un campo profesional interesante?

Si no tengo mucho tiempo y soy bueno en Python, ¿cómo puedo convertirme en un científico de datos rápidamente? ¿Qué libros son los mejores para mí?

¿Cuál es la mejor manera de prepararse para un trabajo como científico de datos a tiempo completo?