¿Cómo publican los científicos de datos su trabajo?

La respuesta es ambas.

Depende un poco de dónde trabajas como científico de datos. Por ejemplo, si usted es un académico, su trabajo real es publicar trabajos, ya que esa es la forma en que comúnmente medimos la producción de un investigador académico. Un lugar popular para la literatura de aprendizaje automático es The Nips Conference.

Si trabaja en un entorno corporativo o industrial, le preocupa menos crear nuevos hallazgos, sino resolver problemas relevantes , por lo que lo más probable es que publique su trabajo en un repositorio privado para la empresa, o en un repositorio público si su empresa lo hace. No importa que lo hagas. Sin embargo, como repositorio público, probablemente sea para beneficio de la comunidad en general leer, como Data @ Quora.

En términos de cómo exactamente los profesionales hacen esto … depende un poco. Puede publicar sus hallazgos en un blog escrito interesante (personalmente me gusta KADataScience, por ejemplo). Por lo general, se basan en un lenguaje de descuento de algún tipo, y también pueden tener un repositorio detrás de ellos para que los datos estén disponibles y sean dinámicos y puedan incluir características como widgets.

No estoy familiarizado con muchos métodos para hacerlo, pero anoche estaba leyendo sobre Blogging con Rmarkdown, knitr y Jekyll, lo que sería una gran solución para los usuarios de R.

Pero generalmente, la mayoría de los científicos de datos hacen ambas cosas, no son métodos exclusivos.

La respuesta correcta es “depende”. Algunos ejemplos son probablemente más útiles.

Aquí hay un buen trabajo, sospecho que es un proyecto paralelo divertido: Semántica: ¿qué revela la ciencia de datos sobre Clinton y Trump? – Escuadrón de reputación Como puedes ver, fue publicado en Medium.

Aquí hay una lista de documentos que obtuve simplemente buscando en Google “documentos de ciencia de datos”: http://bigdata-madesimple.com/mo

Algunas investigaciones se realizan internamente y se publican en las publicaciones de blog de la compañía, Google, Twitter, Facebook y otros lo hacen. También comparten su código en repositorios públicos.

Internamente, sin embargo, es un asunto diferente. Por ejemplo, la semana pasada entregué modelos para un producto de datos que implementaremos este año. El código está en un repositorio, los modelos se pueden construir a partir del código. El equipo de ingeniería de datos probablemente creará su propio repositorio con el código en vivo.

Otro ejemplo es una aplicación web que creé con Shiny. El código está en un repositorio, la aplicación está en vivo para mis colegas.

Nuestra propia investigación interna está totalmente codificada, desde el análisis hasta los documentos finales, similar a los documentos pero con un lenguaje más accesible. Codifique en el repositorio (como de costumbre) y los documentos se comparten en toda la organización por correo electrónico.

En pocas palabras, la “publicación” del trabajo de ciencia de datos depende en gran medida del resultado que generamos. La ciencia de datos, a mi modo de ver, se trata de crear productos de datos y estos se pondrán en marcha de alguna manera y su código se mantendrá en repositorios. Sin embargo, hay mucho trabajo que origina informes. En este caso particular, la salida es el informe, pero nuevamente, el código está en el repositorio.

¡Espero que esto ayude!