¿Cuál es la mejor configuración de Python para un científico de datos?

Creo que puede encontrar más tecnologías de vanguardia, pero no estoy convencido de que en el 99% del trabajo sean necesarias en el desarrollo local de la ciencia de datos.

Anaconda tiene todas las bibliotecas base, así como una implementación completa de las notebooks Jupyter y una excelente administración para entornos virtuales para probar sus scripts integrados. Lo que no viene con usted puede “conda” o “pip” instalar y usar como en cualquier otro entorno de Python.

Puede gestionar múltiples versiones de python, así como incorporar R y Julia (e incluso javascript) en los portátiles Jupyter.

Ejecutar un script es MUCHO más lento, por lo que es posible que no le guste la espera en grandes cantidades de datos. Pero es un excelente entorno de desarrollo y prueba y una excelente manera de visualizar datos pequeños y medianos y generar informes utilizando marcado integrado y gráficos en la página. Y si es experto, puede encontrar formas de traer resúmenes de análisis distribuidos y visualizarlos en un cuaderno.

Una vez probado a pequeña escala, puede usar spyder (también en conda) o mi elección personal, línea de comando para ejecutar el script en conjuntos más grandes mucho más rápido o puede modificarlo y migrarlo para un análisis distribuido.

Acabo de instalarlo en mi Mac el mes pasado y viene con una interfaz gráfica de usuario encantadora para administrar el sistema, bastante simple. Fue más difícil (aunque razonable para cualquiera que haya realizado algún tipo de desarrollo antes) instalar y administrar en mi PC de trabajo … pero ahora también puede tener una interfaz gráfica de usuario.

No puedo pensar en nada que falte día a día en mi trabajo que resolvería usar algún otro sistema de gestión. Y conda le brinda muchas capas de interacción y control que frecuentemente tiene que administrar en otras instalaciones. Y el soporte de otros desarrolladores de código abierto es bueno para Anaconda.

Mi impresion:

  1. Anaconda: detrás del borde sangrante. Conveniente en Windows, innecesario si usa Unix.
  2. Nix: increíble si está feliz de crear recetas y el administrador de su sistema está feliz de darle un directorio de escritura / nix. De lo contrario, está detrás del borde sangrante. Sin embargo, me gusta usarlo como mi administrador de paquetes predeterminado para cosas que no son Python. Lo uso para mi distribución base de Python, pero de lo contrario instalo bibliotecas a través de virtualenv.
  3. Pip: lo usarás mucho independientemente de lo que corras debajo. Ese es tu verdadero administrador de paquetes.
  4. Jupyter: ese es mi IDE. He usado emacs para cosas como autocompletar y trabajos de desarrollo más grandes, y es mi editor predeterminado para todos los demás idiomas. Pero hacer cosas poco a poco en Jupyter es muy conveniente. Puntos de brownie adicionales para trabajar de forma remota.

Tengo la impresión de que la mayoría de las opciones que no son pip surgieron antes de que existiera pip. Algo así como Anaconda parece bueno para tener un entorno con todas las bibliotecas comunes listas para salir de la caja. Para la producción, probablemente lo consideraría un poco hinchado y preferiría tener un archivo require.txt que enumere exactamente las dependencias que necesita el código. Sin embargo, no he usado mucho Anaconda, así que tal vez sea capaz de hacer algo similar y simplemente no estoy al tanto.

More Interesting

¿Puedo convertirme en un científico de datos sin conocimiento en programación?

Quiero trabajar como científico de datos y hacer del mundo un lugar mejor. Tengo un doctorado en ingeniería y estoy casi parcialmente calificado como contador público. ¿Qué podría hacer y dónde puedo encontrar trabajos interesantes?

¿Qué conecta a los científicos / analistas de datos y al Internet de las cosas?

¿Cuál es la relación entre estadísticos y científicos de datos?

¿Cómo es ser un científico de datos en Dropbox?

Cómo presentar su investigación de doctorado en una entrevista con un científico de datos, especialmente si su tema de investigación se encuentra en un campo muy específico (no relevante)

¿Cuáles son las bibliotecas de Python que usan los científicos de datos?

¿Los científicos independientes se ven más afectados por los recortes en la financiación científica que los científicos que trabajan en universidades?

Cómo convertirse en un científico de datos del desarrollador de software

¿Cuál es la mejor manera de comenzar una carrera de IA / ML sin estudiarla en la universidad?

¿Qué conocimiento debo poseer antes de solicitar un puesto de Ingeniero de Aprendizaje Automático y Científico de Datos?

El sistema educativo para científicos, ingenieros es todavía bastante tradicional. ¿Qué aprenderé yo como científico específicamente para convertirme en emprendedor?

¿Es necesaria la inferencia estadística para el rol laboral de un científico de datos?

¿Por qué te convertiste en un científico de datos?

¿Qué campo tiene mejores trabajos en general: minería de datos, manufactura esbelta o cadena de suministro?