¿Puedo ser un científico de datos sin aprender Python?

Todos parecen estar de acuerdo con “Sí, puedes”, pero tengo una opinión diferente.

¿Por qué querrías ser un científico de datos si lo que te detiene es aprender un lenguaje de programación? Más que eso, uno muy relevante.

Tengo que aprender algo nuevo constantemente. Lenguajes, algoritmos, técnicas, cosas de negocios. El aprendizaje es el corazón de la ciencia de datos. Es un camino interminable.

Sabiendo eso, ¿quieres ser un científico de datos? ¿Qué sucederá cuando tenga que hacer un seguimiento de ese análisis que hizo en Excel? ¿O cuando tiene que escribir su propio código para equilibrar un conjunto de datos no balanceado? ¿Qué sucede si crea un buen producto predictivo y luego no puede ponerlo en funcionamiento para aceptar un millón de solicitudes?

Personalmente, no creo que la ciencia de datos sea posible sin codificación, pero incluso si voy por una tangente y admito que hay muchas herramientas que permiten resultados parciales, creo que se limitará a lo que puede hacer ahora, al estimar qué podrías hacer si tomas ese paso.

El crecimiento ocurre fuera de la zona de confort. Abraza eso. La codificación es en realidad la parte fácil.

Es una gran pregunta Quiero decir, hace pensar o investigar un poco. Pensar en los problemas de flujo de datos. Si es posible. Personalmente, no me gustaría ir en esa dirección.

Dicho esto … echemos un vistazo al mercado laboral, ya que se está preguntando si puede ser un Científico de Datos sin Python, ¡por lo tanto, necesitaría ser empleado como uno!

Así que tomémoslo desde ese ángulo. Obviamente, tendrá que personalizar esta búsqueda a donde desea ser empleado como Data Scientist.

Búsqueda de científicos de datos al 12/12/2015 17:33:00 (533PM CST 12 de diciembre de 2015) en el área de San Francisco, CA (dentro de 20 millas) sin limitaciones a un lenguaje de programación, la búsqueda devuelve 101 trabajos de científico de datos . Vea abajo…

Al quitar python (agregando “-python”) a esa misma ubicación de búsqueda, mi búsqueda devuelve 45 trabajos de Data Scientist . Si vivieras en SF, reducirías tus oportunidades en MÁS de la mitad con esa ÚNICA herramienta.

Dice no incluye TODOS los trabajos de ninguna manera. Sin embargo, es un indicador bastante bueno en cuanto a las proporciones y densidades de trabajos en relación con la ubicación y las tecnologías.

Para buscar su propia moficación específica, haga lo siguiente:

1. Vaya a http://www.dice.com/

2. Ingrese en su ubicación: Ciudad, Estado

3. Ingrese en la barra de búsqueda: (“Data Scientist” o “Data Science”), -python

4. Ahí está tu mercado laboral.

Tomaría un vistazo para ver si requieren otras tecnologías que dependen de Python, por ejemplo, solo pueden mencionar Matplotlib, Pandas, Scikit-Learn, etc. y aunque no digan Python, son específicas de Python bibliotecas

En los últimos meses tuve la oportunidad de interactuar con talentos de ingeniería que comenzaron su viaje como ingeniero de ciencia de datos o planeaban hacerlo. Muchos de ellos son de origen no programado. Lo que observé fue que las personas con antecedentes en estadísticas también tenían mucha facilidad para escribir algoritmos. Se sentían más cómodos con R. Actualmente, R es el segundo mejor idioma elegido por la industria para la ciencia de datos. Personalmente, creo que Python es mejor y siempre te sugiero que lo aprendas. Obviamente no necesitas saber todo en Python. En base a mi aprendizaje, puedo enumerar los conceptos que debe aprender en Python si desea ser un científico de datos.

  • Introducción a Python para Data Science
  • Python intermedio para ciencia de datos
  • Importar datos en Python
  • Fundación Pandas
  • Pensamiento estadístico en Python
  • Caja de herramientas de ciencia de datos de Python
  • Introducción a las bases de datos en Python
  • Manipulación de marcos de datos con pandas
  • Introducción a la visualización de datos con Python
  • Visualización interactiva de datos con Bokeh
  • Análisis de red en Python
  • Fusionar marcos de datos con pandas

Dicho esto, encontrarás información más detallada si buscas en google / youtube más cosas.

Pero hay un aspecto más que necesita un pensamiento serio para garantizar que sea lucrativo en cualquier mercado laboral.

Cuando su enfoque es la habilidad única, aprender de los cursos en línea funciona mejor. Pero el dominio como la ciencia de datos exige habilidades en las que uno tiene que orquestar herramientas, técnicas y procesos en múltiples niveles (matemático, computacional, algorítmico), aprender en línea sin tutoría activa sería un desafío. Los programas basados ​​en persona sin conexión son más adecuados.

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes construyeron proyectos sobre el conjunto de datos REAL y las declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y se basa en la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

¡Sí, sin aprender Python puedes convertirte en un científico de datos!

Aconsejaría tener un conocimiento de excelencia en sus habilidades. Excel con su amplia gama de funciones lo ayuda a generar información a partir de los datos.

Sin embargo, generalmente si una organización usa Excel, generalmente se usa en TODA la compañía. Gran ventaja Eso significa que en una gran empresa, miles de analistas pueden hablar el mismo idioma y compartir ideas, incluso al mismo tiempo. Diferentes niveles incluidos; desde el reportero básico hasta el usuario sofisticado de datos. Muy pocas herramientas pueden reclamar esa cantidad de alcance entre varios niveles de usuarios en toda la empresa.

Si bien la interfaz es simple, se puede ampliar a través de complementos para escala (PowerBI), funcionalidad (StatTools para mejores estadísticas), visualización (tablero de instrumentos, PowerBI, Plotly, minigráficos y automatización (Autohotkey) etc. Muchos de los complementos- Los complementos son de código abierto.

Excel es una herramienta fenomenal para el análisis de datos, y casi todos lo usan. ¿Quiere saber más sobre los usos de Excel como un conjunto de habilidades para el analista de datos? Descargue un plan de estudios detallado y hable con nuestros expertos en análisis de datos.

Espero que esto ayude.

Un científico de datos debe ser capaz de extraer, manipular y mostrar datos de manera efectiva para ayudar a tomar decisiones comerciales. Todo esto se puede hacer sin Python, aunque el conocimiento de Python o un lenguaje de programación similar realmente puede ayudar porque te equipa con un conjunto de herramientas que hacen que este trabajo sea más fácil.

En algunas empresas, Python es necesario porque sus flujos / desarrollo de datos están escritos en Python y, por lo tanto, sin saberlo, sería difícil integrar cualquier trabajo que realice con el resto de la infraestructura de la empresa. Actualizar o mantener cualquier código existente también podría ser un desafío.

Casi todo lo que Python hará por usted se puede hacer en otro lugar, aunque tal vez no sea tan rápido o fácil, por lo que si bien no es necesario aprenderlo, sin duda es muy útil.

En mi opinión, las herramientas vienen después de la teoría y la lógica. Aprender la teoría detrás de cómo funcionan varios algoritmos de aprendizaje automático y minería de datos es fundamental. Esto le dará una idea de cómo comenzar a resolver el problema de la ciencia de datos en cuestión. Las herramientas vienen después de eso.

En cuanto a su pregunta, R es más adecuado para ML que Python, ya que se desarrolló como un lenguaje estadístico, mientras que Python comenzó como un lenguaje de script de propósito general y luego se extendió a ML. R tiene muchos paquetes (cerca de 8000) para ML mientras que Python tiene menos, (los más importantes son Numpy, Scipy, Scikit-learn, Pandas) aunque se está poniendo al día.

En mi lugar de trabajo, R es la herramienta principal que utilizamos. Y estaba usando Python en mi lugar de trabajo anterior, así que sí, depende principalmente del tipo de proyecto que esté haciendo. Le aconsejaría que también elija Python, ya que siempre es beneficioso. Cuanto más equipado esté, mejor será. Y aprender Python no debería ser tan difícil. Puede comenzar con esta inmersión en Python o la clase Python de Google y luego aprender los paquetes ML para Python, una buena fuente sería este Un tutorial completo para aprender ciencia de datos con Python desde cero.

Debería ser NO.

Se supone que un científico de datos debe conocer e implementar y crear modelos de aprendizaje automático. Para eso, uno necesita saber lenguajes de programación como R o Python. Sin embargo, hay pocas herramientas disponibles para realizar análisis de datos y aprendizaje automático, incluso cuando no conoce ninguna programación.

Algunos de ellos son:

‘Weka

Microsoft Excel

Microsoft Azure ML (que está basado en la nube)

naranja

Rapidminer

Si tiene que hacer un análisis de una manera mucho más fina, debe buscar lenguajes de programación.

Por supuesto que puede. Las herramientas son siempre secundarias a la ciencia.

Dicho esto, Python es increíblemente útil para la mayoría de las tareas que los científicos de datos buscan realizar. El paquete pandas (Python Data Analysis Library) sirve como una parábola para R y SQL en Python, mientras que el paquete scikit-learn (scikit-learn: machine learning en Python) ofrece una herramienta versátil para resolver programas de aprendizaje automático.

Además de eso, Python es bastante fácil de aprender (utilicé Code Academy: Python) y útil como puerta de entrada a la programación general, además de la ciencia de datos.

Esta respuesta proporciona más detalles: la respuesta de Satvik Beri a ¿Es Python el lenguaje de programación más importante para aprender para los aspirantes a científicos de datos y mineros de datos?

Absolutamente. Python es una herramienta, hay muchas otras. Hago ciencia de datos, pero no conozco Python más que editar el código de otra persona. Mis herramientas de acceso son R, JavaScript (!) Y Perl.

Mucho depende de qué parte de la ciencia de datos le interese. La discusión de textos pesados ​​suele ser mejor en Perl. El cálculo pesado es excelente en R. Frontales web y visualización, JavaScript es difícil de superar (también lo uso en el lado del servidor, porque Node.js es rápido de escribir y muy eficiente).

El otro lenguaje clave es SQL: es excelente para la remodelación de datos básicos a gran escala (es decir, más grande que la memoria de una máquina). Lo uso mucho.

Finalmente, los lenguajes de programación siempre van y vienen. Cuando me gradué, COBOL todavía estaba en uso activo. No es una buena idea fijar una carrera en un idioma. Solo juega con todos, Python incluido.

Absolutamente. Python es un lenguaje de programación útil que tiene un buen conjunto de bibliotecas para “ciencia de datos”. No es el único idioma con tales bibliotecas. Además, existen otras herramientas además de lenguajes de programación (por ejemplo, Salford Predictive Modeler, IBM / SPSS Clementine, RapidMiner, KNIME, weka, etc.) para “ciencia de datos”.

Un “científico de datos” resuelve problemas utilizando las herramientas apropiadas. Un “científico de datos” utiliza una herramienta particular porque es apropiada para el trabajo en cuestión.

Por supuesto que puede, pero sería muy beneficioso para usted aprender otro lenguaje de programación como R. Aquí tiene un excelente recurso para ingresar al campo:

R para ciencia de datos

http://r4ds.had.co.nz/

Por supuesto. No tienes que tocar un Python para ser el elegido. La pregunta es ¿qué más sabes? Esperaría una sólida formación en un lenguaje estadístico / numérico: R, SAS, State o MATLAB, y una buena experiencia en un lenguaje de propósito general como Java, Python, Go, C / C ++.


Python es probablemente el mejor como lenguaje “puente”, pero de ninguna manera es un requisito previo para el científico de datos.

Técnicamente, Python no es un requisito absoluto para proyectos o trabajos de ciencia de datos. También hay muchos buenos científicos de datos que utilizan principalmente R (95% del tiempo) en su trabajo.

Dicho esto, Python es uno de los idiomas más fáciles de aprender, pero se ha vuelto cada vez más útil, especialmente en el campo de los datos. Creo que siempre es una ventaja para usted si lo aprende, lo conoce bien o lo domina: los beneficios son mucho más sustanciales que el costo de aprender por sí mismo.

Le hago la pregunta: ¿por qué no lo harías? Es un lenguaje bastante fácil de aprender y tiene bibliotecas científicas estelares. Debido a que es un lenguaje interpretado, es ideal para explorar. Si ya es un programador experimentado, tómese un par de fines de semana y siga el curso en línea de Google ( https://developers.google.com/ed …).

No creo que puedas ser científico de datos sin aprender Python.
Python está evolucionando mucho, especialmente en el campo de proporcionar paquetes en estadísticas.
Python viene con muchas bibliotecas proporcionadas previamente por R.
Así que siento que Python pronto se convertirá en el lenguaje más utilizado en el campo de la ciencia de datos.

Sin embargo, la decisión depende de lo que desea utilizar al final del día.
R vs Python para Data Science: el ganador es …

Espero que esto ayude. Si es así, favor de votar.

Por supuesto que puede.
Pero tienes que aprender al menos un lenguaje de programación.
Además de Python, puedes probar, lenguaje de programación R, Matlab

En general, tiene dos trabajos para lograr sus objetivos. Primero, haga un plan, me refiero al algoritmo. En segundo lugar, hacer realidad el plan, me refiero a la ingeniería sobre el código.

En realidad, puede hacer una gran cantidad de minería de datos en estos días sin conocer ninguna programación. Simplemente lo limita a trabajar dentro de una suite que maneja eso por usted. Algo como rapidminer o alteryx no requiere mucho código y el código está en sus propios idiomas de todos modos.

Por supuesto, Java es otra opción.

Sí puedes … pero,

Los DS son como los hackers. Es mejor tener múltiples herramientas a su disposición, sin embargo, depende de usted y de su carrera profesional. Solo recuerde que puede llevar un poco más de tiempo y / o más trabajo solo sabiendo un idioma.

No puedes ser un científico de datos solo aprendiendo Python. Puedes ser un científico de datos si no conoces Python pero conoces bien cualquier otro lenguaje de programación.