Cómo comenzar una carrera en ciencia de datos

Paso 1: Aprender los conceptos básicos para python: Python es un lenguaje fácil de comenzar, pero dominar las expresiones idiomáticas lleva tiempo como cualquier otro idioma. Entonces, como principiante, primero debe comprender todos los conceptos básicos del idioma y un buen comienzo sería seguir estos tutoriales: Tutorial Points y Google Python Class Learn Python the Hardway (libro)

Paso 2: Estadística básica y matemática: recomendaría aprender estadísticas con un fuerte enfoque en codificar ejemplos, preferiblemente en Python o R.

Paso 3: Python para el análisis de datos: una vez que haya terminado con el Paso 1 y el Paso 2, entonces es hora de ensuciarse las manos con algunas cosas reales, aprenda a instalar Anaconda, el cuaderno Jupyter, paquetes de Python como Numpy, Pandas, Matplotlib, Seaborn, etc. .

Paso 4: Aprendizaje automático : se clasifica en las siguientes dos categorías:

(i) Aprendizaje supervisado (algoritmos paramétricos / no paramétricos, máquinas de vectores de soporte, núcleos, redes neuronales).

(ii) Aprendizaje no supervisado (agrupación, reducción de dimensionalidad, sistemas de recomendación, aprendizaje profundo), instalar la biblioteca Python Scikit Learn para practicar el aprendizaje automático en Jupyter Notebook

Paso 5: Practique : realice tantas competencias de Kaggle como pueda, inicie su blog y ponga sus proyectos en github o bitbucket. Esto es solo un camino difícil: puede cambiar la secuencia según sus necesidades.

Espero eso ayude.

Saludos,

Ciencia de datosEmpleos y carrerasEmpleos y carreras en Ciencia de datosOrientación laboral

¿Cómo es ser un científico de datos en Evernote?

¿Qué tan difícil es obtener una pasantía de científico de datos con el estado F-1?

¿Cuál es la diferencia entre un analista de datos y un ingeniero de aprendizaje automático?

¿Cuáles son las diferencias en el trabajo realizado por un analista de datos y un científico de datos en Netflix?

¿Cuáles son las posibles compañías futuras si quieres ser un científico de datos en el campo de la salud (especialmente la neurociencia)?

¿Qué es mejor, la nube o los científicos de datos?

Elegir una carrera adecuada y tener éxito en ella es una gran pregunta en el creciente mercado analítico actual, una de esas nuevas tendencias es la ciencia de datos.

La ciencia de datos implica una combinación de ciencias de la computación, matemáticas y observador de tendencias, su trabajo es descifrar grandes datos y hacer un análisis más profundo para impulsar la compañía con éxito.

La industria de nicho está en su apogeo y está pensando en desarrollar una Carrera en Ciencia de Datos, este es el momento adecuado para aprovecharla.

¿La educación que necesitas?

No podrá aprovechar una oportunidad hasta y, a menos que tenga conocimiento al respecto, para desarrollar una carrera en habilidades de ciencia de datos que necesite aprender.

Matemáticas Aplicadas.
Programación y comunicación.
Capacidad para probar hipótesis.
Lenguajes que incluyen Python, Hadoop, SQL, R, SPSS y tableau.

Además de las habilidades mencionadas anteriormente, debe tener un título en:

Matemáticas / ciencia / investigación operativa / economía o en tecnología de la información.

Para ganar más en el campo de la ciencia de datos, puede optar por Ph.D. en un campo similar o puede obtener un curso en línea sobre ciencia de datos para construir más conocimiento.

Si es ingeniero de software, le resultará fácil activar la ciencia de datos, ya que la mayor parte del trabajo implica la programación y el análisis.

¿Dónde puedes postular?

Con un estimado de 190,000 escasez de científicos de datos solo en EE. UU., Muestra que elegir Carrera en Ciencia de Datos es uno de los derechos profesionales más lucrativos ahora .

Los campos que puede elegir son:

Arquitecto de datos:

Trabajan en estrecha colaboración con un usuario, desarrollador y diseñador de sistemas al crear un plan para que puedan integrar, mantener, centralizar y proteger las fuentes de datos.

Analista de inteligencia empresarial:

El trabajo del analista de inteligencia empresarial es analizar los datos y aclarar dónde se encuentra la empresa, también ayudan a descubrir las tendencias del mercado y del negocio.

Ingeniero de minería de datos:

El ingeniero de minería de datos también analiza los datos y crea un algoritmo para construir un análisis de datos adicional en el futuro.

Científico de datos:

Ayudan a traducir el caso de negocio en una agenda analítica al comprender los datos, desarrollar hipótesis y explorar patrones estadísticos para medir el impacto del mismo en los negocios.

También hacen un análisis para referencias futuras y explican qué datos afectarán a la compañía en el futuro y también para encontrar la solución para impulsar una compañía más.

Científico de datos sénior:

El científico de datos senior analiza más a fondo las necesidades futuras del negocio. Su tarea es resolver un problema empresarial altamente complejo de manera eficiente. Aunque tienen mucha más experiencia, sus habilidades ayudan a una empresa a impulsarlo aún más con nuevos estándares.

Ingeniero de datos:

El ingeniero de datos confía principalmente en tecnologías de software y tiene experiencia para manejar gran cantidad de datos de manera eficiente. Se centran más en la codificación, la implementación del formulario de solicitud científico de datos y en la limpieza del conjunto de datos.

Prácticamente cuando uno toma datos del científico de datos y los implementa en código, él / ella está desempeñando un papel de ingeniero de datos.

Salario:

Hablando del salario, uno que sigue su carrera en ciencia de datos, el científico de datos con el salario más bajo puede ganar 60,000 $ y más, y puede imaginarse una vez que estabilice una Carrera en Ciencia de Datos .

Eswar

Estrictamente hablando, no existe la “ciencia de datos” (ver ¿Qué es la ciencia de datos?). Ver también: Vardi, Science tiene solo dos patas: http://portal.acm.org/ft_gateway …

Aquí hay algunos recursos que he recopilado sobre el trabajo con datos, espero que les sean útiles (nota: soy un estudiante universitario, esta no es una opinión experta de ninguna manera).

1) Aprenda sobre factorizaciones matriciales

Tome el curso de álgebra lineal computacional (a veces se llama álgebra lineal aplicada o computaciones matriciales o análisis numérico o análisis matricial y puede ser un curso de CS o matemática aplicada). Los algoritmos de descomposición matricial son fundamentales para muchas aplicaciones de minería de datos y generalmente están subrepresentados en un plan de estudios estándar de “aprendizaje automático”. Con TBs de datos, las herramientas tradicionales como Matlab dejan de ser adecuadas para el trabajo, no puede simplemente ejecutar eig () en Big Data. Los paquetes de cálculo de matriz distribuida como los incluidos en Apache Mahout [1] están tratando de llenar este vacío, pero debe comprender cómo funcionan los algoritmos numéricos / rutinas LAPACK / BLAS [2] [3] [4] [5] para poder úselos adecuadamente, ajústelos para casos especiales, cree los suyos propios y escale hasta terabytes de datos en un grupo de máquinas de productos básicos. [6] Por lo general, los cursos numéricos se basan en álgebra y cálculo de pregrado, por lo que debe ser bueno con los requisitos previos. Recomendaría estos recursos para auto estudio / material de referencia:
Ver Jack Dongarra: Cursos y ¿Cuáles son algunos buenos recursos para aprender sobre análisis numérico?

2) Aprenda sobre computación distribuida

Es importante aprender cómo trabajar con un clúster de Linux y cómo diseñar algoritmos distribuidos escalables si desea trabajar con grandes datos (¿Por qué la obsesión actual con los grandes datos, cuando generalmente son más grandes los datos, se hace más difícil incluso? análisis básico y procesamiento?).
Crays y máquinas de conexión del pasado ahora se pueden reemplazar con granjas de instancias de nube baratas, los costos de computación se redujeron a menos de $ 1.80 / GFlop en 2011 frente a $ 15M en 1984: http://en.wikipedia.org/wiki/FLOPS .
Si desea sacar el máximo provecho de su hardware (alquilado), también es cada vez más importante poder utilizar toda la potencia del multinúcleo (ver http://en.wikipedia.org/wiki/Moo…)
Nota: este tema no forma parte de una pista estándar de Machine Learning, pero probablemente pueda encontrar cursos como Sistemas distribuidos o Programación paralela en su catálogo CS / EE. Vea los recursos informáticos distribuidos, un curso de sistemas en UIUC, trabajos clave y para empezar: Introducción a las redes informáticas.
Después de estudiar los conceptos básicos de las redes y los sistemas distribuidos, me enfocaría en las bases de datos distribuidas, que pronto se volverán omnipresentes con el diluvio de datos y alcanzarán los límites de la escala vertical. Vea trabajos clave, tendencias de investigación y para empezar: Introducción a las bases de datos relacionales e Introducción a las bases de datos distribuidas (HBase en acción).

3) Aprenda sobre el análisis estadístico

Comience a aprender estadísticas codificando con R: ¿Cuáles son las referencias esenciales para R? y experimentar con datos del mundo real: ¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?
Cosma Shalizi compiló algunos excelentes materiales sobre estadísticas computacionales, revisó sus diapositivas de conferencias y también ¿Cuáles son algunos buenos recursos para aprender sobre análisis estadístico?
Descubrí que aprender estadísticas en un dominio particular (por ejemplo, procesamiento del lenguaje natural) es mucho más divertido que tomar Stats 101. Mi recomendación personal es el curso de Michael Collins en Columbia (también disponible en Coursera).
También puede elegir un campo donde el uso de estadísticas cuantitativas y principios de causalidad [7] es inevitable, por ejemplo, biología molecular [8], o un subcampo divertido como la investigación del cáncer [9], o incluso un dominio más estrecho, por ejemplo, análisis genético de angiogénesis tumoral [10] y trata de responder preguntas importantes en ese campo en particular, aprendiendo lo que necesitas en el proceso.

4) Aprenda sobre la optimización

Este tema es esencialmente un prerrequisito para comprender muchos algoritmos de Machine Learning y Signal Processing, además de ser importante por derecho propio.
Comience con las conferencias en video de Stephen P. Boyd y también ¿Cuáles son algunos buenos recursos para aprender sobre la optimización?

5) Aprenda sobre el aprendizaje automático

Antes de pensar en algoritmos, observe cuidadosamente los datos y seleccione las características que lo ayudan a filtrar la señal del ruido. Vea esta charla de Jeremy Howard: en Kaggle, es una desventaja saber demasiado
Consulte también ¿Cómo aprendo el aprendizaje automático? y ¿Cuáles son algunos recursos introductorios para aprender sobre el aprendizaje automático a gran escala? ¿Por qué?
Estadísticas vs. aprendizaje automático, lucha !: http://brenocon.com/blog/2008/12…
Puede estructurar su programa de estudios de acuerdo con los catálogos de cursos en línea.
y planes de estudio de MIT, Stanford u otras escuelas superiores. Experimentar con
muchos datos, piratear algún código, hacer preguntas, hablar con buenas personas, configurar un rastreador web en su garaje: la anatomía de un motor de búsqueda
Puede unirse a una de estas nuevas empresas y aprender haciendo: ¿Qué nuevas empresas están contratando ingenieros con fortalezas en aprendizaje automático / PNL?
La opción alternativa (y bastante cara) es inscribirse en un CS
programa / pista de Machine Learning si prefieres estudiar en un curso formal
ajuste. Ver: ¿Qué hace que valga la pena un Máster en Informática (MS CS) y por qué?
Intenta evitar la sobreespecialización. El enfoque de amplitud a menudo funciona mejor cuando se aprende un nuevo campo y se enfrentan problemas difíciles, vea el Segundo viaje del HMS Beagle sobre las aventuras de un ingenioso joven minero de datos.

6) Aprenda sobre la recuperación de información

El aprendizaje automático no es tan bueno como parece: http://teddziuba.com/2008/05/mac …
¿Cuáles son algunos buenos recursos para comenzar el entrenamiento de Recuperación de información y por qué se prefieren estos sobre otros?

7) Aprenda sobre la detección y estimación de señales

Este es un tema clásico y “ciencia de datos” por excelencia en mi opinión.
Algunos de estos métodos se utilizaron para guiar la misión Apolo o detectar
submarinos enemigos y todavía están en uso activo en muchos campos. Esto es
a menudo parte del plan de estudios de EE.
Buenas referencias son las diapositivas de la conferencia de Robert F. Stengel sobre control y estimación óptimos: Página de inicio de Rob Stengel, Señales y sistemas de Alan V. Oppenheim. y ¿Cuáles son algunos buenos recursos para aprender sobre la estimación y detección de señales? Un buen tema para enfocarse primero es el filtro de Kalman, ampliamente utilizado para el pronóstico de series temporales.
Hablando de datos, es probable que desee saber algo sobre la información: su transmisión, compresión y filtrado de la señal del ruido. Los métodos desarrollados por los ingenieros de comunicación en los años 60 (como el decodificador Viterbi, que ahora se usa en aproximadamente mil millones de teléfonos celulares, o la wavelet de Gabor ampliamente utilizada en el reconocimiento de Iris) son aplicables a una sorprendente variedad de tareas de análisis de datos, desde la traducción automática estadística hasta la comprensión del organización y función de redes moleculares. Un buen recurso para empezar es la teoría de la información y la comunicación confiable: Robert G. Gallager: 9780471290483: Amazon.com: Libros. ¿Cuáles son algunos buenos recursos para aprender sobre teoría de la información?

8) algoritmos maestros y estructuras de datos

¿Cuáles son los recursos más fáciles de aprender para aprender sobre algoritmos?

9) práctica

Ponerse en forma para el deporte de la ciencia de datos
Carpintería: http://software-carpentry.org/
¿Cuáles son algunos buenos problemas con los juguetes (un solo codificador puede hacer durante un fin de semana) en ciencia de datos? Estoy estudiando el aprendizaje automático y las estadísticas, y estoy buscando algo socialmente relevante utilizando conjuntos de datos / API disponibles públicamente.
Herramientas: ¿Cuáles son algunas de las mejores herramientas de análisis de datos?
¿Dónde puedo encontrar grandes conjuntos de datos abiertos al público?

Si decides ir a una maestría:

10) estudiar ingeniería

Iría por CS con un enfoque en IR o Machine Learning o una combinación de ambos y tomaría algunos cursos de sistemas en el camino. Como “científico de datos”, tendrá que escribir una tonelada de código y probablemente desarrollar algoritmos / sistemas distribuidos para procesar cantidades masivas de datos. La Maestría en Estadística le enseñará cómo hacer análisis de modelado y regresión, etc., no cómo construir sistemas, creo que esto último se necesita con más urgencia en estos días ya que las herramientas antiguas se vuelven obsoletas con la avalancha de datos. Hay una escasez de ingenieros que puedan construir un sistema de minería de datos desde cero. Puede recoger estadísticas de libros y experimentos con R (consulte el punto 3 anterior) o tomar algunas clases de estadísticas como parte de sus estudios de CS.

Buena suerte.

[1] http://mahout.apache.org/
[2] http://www.netlib.org/lapack/
[3] http://www.netlib.org/eispack/
[4] http://math.nist.gov/javanumeric …
[5] http://www.netlib.org/scalapack/
[6] http://labs.google.com/papers/ma …
[7] Amazon.com: Causalidad: modelos, razonamiento e inferencia (9780521895606): Judea Pearl: Libros
[8] Introducción a la biología, video conferencias MIT 7.012
[9] Hanahan y Weinberg, The Hallmarks of Cancer, Next Generation: Page on Wisc
[10] La organización caótica de la vasculatura asociada a tumores, de The Biology of Cancer: Robert A. Weinberg: 9780815342205: Amazon.com: Books, p. 562

Abhishek Chandak

Gracias por el A2A.

Diría que la mejor manera de comenzar una carrera en análisis de datos en India es unirse a una de las firmas de análisis líderes como analista de nivel de entrada y luego aprender las habilidades en el trabajo. Esto lo ayudará a obtener una exposición directa a la industria y también a aprender habilidades relevantes más rápido, ya que estará en un entorno laboral. La mayoría de las empresas líderes en este espacio: Mu Sigma, asociados de ZS, Tredence, Fractal no requieren ningún requisito previo para el trabajo de analista de nivel básico y ofrecen excelentes oportunidades de aprendizaje. Luego puede continuar con una de estas compañías o cambiar después de 2-3 años una vez que tenga el conjunto de habilidades requerido.

Eche un vistazo a otra de mis respuestas a una pregunta similar también:

¿Cómo se debe comenzar una carrera en análisis? ¿Necesitamos hacer algún master o es auto prepararse … por Abhishek Chandak https://www.quora.com/How-should-one-start-a-career-in-analytics-Do-we-need-to- do-any-masters-or-is-it-self-preparación / respuesta / Abhishek-Chandak? srid = iGvn & share = 92a85f68

Espero que esto ayude.

Manish Kulkarni

Si no tiene un título, obtenga uno, preferiblemente a nivel de posgrado (el 90% de los científicos de datos de EE. UU. Tienen al menos un título de maestría, que se requiere para la mayoría de los trabajos)

Aprenda todo lo que pueda en matemáticas y estadística, idealmente un nivel de posgrado en estadística y teoría de la probabilidad y una base sólida en cálculo universitario y álgebra lineal. Los científicos de datos son básicamente estadísticos que trabajan con conjuntos de datos grandes y complicados y herramientas más nuevas, como algoritmos de aprendizaje automático y computación distribuida.

Aprenda acerca de los algoritmos de aprendizaje automático a través de la lectura de documentos (consulte aquí: https://www.slideshare.net/Colle …) y su implementación en datos de código abierto (repositorio UCI, conjuntos de datos de Kaggle …).

Giuliano Altobelli

Estaba pensando en escribir mi propia respuesta a esto, pero resoné con una respuesta a una pregunta muy similar de Sean McClure aquí:

La respuesta de Sean McClure a ¿Dónde empiezo si quiero hacer aprendizaje automático / IA como analista desarrollador? Tengo un bachillerato científico (matemáticas), pero han pasado 3 años desde que dejé de hacer matemáticas.

TLDR; Simplemente comience resolviendo un problema (por ejemplo, en Kaggle)

Espero que esto ayude 🙂

Abhishek Chandak

Idealmente, debe adquirir las siguientes habilidades:

1. Modelado matemático

2. Lenguajes de computadora para crear y expresar algoritmos

3. Visualización de datos

4. Habilidades de comunicación

5. Perspicacia empresarial

Pocos cursos / certificaciones en línea también ayudarán. Lea más sobre las 5 habilidades principales para iniciar su carrera de análisis de datos y cómo desarrollarlas

Divya

La ciencia de datos es un campo bastante complejo y abarca muchas funciones como minería de datos, inteligencia empresarial, big data, análisis de datos, etc. Por lo tanto, es imprescindible que decida qué función de trabajo le conviene más.

Idealmente, estas son estas 6 habilidades en demanda que se necesitan para comenzar una carrera en el ámbito de la ciencia de datos:

Hadoop, Python, R, Java, Machine Learning y SQL.

Además, se necesita una calificación de educación formal para ser un candidato exitoso a un puesto de Data Science. Hay innumerables opciones disponibles para elegir. Muchos están disponibles en línea.

Además, cuando esté explorando sus opciones, PG Diploma in Data Science ofrecido por Manipal ProLearn es una gran opción. Es muy relevante y a los estudiantes se les ofrece apoyo de colocación al completar con éxito el curso.

Divya

Busqué este tipo de respuesta muchas veces y nunca encontré una buena, pero aquí está la mía.

Después de intentar aprender Python, R y cosas como las delgadas y después de leer libros como “Data Science for Business” y “Data Science from Scratch”, comencé en Udacity un curso llamado “Predictive Analytics for Business”. Bueno, fue la mejor elección que hice.

En este curso estoy aprendiendo muchas cosas, pero lo más importante, estoy aprendiendo cómo funcionan muchas cosas en el análisis de datos.

Por ejemplo, aprendí qué es y cómo funciona cosas como los algoritmos de Regresión lineal, Regresión logística, Árbol de decisión, Bosque Randon y Modelo de impulso. Y lo más importante, estoy aprendiendo cómo todas estas cosas están conectadas con la ciencia de datos y cómo usarlas para resolver problemas comerciales del mundo real. Y esto es todo acerca de la ciencia de datos. Resuelve problemas reales.

Si no obtienes una visión general completa de estas cosas, intenta inútilmente aprender Python, R o todas estas cosas.

Giuliano Altobelli

Comience sus cursos en la era del curso y practique más sobre minería de datos, programación R, mongo db. Comprenda cómo funciona y cómo puede comprender la ciencia detrás de esto. Más importante aún, aprenda las mejores prácticas.

Hadoop es un maravilloso. Pero al entrar en algo, primero aprende la teoría. La era del curso proporciona la mejor plataforma. Google go también es un idioma maravilloso.

Primero complete cualquier curso y sígalo de todo corazón.

Aman Sharma

Hay muchas ramas en Data Science. Como principiante / principiante, debe aprender los fundamentos de DS, Machine Learning, Programación R, clústeres Hadoop y Mongo DB.

Siempre es mejor comenzar desde el pequeño en lugar de golpear la gran cubierta. Comience a buscar la carrera como analista de datos o ingeniero de datos donde estará expuesto a los problemas en tiempo real que surgen con los datos.

Eswar

Al obtener una pasantía o un trabajo de posgrado.

Si tiene alguna experiencia en otro trabajo relacionado (digamos analista de datos), puede hacer la transición a un puesto junior.

¿Cómo llegar allá?

Aplicando a la posición apropiada y pasando algunas entrevistas.

En pocos meses, comenzará su carrera de ciencia de datos.

La mejor de las suertes.

Aman Sharma

Aprender las matemáticas
Aprende las estadísticas
Aprenda R, Python y SQL
Ve a Kaggle y trabaja en proyectos
Intenta conseguir una pasantía

Todo esto llevará tiempo si no tienes un título en Matemáticas o Ingeniería, y para ser honesto, la ciencia de datos está comenzando a ser bastante competitiva, por lo que tendrás que comenzar a competir contra candidatos más calificados.

Eswar

Hay tanto material sobre esto que no estoy realmente seguro de por qué sigue siendo una pregunta activa; Enchufaré mi propia respuesta a ¿Cómo se pasa de la ciencia social a la ciencia de datos para dar otra dimensión a la discusión?

Francamente, sin embargo, toda la información ya está allí.

Eswar

Hay varios cursos para la ciencia de datos de forma gratuita.

Tratar

http://www.coursera.com

Udemy: cursos en línea en cualquier momento y en cualquier lugar

Obtenga los conceptos básicos correctos y luego puede moverse en la dirección que desee.

Espero que esto ayude. Si es así, favor de votar.

Manish Kulkarni

More Interesting

Un estudiante de IIT que tiene un IPC bajo de 5, pero tengo interés en Data Science. ¿Cómo podría prepararme para conseguir un buen trabajo en el campo de la ciencia de datos?

¿Qué tan fácil es para un bioestadista con una maestría en Estadística Médica que trabaja en la academia convertirse en un científico de datos en el mundo corporativo?