Cómo conseguir un trabajo como científico de datos si no tengo experiencia previa

Estoy de acuerdo en que Kaggle por sí solo puede ser una ruta ineficaz para convertirse en un científico de datos, por algunas razones:

  • Kaggle se ocupa principalmente del aprendizaje automático, que es solo un aspecto de la ciencia de datos.
  • Cuando trabaja en Kaggle, se trata principalmente de datos previamente limpiados, por lo que no tiene suficiente experiencia en la limpieza de datos desordenados, que es (coloquialmente) el 80% de lo que hace un científico de datos.
  • Debido al gran volumen de personas que ingresan a las competencias de Kaggle, llegar al primer porcentaje o ganar una competencia requiere no solo habilidad, sino mucho tiempo y algo de suerte.

Y hasta cierto punto, también estoy de acuerdo con lo que le han dicho que poner código R / Python en github no tiene sentido, a menos que tenga mucho propósito en qué código poner y cómo .

Lanzar código aleatorio y esperar que alguien lo vea no es un gran enfoque. Poner pensamiento y esfuerzo en la construcción de una cartera completa de proyectos de ciencia de datos es.

En Dataquest, abogamos por construir una cartera de proyectos para ayudar a nuestros estudiantes a obtener sus primeros trabajos de ciencia de datos, y muchos lo han hecho con éxito.

Voy a compartir algunas estrategias, basadas en mi experiencia, para construir una cartera de ciencia de datos que lo hará notar y conseguirá un trabajo.

POR QUÉ HACER UNA CARTERA
La razón por la que un portafolio de ciencia de datos es útil es porque demuestra que usted puede hacer las cosas por las que un empleador quiere contratarlo. Es efectivamente un sustituto de la experiencia laboral que le falta.

Piénselo desde la perspectiva del empleador: quieren maximizar la posibilidad de contratar a un gran candidato y minimizar la posibilidad de contratar a un candidato débil. Como candidato, su trabajo es demostrarles que tiene las habilidades y cualidades que necesitan para ese papel.

Una sólida cartera de ciencia de datos está compuesta por varios proyectos de ciencia de datos de tamaño mediano, que combinados demuestran al empleador que tiene las habilidades clave que están buscando.

COMIENCE POR SER REALISTA
Lo primero que debe tener en cuenta es que es extremadamente raro que el primer rol de alguien en Data Science sea un rol de aprendizaje automático ‘hardcore’.

Este es su primer trabajo en la industria, por lo que debe esperar que lo consideren para los roles Junior, y luego puede progresar progresivamente desde allí.

Es posible que los roles ni siquiera se llamen ‘Data Scientist’, sino algo así como ‘Data Analyst’ o ‘Business Analyst’. Sea humilde y esté dispuesto a hacer lo que sea necesario para ingresar a la industria.

Por esta razón, llenar su cartera con proyectos de aprendizaje automático es un esfuerzo en la dirección incorrecta (aunque recomiendo tener al menos uno). Considere esto cuando piense en qué tipo de proyectos incluir.

TIPOS DE PROYECTOS
Diferentes proyectos pueden demostrar cosas diferentes. Aquí hay algunos tipos diferentes de proyectos que puede construir:

  • Proyecto de limpieza de datos : muestra que puede tomar múltiples conjuntos de datos desordenados, limpiarlos, combinarlos y usarlos para realizar análisis. Ejemplo
  • Proyecto de narración de datos : muestra que puede extraer información de los datos, comunicar estas ideas y razonar con los datos. Ejemplo
  • Proyecto de visualización de datos : muestra que puede comunicar datos visualmente mediante diagramas y gráficos apropiados.
  • Proyecto de aprendizaje automático : muestra que puede construir efectivamente un modelo que haga predicciones precisas con datos Ejemplo
  • Proyecto de extremo a extremo : muestra que puede crear un sistema autónomo que puede tomar datos, procesarlos y producir resultados en una forma específica. Ejemplo
  • Publicación explicativa : muestra que puede comunicarse y explicar bien con los datos al explicar un concepto como un concepto estadístico o un algoritmo de aprendizaje automático

Debe pensar en el tipo de trabajo que desea al seleccionar qué proyectos agregar a su cartera. Como se mencionó anteriormente, no deberían ser todos los proyectos de aprendizaje automático.

Si tiene un interés particular en la visualización de datos, por ejemplo, puede hacer un par de proyectos de visualización de datos y tal vez agregar algunas visualizaciones interactivas para demostrar sus habilidades en esa área.

Debe familiarizarse con los anuncios de los trabajos que va a buscar: ver las habilidades que solicitan y usarlo como una indicación de cómo seleccionar proyectos para su cartera.

Si necesita ayuda para encontrar conjuntos de datos para su proyecto, verificaría este gran recurso: 18 lugares para encontrar conjuntos de datos para proyectos de ciencia de datos.

PRESENTA BIEN TUS PROYECTOS
Un proyecto efectivo no es hacer un análisis y subirlo. Debe dedicar tiempo y esfuerzo para que su proyecto sea fácil de entender y digerir.

Esto significa darle a su proyecto una introducción o un archivo léame. Debe ‘vender’ su proyecto, teniendo en cuenta que es muy posible que su léame sea lo único que algunas personas mirarán. Haga que su proyecto se sienta como si hubiera sido contratado para realizar un proyecto; explique cuál era el objetivo, qué enfoque adoptó, los datos que utilizó y el resultado.

También debe asegurarse de que su archivo Léame tenga instrucciones para instalar o ejecutar su proyecto, de modo que cualquiera que quiera reproducir su trabajo pueda hacerlo fácilmente.

Debido a esto, debe asegurarse de incluir todos los archivos y conjuntos de datos relevantes, así como proporcionar una lista de las bibliotecas necesarias para ejecutar sus proyectos (por ejemplo, un archivo require.txt para un proyecto de Python)

Si su proyecto está compuesto por scripts independientes, debe asegurarse de que sean fáciles de leer y que los comentarios se utilicen en su código para explicar lo que está haciendo y por qué.

Si su proyecto usa cuadernos, agregue un descuento a su proyecto que explique lo que está haciendo e interprete sus resultados a medida que avanza.

Si desea obtener más información sobre cómo presentar su cartera, este artículo es un gran recurso.

CATER PARA DIFERENTES TIPOS DE PERSONAS QUE MIRARÁN SU PROYECTO
Tenga en cuenta que dentro del proceso de contratación, diferentes tipos de personas examinarán su cartera y tendrán diferentes niveles de habilidad y comprensión.

Un gerente de contratación que revise su cartera al inicio del proceso podría tener una comprensión técnica limitada. Debes asegurarte de que haya muchas explicaciones para este tipo de persona, y tal vez incluso considerar poner tus proyectos en un blog y en GitHub para que puedas escribir con más detalle sobre tu proyecto y explicar cómo funciona para alguien con menos experiencia técnica.

Más adelante en el proceso, un gerente de la compañía puede examinar su cartera, y ellos estarán interesados ​​en cómo puede entregar valor a la compañía y comunicarse. Debe asegurarse de que todas sus explicaciones sean claras y que su proyecto cumpla con su objetivo.

Por último, debe esperar que alguien técnico evalúe su cartera. Debe asegurarse de que su código esté limpio, refactorizado y eficiente.

Para diferentes compañías, el proceso de contratación será diferente y algunas de estas personas solo examinarán su cartera. Debes considerar y prepararte deliberadamente para cada uno.

DEJE A LOS EMPLEADORES SABER SOBRE SU CARTERA
Un error común es colocar algunos proyectos en GitHub y luego simplemente agregar la URL de su perfil de GitHub a la parte superior de su currículum. Recuerde que el proceso de contratación es difícil, por lo que debe facilitar que quienes buscan en su aplicación encuentren y evalúen su cartera.

En lugar de simplemente ‘agregar una URL’ y esperar que alguien la encuentre, mencione explícitamente su cartera y proyectos específicos en su carta de presentación. Si llama a alguien por teléfono, mencione su cartera y cómo muestra cómo puede proporcionar valor a la empresa. Aproveche todas las oportunidades que pueda para presentar su cartera.

Otro enfoque efectivo es incluir sus proyectos de cartera en su currículum como si fueran contratos a corto plazo (aunque tenga cuidado de no ser engañoso). Dé un breve resumen del objetivo y las habilidades que demuestra, y proporcione un enlace fácil de seguir.

También ayuda recordar que, en general, se encontrará con menos personas técnicas al comienzo del proceso de contratación y más personas técnicas más adelante, por lo que su aplicación inicial podría incluir su ‘blog’ de cartera de manera más prominente.

TL; DR
Un portafolio es una forma extremadamente efectiva de actuar como un reemplazo de la experiencia cuando busca su primer trabajo de Data Science, sin embargo, solo arrojar algo de código en GitHub no es suficiente.

Debe crear varios proyectos sustanciales que demuestren habilidades específicas que sean relevantes para los trabajos que desea obtener. Debe tomarse el tiempo para presentarlos bien y tener en cuenta los diferentes tipos de personas que verán su cartera en el proceso de contratación.

Por último, debe hacer un esfuerzo para asegurarse de que su cartera sea una parte destacada de su aplicación, y considere presentar sus proyectos de cartera como contratos a corto plazo.


Si te gustó esta respuesta, considera votarla y seguirme.

Trabajo para Dataquest, la mejor plataforma en línea para aprender a ser un científico de datos. Más allá de enseñarle los conceptos que necesita, estamos a favor de un enfoque de aprendizaje basado en proyectos, y tenemos muchos proyectos guiados que pueden formar el comienzo de su cartera de ciencia de datos.

Si eso le interesa, puede inscribirse y completar nuestro primer curso gratis en Dataquest.io

Estoy 100% de acuerdo con Brian y he notado una tendencia de personas que tienen docenas de cursos MOOC y palabras de moda sofisticadas en sus hojas de vida o perfiles de LinkedIn, pero cuando se trata de comenzar con un problema comercial real y aplicar cualquier tipo de metodología científica, claramente tienen No tengo idea de lo que están haciendo. Es casi como si estuvieran demasiado ansiosos por convertir cada problema en lo que hicieron en su competencia o trabajo de curso. Desafortunadamente, después de un corto período de tiempo, la mayoría de las personas decentemente inteligentes e inclinadas pueden identificar cómo tomar una estructura de datos familiar, aplicar un modelo, analizar los residuos e iterar.

Cualquier “científico” de datos reales comenzará en el extremo opuesto identificando la pregunta / problema comercial, encontrando el resultado deseado y luego aplicando los métodos más sólidos necesarios para entregar el mejor resultado posible dadas las restricciones en el conjunto de datos. Es por eso que a menudo se ven muchos DS provenientes de campos cuantitativos o científicos y no siempre de estadísticas, CS o ingeniería (aunque muchos también lo hacen). En términos generales, muchas de estas personas fueron a la escuela en un campo específico, terminaron obteniendo un trabajo donde tuvieron que aplicar su análisis cuantitativo / cualificado específico a preguntas de negocios del mundo real que no eran solo informes y análisis estadísticos. Los diversos paquetes de software, algoritmos, etc., se convirtieron en herramientas necesarias para ejecutar las tareas de sus puestos.

Mientras tanto, muchos por ahí han identificado que las posiciones de DS son muy sexys en este momento porque pagan muy bien, tienen una gran demanda y generalmente están en un punto de influencia en la toma de decisiones dentro de una organización. Todos los que son decentes en matemáticas, estadísticas y / o algún aspecto de la programación quieren pivotar de lo que están haciendo para ganar mucho dinero y sentirse importantes. Al mismo tiempo, los cursos en línea se han vuelto increíblemente populares y por una buena razón, pero en lugar de usarlos para el aprendizaje continuo o para mejorar un conjunto de habilidades existentes, también están tratando de aprender una forma completamente nueva de investigación, resolución de problemas e investigación. métodos, excepto que lo están abordando desde un punto de vista de herramientas que carece de interés genuino real.

Mi investigación académica estaba altamente orientada hacia la clasificación y los datos económicos / demográficos de series temporales. Ahora trato con datos financieros y clasificación, por lo que pude aprovechar la metodología de mi experiencia con la que ya estaba familiarizado y aplicar a un conjunto de problemas similar, pero diferente. Nunca, NUNCA, quise hacer nada remotamente relacionado con lo que estoy haciendo ahora cuando estaba en la escuela o incluso en los años posteriores. Obtuve el título y el rol que tengo porque pude aplicar métodos y técnicas de una manera que fue capaz de resolver un tipo específico de pregunta comercial de una manera clara y concisa que no solo era sólida, sino que en realidad podía informar e influir en el toma de decisiones de mi organización. Mis conjuntos de datos ahora son mucho más grandes y ahora tengo un arsenal más grande de algoritmos de ML que puedo emplear dependiendo del caso de uso, pero la forma en que abordo cada problema y entrego una solución no tiene nada que ver con si uso Naive Bayes o GBM o cualquiera que sea el modelo de palabra de moda “top” más reciente o cuántas competiciones he realizado.

TL; DR- Ayuda tener antecedentes en un campo o área de estudio en el que la investigación sigue el buen método científico con los giros y sabores necesarios o los matices estadísticos y metodológicos relevantes particulares para los tipos de datos con los que está tratando. Esto se arraiga en su proceso de pensamiento y desafortunadamente es más difícil de aprender que los tutoriales sobre código, ajuste de modelos y evaluación, y muchas competiciones (pero debo tener claro que no siento que las personas que hacen estas cosas sean incapaces de alguna manera desarrollar tales habilidades). Los analistas nacen, no se hacen en tutoriales. Los reclutadores están mejorando para identificar esto y es mucho más difícil entrar en un campo cuando en realidad no tienes un historial demostrado aplicando lo que he discutido anteriormente y otros en esta pregunta lo han notado.

Conseguir un trabajo en Data Science no es difícil, pero todo lo que necesita son las habilidades para impulsar su carrera de científico de datos. Hay 8 competencias básicas de ciencia de datos que se requieren para convertirse en un científico de datos.

1. Herramientas de software

Todo profesional requiere un conjunto de herramientas. Los conjuntos de herramientas de Data Scientist se basan en algunos principios básicos. Se trata de limpiar, extraer y comprender los datos. No importa con qué tipo de roles u organizaciones trabaje, es probable que sepa cómo usar las herramientas del oficio. Un lenguaje de programación estadística, como R o Python, y un lenguaje de consulta de bases de datos como SQL y conceptos de Hadoop. Recomendamos encarecidamente el conjunto de herramientas de programación Python. No solo es útil en la extracción de datos, la visualización de datos y el aprendizaje automático. Python es móvil, programación web y un lenguaje de programación del sistema también. Un trabajo de ciencia de datos consiste principalmente en ser 40-50% técnico.

2. Las estadísticas

El objetivo principal de los científicos de datos es observar los datos y comprender su comportamiento. El conocimiento de las estadísticas es una de las habilidades más necesarias como científico de datos. Se le pedirá que tenga menos que una comprensión básica de las estadísticas. Como científico de datos en un proceso de entrevista, debe conocer los conceptos básicos. Algunos de mis colegas científicos de datos me dijeron una vez que muchas de las personas que entrevistaron ni siquiera podían proporcionar la definición correcta de un valor p o Kmean. Familiarícese con las pruebas estadísticas, las distribuciones, los estimadores de máxima verosimilitud, etc. Las estadísticas también ayudan con los casos de aprendizaje automático, pero uno de los aspectos más importantes de su conocimiento estadístico es ayudar a comprender qué técnicas estadísticas ayudan a comprender los datos y su comportamiento en una mejor manera. Las estadísticas son muy importantes para todos los tipos de empresas, especialmente las empresas basadas en datos. En la era actual de los motores de búsqueda, las redes sociales y los dispositivos portátiles. Todos y cada uno de los productos que no están centrados en los datos, las partes interesadas dependerán de su ayuda para tomar decisiones basadas en un enfoque basado en datos.

3. Aprendizaje automático

El aprendizaje automático no es algo nuevo para la industria. Muchos de nosotros hemos aprendido parte de la inteligencia artificial en nuestros estudios universitarios. El aprendizaje automático es el algoritmo que adopta para ingresar datos y ayuda a construir inteligencia de datos sobre los datos. Es importante que un científico de datos conozca un lenguaje de programación como Python para utilizar el aprendizaje automático. El aprendizaje automático está jugando un factor de miedo en muchos nuevos profesionales que desean aprender ciencia de datos. Debe comprender las estadísticas y comprender qué tipo de algoritmos de aprendizaje automático utilizar. Si observa esto, la implementación de un algoritmo de aprendizaje automático no es más que unas pocas líneas de código. La clave en el aprendizaje automático es comprender qué hace un algoritmo y cómo usarlo. Tener una comprensión básica de los vecinos más cercanos k, bosques aleatorios, métodos de conjunto: todas las palabras de moda del aprendizaje automático son muy importantes. Toda esta técnica se puede implementar utilizando pocas líneas de código Python. El requisito de comprensión es conocer el algoritmo básico de aprendizaje automático y cuándo es apropiado usar diferentes técnicas.

4. Álgebra lineal y cálculo multivariable

Esta habilidad es como revisar las matemáticas cuando estabas en la clase de secundaria, pero necesitas esta base antes de comenzar a meterte en la pesada carga del aprendizaje automático y el modelo de estadísticas. ¿Por qué un científico de datos necesita entender estas cosas si hay un montón de implementaciones listas para usar en python scikit-learn? La respuesta a su pregunta es que, en cierto momento, puede valer la pena que un equipo de ciencia de datos desarrolle sus propias implementaciones de aprendizaje automático. El algoritmo de aprendizaje automático adoptará su comportamiento de datos. Para cualquier científico de datos, comprender estos conceptos es importante cuando el producto se define por el enfoque basado en datos, y en los modelos predictivos, esto puede generar grandes ganancias para usted y su empresa.

5. Asalto de datos (trabajo de limpieza)

En el pasado, algunos científicos de datos describieron su trabajo como trabajo de limpieza. Esta afirmación es bastante cierta y muy importante de entender como científico de datos. Lo más importante para un científico de datos es tener un resultado preciso, que consiste en tener primero la mayoría de los datos precisos. Tenemos datos que llegan a nuestro sistema desde todas las direcciones. Organizar datos, extraer datos y almacenar datos es un trabajo de Ingeniería de Datos. Es igualmente importante para un científico de datos tener limpieza y atraco de datos. Python tiene paquetes como Pandas y Matplotlib. Con estos paquetes, puede escribir algunas líneas de código para reemplazar una fila o columna rota. Esto también ayuda a reemplazar los valores en blanco o soltar los valores faltantes. Las empresas no basadas en datos donde el producto no está relacionado con los datos no entenderán cómo los datos pueden ayudarles a hacer crecer su negocio. Esta es una herramienta imprescindible para saber para su crecimiento y el crecimiento de la empresa.

6. Visualización de datos

La visualización de datos es una carrera en sí misma. Si ha sido desarrollador front-end en su carrera anterior. Existen algunas herramientas como D3.js y GPlot, que son herramientas muy efectivas para informar el trazado y la predicción de datos. Para convertirlo en el comunicador más efectivo, visualizar y comunicar datos es increíblemente importante, especialmente para las empresas jóvenes que toman decisiones basadas en datos. La visualización de datos está reemplazando el software y los informes tradicionales del tablero de instrumentos de la vieja escuela. Puede tener una presentación de datos en tiempo real en la web y en su dispositivo móvil. Es muy importante no solo estar familiarizado con las herramientas necesarias para visualizar datos, sino también con los principios detrás de visualizar el proceso de toma de decisiones basado en datos y comunicar información.

7. Ingeniería de software

Existe la carrera por los ingenieros de software y el análisis de datos para llamarse a sí mismos como científicos de datos. Es cierto que necesita conocer una buena ingeniería de software para ser un experto en datos. Si se acerca a una entrevista en una pequeña empresa y es uno de los primeros contratados de ciencia de datos, puede ser importante tener una sólida formación en ingeniería de software. Usted será responsable de manejar una gran cantidad de registros de datos y, posiblemente, del desarrollo de productos basados ​​en datos.

8. Pensar como un científico de datos (Resolución de problemas de varias dimensiones)

Un científico de datos que piensa que la filosofía es muy diferente a un ingeniero u otras profesiones similares. Las nuevas compañías quieren ver que los científicos de datos resuelvan problemas (basados ​​en datos). Esto es en algún momento, durante el proceso de imitación de su proyecto, probablemente se le preguntará acerca de algún problema de alto nivel, por ejemplo, una prueba que la empresa quiera ejecutar o un producto basado en datos que desee desarrollar. Es importante pensar qué cosas son importantes y qué cosas no lo son. ¿Cómo debería, como científico de datos, interactuar con los ingenieros y gerentes de producto? ¿Qué métodos debes usar? ¿Cuándo tienen sentido las aproximaciones? Como científico de datos, tiene la costumbre de ver cualquier problema desde múltiples dimensiones, no en un formato en blanco y negro. Cada problema tiene múltiples factores que contribuyen a los resultados. Por ejemplo, una determinación del precio de la vivienda tiene múltiples factores que afectan el precio, como código postal, pies cuadrados, una cantidad de dormitorios y baños. Todos estos factores contribuyen a fijar el precio de la casa. Como científico de datos, debe poder explicar cómo puede reducir su búsqueda a los factores correctos que afectan el precio de la vivienda en un código postal determinado

La idea errónea más común que he encontrado entre los aspirantes y neófitos de la ciencia de datos es que puedes aprender cómo hacerlo solo enseñándote a ti mismo cómo usar algunas herramientas especializadas (como R, scikit-learn, pandas, matplotlib, etc.) . Ignora por completo el hecho de que estas herramientas representan solo la parte pequeña y visible del iceberg, el resto de las cuales se basa en un conocimiento profundo de las estadísticas y el método científico (razón por la cual “Científico” aparece en los títulos de trabajo y al menos se usa ser una fuerte preferencia para contratar doctorados).

Poner código no es muy útil porque representa un poquito del proceso requerido para hacer algo; Las competiciones de Kaggle no son muy útiles porque ya han hecho mucho trabajo duro por ti y recompensan a las personas que saben lo que están haciendo y a las personas que simplemente están dispuestas a probar todo por esos puntos decimales adicionales por igual. Muy raramente encontrará un trabajo de ciencia de datos que le diga exactamente cuál es la pregunta, le permita construir un modelo sobre datos ya recolectados y limpiados, que sea evaluado por una sola medida numérica y luego salga sin explicar qué lo hiciste o lo que implica tu modelo.

Si quieres obtener experiencia haciendo ciencia de datos, haz ciencia de datos en lugar de la mierda turística que representa Kaggle. Identifique una pregunta que valga la pena hacer y que pueda responderse con los conjuntos de datos existentes, e idee una estrategia para responderla (¡lo cual es muchísimo más difícil de lo que parece!). Una vez que llegue a ese punto, puede comenzar a tirarse pedos con herramientas y construir las partes externas de su proyecto.

Entrar en la industria de la ciencia de datos puede ser difícil, especialmente si no tienes experiencia previa. Estoy de acuerdo con una buena cantidad de sentimiento en la respuesta del usuario de Quora, pero no necesariamente llamaría a las competiciones de Kaggle una mierda turística totalmente inútil.

Definitivamente, desea obtener al menos una comprensión aceptable de todo lo que se encuentra debajo de la ciencia de datos. Eso significa estadísticas, aprendizaje automático, ingeniería de software, matemáticas, probabilidad, mezcla de datos, etc. Algunas de las mejores formas de aprender estas cosas pueden ser tomar MOOC de alta calidad. También puede auto enseñar una cantidad decente leyendo libros o tutoriales en línea. Una lista realmente grandiosa y completa de materiales potencialmente útiles es Quora User Open Data Data Masters. Echa un vistazo a algunos de esos enlaces.

Sin embargo, una vez que hayas dominado el tema, debes crear una cartera de trabajo. Creo que aquí es donde las competiciones de Kaggle pueden ser realmente útiles. Pero no deberías priorizar sentarte encima de la tabla de clasificación de Kaggle. En cambio, use una competencia de Kaggle como una oportunidad para obtener un conjunto de datos, sumergirse en un problema y probar un montón de hipótesis. Quora User tiene toda la razón en que estos conjuntos de datos a menudo se arreglan, por lo que también debe pasar por el mismo proceso con algunos conjuntos de datos más desordenados (por ejemplo, los que se encuentran en los portales de datos abiertos del gobierno).

Sin embargo, en última instancia, puede obtener un trabajo como científico de datos de nivel de entrada en algún lugar al encontrar su nicho y sobresalir en él (después de adquirir un dominio básico de todo lo demás). No todos los científicos de datos son expertos en estadística, munging de datos, ingeniería de software, etc. Los científicos de datos son personas en “forma de T”. Para obtener más información sobre esto, consulte mi publicación de blog para Udacity: 8 habilidades que necesita para ser un científico de datos

El camino para convertirse en un científico de datos no es un paseo por el parque, pero existen innumerables métodos para llegar allí, con o sin experiencia previa en ciencia de datos. No estoy de acuerdo con el hecho de que ser clasificado en Kaggle o tener su código en Github sea intrascendente.

De la misma manera que ganar un Oscar aumentaría la comerciabilidad o la fama de un actor / actriz para colocar un ranking en una competencia de oratoria que luego otorgaría más credibilidad a los ganadores: de hecho, ser clasificado en Kaggle aumenta sus posibilidades de obtener un trabajo como científico de datos. Un currículum de una página solo puede caber tanto y su presencia en línea es más importante que nunca en la era de la información en la que vivimos actualmente. Adjunte enlaces de su perfil de Kaggle, perfil de Github, perfil de desbordamiento de pila o blog personal junto con menciones de su proyectos y concursos sin duda aumentarán sus posibilidades. Como ex asesor de carrera, las experiencias laborales no son las únicas cosas que consideraría porque los proyectos personales hablan mucho de la persona. Alguien con una experiencia laboral previa en ciencia de datos puede ser confiable, pero alguien con proyectos personales demuestra un verdadero entusiasmo por el campo, un rasgo valioso de un empleado.

Además, Numerai ( https://numer.ai/about ) es otro sitio similar a Kaggle que se centra más en el lado financiero de la ciencia de datos si ese es el campo en el que está buscando ingresar. El problema es que puedes unirte como “científico de datos” sin ninguna experiencia previa en papel per se ni tener conocimientos de dominio de finanzas, ya que son todos datos cifrados a los que se te paga en Bitcoin.

Por último, todo el mundo tiene que comenzar en algún lugar y no podemos nacer como científicos de datos que buscan obtener trabajos de científicos de datos de inmediato. Sería bueno incluir cualquier experiencia laboral previa que se ocupe de algún tipo de análisis de datos, estadísticas, matemáticas, etc.

Conseguir un trabajo como Data Scientist no es diferente de muchos otros tipos de trabajos. Estudiar matemática, estadística, ingeniería y aprendizaje automático es fundamental para cualquier rol de ciencia de datos como requisito, pero el “cómo” en términos de conexión con oportunidades que conducen a un empleo a tiempo completo tiene poco que ver con su capacidad para explicar la selección de modelos, evalúe cuándo deben usarse los métodos de contracción o cómo diseñar un buen experimento (tal vez el último sea más relevante para su estrategia personal de búsqueda de empleo).

Ser bueno en ciencia de datos no significa que sea bueno en la búsqueda de empleo y en las entrevistas. Muchas empresas ni siquiera saben lo que quieren y, en la mayoría de los casos, el papel de “científico de datos” podría significar diferentes cosas dependiendo de la empresa. Generalizaría que muchos estudiantes, no todos, creen que una vez que adquieren suficiente experiencia y conocimientos, tienen algunos proyectos en su haber, el resto se da. No mereces nada y, en todo caso, es el comienzo de construir nuevas habilidades relacionadas con la búsqueda de empleo.

No hay un solo consejo que le permita conseguir un trabajo en la situación de no tener ninguna experiencia profesional. Es un mercado muy competitivo, incluso en esta cama caliente de nerds en el área de la Bahía de San Francisco. El consejo que le daría a alguien que es increíblemente talentoso, comprende los fundamentos básicos lo suficientemente bien y tiene hambre de trabajar como científico de datos, sería 3 cosas:

  1. Aumente sus oportunidades de entrevistar y
  2. Proactivamente busca comentarios sobre tus entrevistas
  3. Mejora las áreas descubiertas en el n. ° 2

Aumente sus oportunidades de entrevista

Algunos estudios dirían que hay algo como el 80% del mercado laboral que no se anuncia. El% 20 son los portales de trabajo y directorios con miles de listados de trabajo que tienen al menos 2–300 + solicitantes que envían currículums. Estas son oportunidades altamente competitivas, no imposibles, pero competitivas. Piense en esto como un problema de datos: ¿cómo filtraría a través de todos estos currículums para encontrar el que está buscando? Muchos sistemas automatizados se los comerán y priorizarán la relevancia según las palabras clave. No deje de postularse para estos puestos, pero considere cómo está escrito su currículum.

Comience a trabajar en red / cambie la forma en que trabaja en red. Conocer las ofertas de trabajo antes de que se publiquen es una ventaja clave. La mayoría de las personas preferiría no tener que pasar por el proceso de contratar a alguien porque implica un gran esfuerzo. Tómelo de alguien que ha contratado a toneladas de personas en el pasado, que es un proceso muy engorroso para todos los involucrados. Si puedo recomendar a alguien con quien he pasado suficiente tiempo y creo que sería una buena opción, eso es 10 veces mejor que un currículum sin rostro de alguien a quien nunca he conocido personalmente.

Haga que las redes formen parte de lo que hace todos los días. Podrías decir “bueno, soy introvertido y sé que soy realmente bueno en estas situaciones”, ¡¿vamos ?! Tendrás que salir un poco de tu zona de confort y comprometerte un poco para crecer. Puede parecer mucho, pero no es tan malo conectarse con personas que ya conoce en LinkedIn, pedirles ayuda pero, ante todo, ser curioso y útil a sus problemas antes de pedir algo a cambio. También facilite que otros lo ayuden. Dígales lo que está buscando y con quién le gustaría conectarse. Hay libros completos escritos sobre redes. Haz que sea parte de cómo te conectas con la gente todos los días y te pagará a cambio más de lo que imaginas.

Proactivamente Buscar comentarios / Mejorar / Reducir errores

Muchos recién llegados a este territorio piensan que tienen que saberlo todo para conseguir un trabajo. Creo que la inclinación es “hervir el océano”, así que recomiendo enfocarse en áreas que específicamente lo cuelgan. A medida que entreviste más, es muy posible que no sea la primera opción de contratación y que lo lleven a preguntarse por qué.

La mayoría de las entrevistas no te dirán lo que te estás perdiendo, por lo que en esos casos debes considerar las razones por las que no estás recibiendo ofertas. Puede ser que sus entrevistadores no piensen que tiene suficiente experiencia, que carecen del conocimiento de los problemas específicos de sus necesidades inmediatas, que no pueden demostrar experiencia a través de una tarea determinada (problema de estructura de datos, SQL, canal de análisis, etc.). Si está obteniendo la “experiencia insuficiente”, considere contribuir al código abierto, trabajando en algunos problemas más carnosos con una declaración completa del problema, EDA, modelado, validación, etc. para que tenga algo de qué hablar cuando pregunten ” sobre un proyecto en el que has trabajado “. Si está fallando problemas de estructuras de datos simples, tome nota de esas áreas problemáticas y trabaje en ellas. Si no está seguro, ¡PREGUNTE, PREGUNTE! ¿Por qué no avanzas a la siguiente ronda? Si no está seguro, no tiene forma de saber cómo debería gastar su tiempo y crecer.

Por lo general, me preguntan mucho sobre este tipo de cosas y creo que el consejo que todos han dado hasta ahora también es muy bueno y vale la pena. Para tomar medidas sobre cualquier cosa, debe aumentar su señal un poco más. La señal es exponerse, sin embargo, estudiar el mercado laboral, evaluar sus fortalezas / debilidades y ser proactivo sobre su crecimiento es el potencial de esa señal.

Creo que lo más importante si no tienes experiencia previa / experiencia laboral para incluir en tu currículum, debes hacer dos cosas:

  • Crea una cartera. Esto puede estar en un blog personal o en github. Puede tratarse de proyectos que realice por su cuenta (con sus propios datos o datos que encuentre en línea; hay tantos conjuntos de datos interesantes disponibles), concursos de Kaggle, concursos de codificación, … Intente participar en proyectos de código abierto para practicar la codificación R , Python, matlab, …
  • El hecho de que solo tenga un alto puntaje en las competencias de Kaggle no significa que va a ser bueno en un trabajo de Data Science, los empleadores lo saben.
  • Concéntrese en un nicho por algún tiempo y publique publicaciones de blog / código / parcelas al respecto. Transmitirá que puede hacer proyectos más grandes / estructurados por su cuenta. Tendrá más sentido que cargar cada pequeño fragmento de código que escriba en github (aunque yo también lo hago, pero para el control de versiones y no para presumir: D) y no, no creo que cargar código en Github sea absolutamente inútil pero debe estar bien formateado, documentado … para que otros sepan lo que estabas haciendo
  • Use rmarkdown o Project Jupyter o algo similar para crear documentación para sus proyectos. Facilita a los demás ver lo que has hecho.
  • Continúa tu educación.
    • Tome cursos en coursera o udacity o algún otro curso en línea. Aunque estos cursos cuestan un poco, puedes obtener un certificado de que has aprendido algo.
    • Dependiendo de sus antecedentes, intente mejorar sus habilidades matemáticas, de programación, estadísticas, …
    • Siéntate, toma un libro sobre algo que no conoces muy bien y léelo. Haz los ejercicios hasta que sepas el tema. Este es un gran consejo de Will Kurt en el podcast Becoming a Data Scientist (mira todos los episodios para inspirarte):

    Echa un vistazo al Data Science Learning Club. Hacer las tareas y presentarlas de una manera agradable también puede ayudarlo a aprender cosas nuevas y crear una cartera para mostrar a los posibles empleadores.

    No he leído todas las respuestas que ha atraído esta pregunta, por lo que no sé qué se está cubriendo y qué no. Si alguien ya ha respondido con una respuesta similar a la mía, ¡eso nos hace dos! 🙂

    Un científico de datos necesita:

    1. Profundo conocimiento de las matemáticas, las estadísticas, la teoría de la probabilidad y los campos relacionados (código: matemáticas)
    2. Muy buenas habilidades de programación para el análisis y la creación de software (código: Prog)
    3. Capacidad para realizar una investigación independiente (leer, analizar, analizar un problema, construir / modificar una solución, construir la solución, probarla, analizar los resultados y volver a leer) (código: Investigación)
    4. Experiencia de fallar varias veces al producir soluciones (código: Experimentos)
    5. Perspicacia comercial (comprensión de lo que quiere el cliente / cliente / empresa, convencer a alguien de que tiene una solución, mapear lo que quiere que pueda ofrecer, capacidad de proporcionar estimaciones sobre cuándo puede ofrecer una solución, capacidad de saber cuándo no puede proporcionar una solución y explicar por qué no puede proporcionar una solución) (código: Business)
    6. Capaz de liderar (código: Plomo)

    Todo depende de la línea de tiempo que haya establecido para convertirse en un científico de datos. A continuación, enumeraré algunas líneas de tiempo y lo que podría lograr. Proporcionaré una escala de 1 a 10 para cada “código” en lo que podría lograr para cada línea de tiempo. 10 no significa que usted sea un experto, sino que cumple con los requisitos de esa competencia. Por ejemplo, Prog = 10 no significa que sea tan bueno como Donald Knuth, pero significa que es competente en habilidades de programación, como lo requiere un científico de datos. Todos los plazos se basan en el supuesto de que realmente trabajará duro todas las semanas para desarrollar esas competencias y que no buscará ningún título superior como Maestría o Doctorado.

    1. Ahora:

    Lo siento pero no es posible

    2. 6 meses:

    • Matemáticas: 3
    • Prog: 6
    • Investigación: 1
    • Experimentos: 5
    • Negocios: 0-1
    • Plomo: 0

    3. 1 año:

    • Matemáticas: 3
    • Prog: 8
    • Investigación: 2
    • Experimentos: 7
    • Negocios: 2
    • Plomo: 1

    4. 3 años:

    • Matemáticas: 7
    • Prog: 10
    • Investigación: 3
    • Experimentos: 8
    • Negocios: 0-1
    • Plomo: 4

    5. 7 años:

    • Matemáticas: 9
    • Prog: 10
    • Investigación: 5
    • Experimentos: 10
    • Negocios: 7
    • Plomo: 6

    6. 10 años:

    • Matemáticas: 10
    • Prog: 10
    • Investigación: 8
    • Experimentos: 10
    • Negocios: 8
    • Plomo: 8

    6. 15 años:

    • Matemáticas: 10
    • Prog: 10
    • Investigación: 10
    • Experimentos: 10
    • Negocios: 10
    • Plomo: 10

    Resultado basado en la puntuación acumulada:

    1. puntuación = 50+: científico de datos deseable, o superior
    2. puntuación = 35-45: analista de datos senior a científico de datos límite
    3. puntuación = 25-35: analista de datos deseable
    4. puntaje = 20-25: ingeniero de datos (si Prog = 10)

    Puede alcanzar un puntaje acumulado = 40-50 por:

    1. trabajando en una o varias organizaciones (roles de selección que lo llevarán a la cadena)
    2. haciendo una maestría o un doctorado relevante combinado con pasantías en buenas organizaciones

    Alcanzar una puntuación acumulada = 45 + por:

    1. trabajando en un rol dentro de una organización, expuesto a datos y análisis de datos día tras día durante algunos años.

    También soy de la opinión de que ninguna cantidad de MOOC y competiciones de Kaggle pueden hacer que obtengas un puntaje: 35–45, ¡mucho menos más!

    Este es, en mi opinión, la hoja de ruta para un verdadero científico de datos. Muchos reclutadores y compañías anuncian los roles de ingeniero de datos / analista de datos / desarrollador de inteligencia de negocios como “científico de datos”, pero no estoy tan seguro de eso.

    Muchas personas pueden estar en desacuerdo, pero desafortunadamente el “científico de datos” en sí mismo es un rol importante por decir. Un rol que requiere que un individuo:

    • asumir la responsabilidad
    • tener convicciones
    • tomar decisiones
    • Cambio de curso
    • saber cuándo cambiar de rumbo
    • saber cuándo decir sí y cuándo decir no
    • saber cuándo parar
    • identificar oportunidades
    • presentar información a las partes interesadas de manera convincente
    • ser presentable

    Nota: puede reducir algunos años en la línea de tiempo si es un candidato excepcional.

    Big data es una colección de grandes volúmenes de datos que no pueden procesarse utilizando los sistemas tradicionales de administración de bases de datos. Esta gran cantidad de datos proviene de varias fuentes, como teléfonos inteligentes, Twitter, Facebook y otras fuentes. Según diversas encuestas, el 90% de los datos mundiales se generan en los últimos dos años.

    Para abordar estos problemas, los laboratorios de Google idearon un algoritmo para dividir su gran cantidad de datos en fragmentos más pequeños y asignarlos a muchas computadoras y, cuando se hicieron los cálculos, recuperar los resultados para consolidarlos. Este marco de software para almacenar y procesar big data se conoce como Hadoop. El framework Hadoop tiene muchos componentes como HDFS, MapReduce, HBase, Hive, Pig, sqoop, zookeeper para analizar datos estructurados y no estructurados utilizando hardware básico. Este es un curso de capacitación reconocido en la industria que es una combinación de los cursos de capacitación en desarrolladores de Hadoop, administrador de Hadoop, pruebas de Hadoop y análisis de big data. Esta capacitación de Cloudera Hadoop lo preparará para eliminar la certificación de Big Data.

    No hay requisitos previos predefinidos o estrictos para aprender Hadoop, pero la Capacitación integral de certificación de Hadoop puede ayudarlo a obtener un trabajo de Big data Hadoop si está listo para desarrollar una carrera en Big Data Domain.

    Data Science Certificate Training ha sido diseñado para prepararlo para un trabajo en el espacio analítico. El curso de certificación de ciencia de datos lo convertirá en un experto en la comprensión del problema, el diseño del análisis y la aplicación de técnicas de modelado predictivo utilizando R para obtener información comercial de los datos. R es el lenguaje de programación más utilizado hoy en día en ciencia de datos y espacio analítico.

    Data Science es la combinación de estadísticas, matemáticas, programación, resolución de problemas, captura de datos de manera creativa, la capacidad de ver las cosas de manera diferente y la actividad de limpiar, preparar y alinear los datos.

    En el programa de certificación de ciencia de datos , obtendrá habilidades en gestión de big data, análisis avanzado, aprendizaje automático y visualización de datos, junto con las habilidades de comunicación esenciales que necesitan los científicos de datos de hoy.

    Data Science Training ha sido estructurado para aquellos que desean desarrollar el conocimiento avanzado y las habilidades necesarias para trabajar como científico de datos. Obtenga su certificación de ciencia de datos y destaque, ya sea que esté buscando cambiar de trabajo, obtener una promoción o mejorar sus habilidades actuales.

    ¡Esto es algo sobre lo que están deslumbrados la mayoría de los estudiantes de primer año, postgrados y personas del dominio de TI!

    El trabajo más sexy del siglo XXI que no es tan fácil de lograr.

    Entonces surge la pregunta ¿CÓMO?

    Puede tomar cualquier plan de estudios en línea desde cualquier plataforma como udemy, Udacity, edureka, edWisor que le enseñará las habilidades.

    1) Centrarse principalmente en modelado estadístico, aprendizaje automático, visualización, minería de datos y estructuras y ser incompetente en la codificación en programación R / Python

    2. … Practique … no solo aprenda, el conocimiento práctico es algo que lo ayudará a alcanzar su objetivo de ser contratado, no el conocimiento de los libros de texto / simplemente mirar videos.

    Puede hacer tareas regularmente, probar documentos, probar varios cuestionarios en línea para ayudarlo a enfocarse en cada uno de los temas por separado.

    3. Realice proyectos basados ​​en la industria, se proporcionan datos de hecho.

    Puedes buscar fuentes como kaggle y retomar proyectos donde practicarás en proyectos de la industria, esto hará que uno se distinga de la multitud.

    4. La búsqueda de JJob es la peor parte, pero la mayoría de las plataformas mencionadas anteriormente brindan asistencia laboral además de la certificación.

    Aconsejar :

    edWisor | Get Skilled Get Hired es una de las plataformas que está apareciendo bastante rápido

    Han mencionado pros y contras

    Pros :

    Proporciona un 100% de garantía de garantía de empleo con un paquete de 4 a 8 LPA para que los profesionales experimentados de Fresher tengan más que es único.

    Proporciona tutoría de un científico de datos profesional real.

    Proporciona sesiones de consulta en vivo.

    Proporciona proyectos certificados por la industria que están en vivo.

    Tener vínculos en India con varias compañías.

    El plan de estudios está extremadamente bien enseñado desde lo básico hasta el nivel más avanzado

    Puede proporcionar un ejemplo de varias personas que han sido colocadas a través de ellos

    Contras :

    Proporcionar colocación solo en India

    No es bien conocido en comparación con otras plataformas que existen a nivel mundial.

    Sin embargo, los videos son muy largos, pero algunas personas no prefieren

    La garantía de empleo se limita al número específico de personas y asientos únicamente.

    No está acreditado por ningún tipo de marca como Google o Facebook.

    Pero, por el contrario, te ofrece una garantía de empleo.

    Uno puede buscar e iniciar sesión en el sitio web para consultar sus conferencias de demostración gratuitas para tener una idea sobre el plan de estudios.

    Siéntase libre de recibir información de DM … brinde asesoría a profesionales nuevos y profesionales para dominios de TI.

    Feliz aprendizaje

    Espero que esto ayude !

    Puede proporcionar una señal institucional para la ciencia de datos al reconocer la educación formal y obtener un título en ciencia de datos y campos relacionados. Cuanto más lejos esté el campo de la ciencia de datos, es decir, distante de las estadísticas, las matemáticas aplicadas y la informática, menos aplicable será en el conjunto de habilidades básicas, la metodología y la experiencia en la materia. Esto incluye todos los campos científicos en las ciencias naturales, ciencias sociales y humanidades y artes mucho más lejanas. Incluso un estudio en una disciplina de ingeniería puede prepararlo mejor para el conjunto de habilidades básicas y el conocimiento requerido de un científico de datos. Los tipos de personas que obtienen buenos resultados en ciencia de datos aplican bien los conceptos matemáticos mediante la programación y los sistemas informáticos. Además, entienden el negocio y su área específica dentro del producto y servicio. Trabajan mejor con sus compañeros de equipo cuando han desarrollado habilidades de comunicación superiores, tanto hablando en persona como leyendo y escribiendo en papel.

    Debido a que el trabajo requiere un conjunto de habilidades relevantes para las computadoras, uno puede desarrollar una competencia central en programación, bases de datos y bibliotecas. Esto significa participación y desarrollo en competencias de programación en línea, como Kaggle. También significa participar en la comunidad de profesionales de la ciencia de datos, tanto en el desarrollo de campo como en el conocimiento práctico. Uno puede desarrollar esto en foros técnicos, como KDNuggets. Además de una ventaja de información, una persona en ciencia de datos también necesita trabajar y consultar con empresarios. Esto significa leer artículos y ensayos escritos en editoriales de gestión, como Harvard Business Review. Ayuda más trabajar con personas en un entorno profesional, en una breve pasantía o trabajo de nivel de entrada. Esto le muestra las condiciones de trabajo de un científico de datos, con quién trabaja y sus contribuciones reales.

    Al final, sus entrevistas de trabajo y ofertas provienen del contacto con personas. Puede obtener este contacto estudiando, trabajando o reuniéndose en los lugares correctos. Esto sucede en los campus escolares, empresas o conferencias. Necesita establecer contactos con personas, compartir intereses y dejar que las personas conozcan sus habilidades y su trabajo deseado. Cuando compartes esas experiencias con las personas, ellas aprenden sobre ti gradualmente con el tiempo. Aprenden sobre su experiencia, conjunto de habilidades, personalidad y objetivos a largo plazo. Cuanto mejor se relacione con las personas y contribuya a las relaciones en crecimiento, más podrá compartir experiencias e información relacionadas con el trabajo en las empresas. Esto le brinda un contacto personal dentro de una organización o industria, en lugar de una relación distante en Internet, o un conocido conocido por un breve tiempo. Quien conoce puede abrir puertas si mantiene el teléfono encendido.

    Puede hacer una revisión simple del mercado laboral, la disciplina en la escuela y en las empresas, las personas que se identifican como científicos de datos y las actividades profesionales de esta clase. Esto le da una idea de cómo abordar su educación, conjunto de habilidades básicas, relaciones profesionales y mejorar su entrevista. Una investigación adicional sobre empresas, relaciones públicas y un sentido de organización industrial puede agravar la ventaja de su aplicación. Esto se deduce de la comprensión de su posición, la empresa y cómo compite en el mercado. Le recomiendo que decida cuánta educación busca, el conjunto de habilidades básicas que desarrollará y su círculo de contactos más cercano para el desarrollo profesional. Por lo tanto, un buen comienzo en el trabajo llega más allá de las búsquedas en frío. Combina un tema de estudio confiable, lo que realmente hace y con quién trabaja como recomendación de competencia.

    Mis 2 sugerencias principales, bajo el supuesto de que tiene ciencia de datos autodidacta y es bueno en eso:

    1. Describa en su currículum, destacando las diferentes habilidades de ciencia de datos aplicadas, sus proyectos personales y resultados. Estos pueden provenir de MOOC, kaggle u otros concursos en línea, pasantías no remuneradas, proyectos de datakind o algún problema que simplemente haya resuelto e intentado resolver.

    2. Proporcione enlaces a cuadernos IPython, salida de reducción de R o paneles de Shiny correspondientes a lo anterior. Resalte los problemas prácticos con los datos que resolvió en el proceso de obtener los conocimientos / resultados.

    Estoy de acuerdo en que solo cargar código en github o intentar obtener un alto rango en un concurso de kaggle son formas descabelladas o ineficaces de obtener un trabajo de ciencia de datos sin experiencia previa en ciencia de datos.

    Si está dispuesto a considerar una solución a largo plazo: obtenga una maestría relevante. Eso hace más por sus posibilidades y habilidades que el autoaprendizaje y los concursos.

    El quid de su pregunta se reduce a la palabra “relevante”. ¿Puedes conseguir un trabajo de ciencia de datos sin experiencia en ciencia de datos? Seguro. Pero necesita alguna otra experiencia para hacer que el gerente de contratación crea que podrá hacer el trabajo.

    Entonces, por ejemplo, si tiene un historial de análisis de negocios y ha tomado varios cursos en línea y autoestudio en aprendizaje automático, podría convencer a alguien para que le dé una oportunidad en un puesto de ciencias de datos de nivel junior. Has demostrado la capacidad de hacer algo similar con un conjunto diferente de herramientas, por lo que no es un gran riesgo.

    Del mismo modo, si ha estado haciendo trabajo de analista de datos y aprende más estadísticas y teoría por su cuenta, probablemente podría obtener un puesto de científico de datos dentro de su industria.

    Sin embargo, si usted es un programador que quiere hacer un cambio de carrera, necesita experiencia en ciencia de datos. No tiene que ser experiencia laboral … podría ser experiencia de competencia o proyectos paralelos. Pero necesitas una forma de demostrar competencia.

    Clasificarse en kaggle y tener su código (especialmente R y python) en github seguramente ayuda. Después de ver su experiencia relevante en la industria, estas podrían ser las dos primeras preguntas en una entrevista.

    Habiendo entrevistado a candidatos yo mismo, y habiendo sido entrevistado varias veces, generalmente es el conocimiento en estadística (algunas pruebas estadísticas), aprendizaje automático (árboles de decisión, bosque aleatorio, aprendizaje profundo) y ciencias de la computación (mínimo: python / R, SQL) lo que cuenta en aplicaciones A menudo esto se prueba en un estudio de caso aplicado al negocio de la empresa.

    La ciencia de datos no es tanto un campo, sino más bien un conjunto de, donde se reúnen las matemáticas aplicadas, las estadísticas, la informática, IS / IT y la perspicacia empresarial.

    Una cosa es segura: ¡debes amar las matemáticas! Y debe ser una pasión, no solo ser “bueno en eso”, ya que Data Science es pesado en álgebra lineal, cálculo, optimización y, en cierta medida, en la dinámica del sistema (matemática no lineal).

    Puede ser un “matemático” y no ser demasiado aficionado a la informática, las arquitecturas de IS y TI, y mucha gente piensa que los Data Scientists pueden ser eso: la cabeza de las matemáticas con un control decente de R y Python, que no son una programación demasiado difícil idiomas para aprender y practicar. Muchos de mis estudiantes piensan que antes de comenzar nuestro programa de Maestría en Ciencias de Datos Aplicados y Big Data , pero pronto se dan cuenta de que también es muy importante pasar de un hermoso modelo matemático a su implementación e implementación de TI a través de un Sistema de Información y su la infraestructura juega un papel importante en ser un “buen” científico de datos.

    ¿Qué tan amplio es el campo? Eche un vistazo a nuestra Maestría en Ciencia de Datos Aplicados y Big Data / Maestría Ejecutiva Internacional en Ciencia de Datos Aplicados y Big Data y nuestra Maestría Avanzada en IS & AI para programas de Ingeniería de Big Data 🙂

    Hola,

    Aquí hay 111 preguntas de entrevista de ciencia de datos junto con sus respuestas:

    111 preguntas de la entrevista de ciencia de datos con respuestas detalladas

    Está dividido en tres partes que cubren los aspectos principales de la ciencia de datos: aprendizaje automático y matemáticas, estadísticas y procesos.

    Encontrar un puesto de científico de datos necesita tiempo, debe prepararse en los últimos temas y escribir código en al menos dos lenguajes de programación como R o Python. El conocimiento del dominio es muy apreciado por los reclutadores, pero no es obligatorio.

    Me parece que trabajar en proyectos en Kaggle es una buena manera y tomar clases al mismo tiempo es una buena manera de adquirir habilidades en esta área. Hay muchos cursos disponibles. De hecho, escribí una publicación de blog sobre esto recientemente en Ask a Data Scientist. Me parece que muchas de las guías por ahí le cuentan todos los temas que podrían ayudarlo a convertirse en un buen científico de datos junto con una pila de excelentes libros para leer. No es necesario ser un experto en reducción de mapas, estadísticas bayesianas, aprendizaje profundo, etc. para conseguir un trabajo. Conocer los conceptos básicos de la capacitación de modelos, sobreajuste, falta de ajuste, división de prueba / tren, ingeniería de características, recopilación de datos (trabajo de API) y programación general lo llevará a la puerta. Tener algunos proyectos paralelos también ayuda. Si desea hacer algo específico, como los sistemas de recomendación, hay dos artículos de lectura obligatoria que puse en el enlace que publiqué y que probablemente aparecerán si está entrevistando en esta área. Ciertamente, si está entrevistando en LinkedIn o en algún lugar, le preguntarán algo sobre el modelado relacionado con las conexiones dentro de una red. Estos problemas se aplican directamente a sus negocios. Antes de entrar en una entrevista, puedes adivinar lo que van a preguntar. La compañía de acortamiento de enlaces probablemente le preguntará “Dado un enlace http muy grande, ¿cuáles son las estrategias que podemos usar para acortarlo?”. Preguntas ciertamente no fuera de este mundo. Personalmente, no creo que ser clasificado en Kaggle no valga nada. ¿A quién no le importaría eso? Algunas empresas se preocupan más por tener código en Github que otras. También puede postularse a compañías más pequeñas como desarrollador de software y luego hacer la transición a algo más relacionado con el aprendizaje automático. Esto también puede funcionar en una empresa más grande. Espero que esto ayude. ¡Buena suerte!

    Ahora, para asegurarse de que su currículum capta la atención cuando solicita una empresa de análisis o ciencia de datos, necesita algo de preparación. La preparación sería diferente para una persona más fresca que para alguien que ya tiene experiencia laboral en su haber, aunque en un dominio diferente.

    Para los graduados más avanzados en ingeniería o matemáticas / estadísticas, el enfoque se centra más en la resolución de problemas analíticos y la exposición a algún lenguaje de programación.

    Es importante tener un historial de contribuciones de código abierto y ayudar a la comunidad más amplia de ingeniería de software como GitHub, StackOverflow, escribir blogs y mostrar su trabajo. Si tiene el conocimiento práctico y tiene su presencia en dichas comunidades, existe una mayor posibilidad de obtener una buena oportunidad de trabajo ya que su empleador estará convencido de sus habilidades y conocimientos.

    En GreyAtom, con nuestro plan de estudios ágil, listo para la industria y monitoreo activo de carrera , estaremos allí en cada paso de su viaje para llegar al destino final de convertirse y trabajar como ingeniero de ciencia de datos de Full Stack.

    Tendrá un historial de contribuciones de código abierto y ayudará a la comunidad más amplia de ingeniería de software (a través de Github, StackOverflow, un blog o similar).

    Puede consultar los detalles del curso haciendo clic en este enlace Full Stack Data Science Engineering | Greyatom

    Los datos realmente impulsan todo lo que hacemos. Si le apasiona la ciencia de datos y desea redefinir su carrera, visítenos en el programa en el sitio de GreyAtom: ciencia de datos, aprendizaje automático, Big Data

    Creemos que “Aprender = hacer trabajo real”

    Descargo de responsabilidad: soy el consejero académico @GreyAtom y mi pasión es ayudar a las personas a encontrar carreras sostenibles en Data Science.

    Varias compañías publican problemas en Kaggle que rinden a cualquiera de los siguientes:

    1. Ganará premios en metálico si puede resolver y cumplir sus criterios.
    2. Tienes la oportunidad de entrevistarte con la empresa u obtener directamente una oferta de trabajo.

    Entonces, no es que hacer el bien en Kaggle no tenga sentido.

    En cuanto a poner su código (R y Python) en GitHub, solo el código aleatorio no tendrá ningún significado. Realice un proyecto completo o cree un motor de análisis y póngalo a disposición de forma gratuita. Otra forma es contribuir a proyectos de ciencia de datos / aprendizaje automático de código abierto. Si sus solicitudes de extracción se aceptan regularmente para un proyecto de código abierto de alta calidad y su mapa de contribuciones se vuelve razonablemente verde, entonces proporcionar el enlace público de un perfil de GitHub tan rico en su currículum definitivamente atraerá alguna atención.

    Para finalizar, eche un vistazo a Empleos para usuarios de R.