¿Databricks contrata pasantes?

Sí, tenemos un programa de pasantías. El anuncio de trabajo está aquí: Databricks – pasante de ingeniería de software

Nuestros pasantes son tratados por igual como empleados a tiempo completo. Entiendo que en este mercado competitivo, cada startup anuncia esto. Sin embargo, realmente respetamos y cumplimos esta promesa. Nuestros pasantes reciben proyectos influyentes que contribuimos a proyectos de código abierto como Apache Spark o aquellos que lanzamos a nuestros clientes utilizando Databricks Cloud.

Algunos de los proyectos en los que trabajaron nuestros pasantes son:

  • Creación de una biblioteca de estadísticas para Spark : funcionalidades comunes como correlaciones, pruebas de hipótesis, muestreo estratificado y generación de datos aleatorios. Estos algoritmos son difíciles de implementar de manera correcta y eficiente en un entorno distribuido. Ahora son compatibles de fábrica para todos los usuarios de Spark. [Funcionalidad estadística en Spark 1.1]
  • Mejoras de rendimiento de Spark SQL y banco de pruebas : un interno trabajó estrechamente con el desarrollador principal de Spark SQL en optimizaciones de rendimiento para Spark SQL. Muchas consultas son órdenes de magnitud más rápido debido a este trabajo. Parte del proyecto consistía en implementar la conversión de unión de transmisión automática en Spark SQL (también conocida como unión de mapa en Hive). IIRC, nuestro pasante tardó aproximadamente dos semanas en hacer esto, mientras que fue un proyecto de varios meses en el proyecto Hive. [Mejoras de rendimiento emocionantes en Horizon para Spark SQL]
  • Soporte nativo de JSON en Spark SQL : JSON es uno de los formatos de datos más comunes utilizados hoy en día. Un interno mejoró sustancialmente el soporte de tipo de datos enriquecido en Spark SQL y creó una forma realmente nueva de interactuar con datos JSON. En la última versión de Spark SQL, los usuarios simplemente pueden apuntar Spark SQL a algunos archivos JSON, y Spark SQL inferirá automáticamente el esquema de esos archivos JSON y estarán disponibles para realizar consultas de inmediato. Atrás quedaron los días para esforzarse y descubrir el complicado esquema codificado en varios archivos JSON. [Guía de programación de Spark SQL]

El verano pasado (2014) tuvimos 7 pasantes, con una mezcla de pasantes universitarios y pasantes de doctorado que están más enfocados en la investigación. Todos vinieron de nuestra red de referencias y han trabajado en algunos proyectos serios antes de las pasantías. Por ejemplo, entre nuestros pasantes teníamos un confirmador de Apache Hive, un confirmador de Apache Spark y un confirmador del compilador Scala.

Para 2015, esperamos expandir nuestro programa de pasantías más allá de nuestras conexiones de primer grado, y también contratar pasantes para trabajar en frontend y UX.

Apache Spark continúa ganando impulso en el panorama actual de análisis de big data. Aunque es una entrada relativamente nueva en el reino, Apache Spark ha ganado una inmensa popularidad entre las empresas y los analistas de datos en un corto período. Apache Spark es uno de los proyectos de big data de código abierto más activos. La razón detrás es su versatilidad y diversidad de uso. Big Data Hadoop, Spark, Storm, Scala – Clases de entrenamiento combinado en línea | Big Data Hadoop, Spark, Storm, Scala – Cursos combinados en línea

Spark es admirado por muchas razones por los desarrolladores y analistas para consultar, analizar y transformar datos rápidamente a escala. En palabras simples, puede llamar a Spark una alternativa competente a Hadoop, con sus características, fortalezas y limitaciones. Spark se ejecuta en la memoria para procesar datos con velocidad y sofisticación que los otros enfoques complementarios como Hadoop Map Reduce. Puede manejar varios terabytes de datos a la vez y realizar un procesamiento eficiente. Tutorial de Spark, Tutorial en línea de Spark | Intellipaat.com

Uno de los excelentes beneficios de usar Spark es que a menudo se usa en el modelo de almacenamiento de datos de Hadoop, es decir, HDFS y puede integrarse bien con otros marcos de big data como H Base, MongoDB, Cassandra. Es una de las mejores opciones de big data para aprender y aplicar algoritmos de aprendizaje automático en tiempo real. Tiene la capacidad de ejecutar consultas repetidas en grandes bases de datos y potencialmente tratarlas.

Conociendo el excelente crecimiento futuro y la rápida adopción de Apache Spark en el mundo empresarial actual, hemos diseñado este tutorial de Spark para educar a los programadores masivos en un marco interactivo y rápido. El tutorial tiene como objetivo entrenarlo en conceptos para principiantes sobre el uso de Spark, así como obtener información sobre sus módulos avanzados. Para todos aquellos que están viendo un tutor experto de Spark, este paquete de aprendizaje es el final encantador y bien informado de su búsqueda.

Incluye una aclaración detallada de Spark y Hadoop Distributed File System. Los temas principales incluyen Componentes de Spark, Algoritmos comunes de Spark-Algoritmos iterativos, Análisis de gráficos, Aprendizaje automático, Ejecución de Spark en un clúster. Además, podrá escribir algoritmos usted mismo aprendiendo a escribir aplicaciones Spark utilizando Python, Java, Scala, RDD y sus operaciones. Dado que Spark tiene la capacidad de ejecutarse en diversas plataformas utilizando varios lenguajes, es una fase importante para obtener información sobre el desarrollo de aplicaciones con varios lenguajes de programación mencionados.

Este paquete de aprendizaje también cubre Spark, Hadoop y Enterprise Data Center, Algoritmos comunes de Spark y Spark Streaming, que es otra característica importante de Spark. La mayoría de los desarrolladores de aplicaciones utilizan con frecuencia esta transmisión de datos para controlar las transacciones financieras fraudulentas. Si encuentra útil este tutorial, puede navegar a través de nuestros múltiples cursos de capacitación combinados de Spark, Storm, Scala y Spark con Python, que pueden ayudarlo a crecer técnica y administrativamente.

Audiencia recomendada

  • Analistas y arquitectos de Big Data
  • Profesionales de software, desarrolladores de ETL e ingenieros de datos
  • Científicos de datos y profesionales de análisis
  • Programadores principiantes y de nivel avanzado en Java, C ++, Python
  • Graduados con el objetivo de aprender el lenguaje de programación más reciente y eficiente para procesar Big Data de una manera más rápida y fácil.

Prerrequisitos

  • Antes de comenzar con este tutorial, comprenda bien los conceptos básicos de Java y los conceptos de programación.
  • Para el caso, su conocimiento de otros lenguajes de programación como C, C ++, Python y Big data analytics será beneficioso para descifrar mejor los temas.