¿Por qué SAS es insuficiente para convertirme en científico de datos? ¿Por qué necesito aprender Python o R?

Déjame contarte una pequeña historia para colorear dónde he estado. Entonces responderé la pregunta:

He estado haciendo lo que ahora llamamos ciencia de datos desde finales de los 90. En aquel entonces, American Express reclutaría a sus analistas de datos cuantitativos y modeladores de riesgos (lo que los científicos de datos se llamaban entonces) de los diversos programas de economía de la universidad de agricultura. Sí, leíste eso bien. Economistas agrícolas. Estaba estudiando ag econ y uno de mis colegas que tenía un doctorado ag econ había sido reclutado y se unió a AmEx. Le pregunté por qué Am Ex estaba reclutando tanto a economistas agrícolas. Ella respondió: “Oh, eso es fácil. Todos nosotros con antecedentes econométricos podemos programar SAS y tener experiencia de la vida real con datos reales y lidiar con todo el dolor que implica el análisis de datos reales. La escuela de negocios y los economistas tradicionales tienen una gran teoría y pueden hacen estudios de caso pero no pueden hacer una regresión sobre datos sucios para salvar sus vidas “.

Ok, eso es super, solo usa SAS, ¿verdad? Pues no tan rápido. Eso fue en 1996 y tenía sentido. Sin embargo, el enorme problema único de SAS es simple: debe solicitar permiso para usar SAS en cualquier tienda que no esté pagando miles de dólares al año por las licencias de SAS. SAS no solo no es barato, nadie puede decirle cuánto cuesta SAS porque no anuncian precios. Puedo decirle que cuando estaba en una compañía de seguros de Fortune 500 me dijeron que pagaron> $ 2000 / año por caja de escritorio (no tengo idea si esto es correcto). Y eso es solo SAS base, no todos los paquetes y componentes agregados. Sin embargo, un empleado que tenía autoridad para gastar $ 2000 no puede simplemente llamar a SAS y obtener una copia. No. Tiene que pasar por la cadena de mando de TI corporativa con todas las maravillosas aprobaciones, controles y equilibrios.

Enfrentando ese dolor de cabeza fue cómo me presentaron a R. Estaba trabajando en la compañía de seguros Fortune 500 antes mencionada y quería hacer una regresión logística. No cirugía de cohetes, solo un logit, tal vez un probit si me sentía con suerte. Sabía cómo hacer lo que quería hacer en SAS con solo unas pocas líneas de código. Pero la compañía no tenía ninguna licencia de sobra y para obtener una nueva licencia tuve que presentar un caso de negocios para justificar el gasto. Investigué un poco y descubrí que R podía hacer regresiones logísticas y también leer y escribir en nuestra base de datos Oracle. Así que en una semana aprendí suficiente R para mover datos hacia / desde Oracle y realizar la regresión logística deseada. Mi proyecto fue un éxito y obtuvimos algunas ideas sobre cosas que nunca antes habíamos tenido. ¿Le importaba al liderazgo empresarial que el análisis se hiciera en R? No. Solo querían una idea.

En ese momento tuve una epifanía: si construía mi carrera en programas caros, monolíticos y de código cerrado, entonces mi carrera estaría sujeta a los caprichos de las compañías que controlan esas herramientas. Solo iba a ser útil para las grandes empresas dispuestas a otorgarme permiso para comprar las herramientas o las empresas que ya tenían mi pila de herramientas en su lugar. Sin embargo, si construí mi carrera en herramientas de herramientas de código abierto como Python, R, Postgres y Linux, podría llevar mis habilidades a cualquier parte y realizar análisis sin tener que pedir permiso. Crecí en una zona rural de Estados Unidos y la idea de tener que pedir permiso para patear traseros es solo un anatema para mí. Quiero patear traseros con salvaje abandono y no pedirle permiso a nadie por el placer. Y para ese fin, uso herramientas de código abierto.

Tuve una conversación con John D. Cook hace más de 3 años que fue muy similar a esta. Solo que no estábamos hablando de SAS. Él escribió sobre esto en su blog: consejos profesionales sobre herramientas

Voy a ser poco amable y decir que SAS tiene casi todo lo que necesitas para ser un científico de datos.

(Aunque conocer solo una herramienta y no aprender sobre nuevas herramientas es básicamente un suicidio profesional en cualquier campo tecnológico).

* SAS trabaja en estrecha colaboración con muchos de los principales proveedores de Hadoop y fabrica una gran cantidad de software para administrar y analizar datos en Hadoop. Algunas de estas herramientas puedes probar gratis:
SAS Data Loader para Hadoop
Prueba de CoreCompete para SAS

* SAS hace aprendizaje automático y ha estado haciendo aprendizaje automático durante décadas. Ahora se hace en memoria distribuida sobre Hadoop:
Página en sas.com
Aprendizaje automático con SAS® Enterprise Miner ™
Análisis de alto rendimiento de SAS

* SAS trabaja con datos no estructurados:
Minería de texto, SAS Text Miner
Análisis Contextual SAS

* SAS funciona con Python, R y PMML:
software / integración de iluminación
Interfaz R ahora disponible en SAS / IML Studio

* Aquí está la solución completa a un desafío de ciencia de datos muy difícil que se realizó usando SAS, Bash utils y un dispositivo Teradata:
http://support.sas.com/resources
http://support.sas.com/resources

* SAS está altamente calificado por analistas * profesionales *, * objetivos *:

Cuadrante Mágico Gartner Q1 2015:


2015 Q1 Forrester Wave:

Sí, trabajo para SAS Enterprise Miner … pero créanme, no recibiré ningún tipo de compensación por esta publicación. Me canso de todas las discusiones en torno a la ciencia de datos que están impulsadas por la publicidad y no por la realidad. Mantener la ciencia en ciencia de datos: mantener la ciencia en ciencia de datos

Ok, ahora diviértete destrozándome y esta publicación post

Estoy en un puesto de alto nivel en el grupo Data Science en una compañía donde SAS es considerado el ‘estándar de oro’. Dado que personalmente ya conozco y uso R, Python y otros idiomas, aprender SAS podría ser muy gratificante en cuanto a la carrera. Sin embargo, a pesar de todos los beneficios de aprender y usar SAS, lo he evitado por regla general y por principio.

1) Código abierto vs sistema cerrado

Con R / Python, existe una completa transparencia de los tipos de funcionalidades y algoritmos que puede aprovechar como científico de datos. Si está atrapado en algo nuevo, todo lo que necesita es una Búsqueda de Google para encontrar el paquete R / Python relevante. Para R, The Comprehensive R Archive Network tiene todas las herramientas que necesita para completar el 99% de los proyectos de ciencia de datos. Por el contrario, para usar cualquier funcionalidad nueva en un sistema cerrado como SAS, debe pasar por un proceso largo y minucioso para firmar nuevos contratos, tratar con agentes de ventas, etc., antes de poder usar dicha funcionalidad. Es lento y contraproducente. Obtendrá más trabajo mucho más rápido con R / Python que con SAS.

2) costo

Si bien R y Python son de código abierto y cualquier persona en cualquier lugar puede usarlo sin cargo, ¡SAS, por el contrario, es uno de los software más caros (en el mundo)! Una empresa de tamaño medio-grande tendrá que invertir millones de dólares en licencias de SAS. Sin embargo, para la mayoría de las startups esto está fuera de discusión. Si está trabajando en un lugar donde tienen el presupuesto, bien y bien. Si cambia de trabajo y va a un lugar donde no tienen SAS, no tiene suerte. Estará restringido para siempre a trabajos de ciencia de datos en los que utilizan SAS y no hay muchos de ellos.

3) Accesibilidad de funciones avanzadas requeridas para la ciencia de datos

Con R y Python puede aprovechar de manera rápida y fácil funciones avanzadas como procesamiento paralelo, paquetes multinúcleo, etc. que son esenciales para el aprendizaje automático que implica operaciones iterativas. Con SAS, debe comprar nuevos productos SAS para utilizar dichas funciones. No hay forma de descargar un ‘paquete’ y comenzar a usarlo en cuestión de minutos, como puede hacer con R / Python. Incluso después de obtener estos productos SAS, tendrán limitaciones estrictas. Los costos de licencia de SAS varían según la velocidad de la CPU (el costo de CPU de 3.1 Ghz es mayor que el costo de licencia de la máquina de CPU de 2.4 Ghz). Ningún proveedor con el que he trabajado en los últimos 17 años ha tenido un modelo de licencia más restrictivo que este.

4) Soporte para visualización

Como saben, la visualización es una parte integral de la ciencia de datos. Aunque algunos productos de visualización comerciales tienen conectividad SAS a través de ODBC, la plataforma de visualización principal es SAS Visual Analytics. Esta también es una herramienta muy costosa. Con R / Python hay innumerables formas de visualizar datos (ggplot2 en R, matplotlib en Python, etc.). De forma gratuita, sin tener que firmar un nuevo contrato (SAS) y pagar $$ por todo.

5) Tendencias de la industria

La industria, y por extensión el mercado laboral, está cambiando cada vez más hacia las tecnologías de código abierto. Hadoop, NoSQL, etc. son todos ejemplos excelentes. SAS existe en el medio como uno de los únicos productos pagos mientras ofrece pocos o ningún beneficio funcional adicional sobre las tecnologías gratuitas disponibles. La demografía de programadores de SAS generalmente tiende a ser programadores veteranos que comenzaron con SAS hace muchos años. Hoy, muy pocos científicos de datos comienzan con SAS por razones obvias. Es mucho más fácil descargar R o Python o Hadoop y usarlo de inmediato.

6) agilidad

Dado que R y Python son compatibles con miles de colaboradores en todo el mundo, cualquier nuevo desarrollo en la industria (por ejemplo, un nuevo algoritmo) se vuelve rápidamente disponible como un paquete. Como SAS es accesible solo para SAS Institute Incorporated, solo sus desarrolladores pueden producir nuevos paquetes. Esto lleva mucho tiempo y habría completado su proyecto cuando SAS publique una actualización con los nuevos algoritmos.

7) Tutoriales y ejemplos paso a paso

Con R y Python, tiene miles de ejemplos detallados y tutoriales resueltos en la web. Los ejercicios IPython Notebooks y R están disponibles en numerosos sitios como github, etc. No existe tal equivalente en SAS y, como resultado, si está buscando una guía paso a paso sobre un nuevo tema que necesitará cuando están comenzando, no hay mejor fuente que las notebooks reproducibles como iPython. Si desea aprender algo nuevo en SAS, deberá pagar a un consultor de SAS (nuevamente o afiliado a SAS Institute Incorporated) para que lo capacite en el tema.

En general, si bien SAS puede satisfacer todas las necesidades actuales de ciencia de datos, a la larga me parece insostenible. Especialmente, cuando todos en el mundo se están moviendo hacia un software colaborativo de código abierto que es fácil y ampliamente accesible, SAS es todo lo contrario siendo restrictivo, cerrado y accesible solo para unos pocos que pueden gastar cientos de miles si no millones para usar sus productos. El uso de R, Python y herramientas similares aumentará su amplitud de conocimiento, capacidad para practicar y usar algoritmos más nuevos y características avanzadas y, como consecuencia, también lo hará elegible automáticamente para el 99% de los trabajos de ciencia de datos en el mercado.

Algunos enlaces útiles para leer más:

Resultados de la encuesta SAS vs. R 2015 – Burtch Works

SAS es # 1 … en planes para descontinuar el uso

Infografía: Guía rápida sobre SAS vs R vs Python (una buena infografía con una buena comparación)

La división entre SAS y Python / R se alinea bastante bien con la edad de la empresa, en mi experiencia. Las empresas de Internet y las nuevas empresas favorecerán Python / R, por lo que si está interesado en esas empresas, Python / R es su mejor opción. También creo que son lenguajes de programación mucho más agradables y mucho más cercanos a los lenguajes CS tradicionales.

SAS todavía se usa mucho en empresas más antiguas, particularmente en el campo de la medicina. Compañías de seguros, procesamiento de reclamos y gobierno. Estas compañías no son tan sexys como las compañías de Internet, pero lo bueno de ellas es que ganan mucho dinero, son estables y están estrechamente integradas con algunos de los servicios más críticos de la sociedad (cuidado de la salud). Puede llamarlos sistemas heredados, pero hay muchos programadores SAS que no irán a ninguna parte durante décadas y tienen posiciones muy estables. Un gorila envejecido de 800 lb sigue siendo un gorila de 800 lb.

En una nota al margen, todavía estoy un poco sorprendido por la cantidad de COBOL y FORTRAN que todavía hay. En realidad, existe una extraña demanda de programadores heredados, porque todos los buenos se retiraron (o murieron), los sistemas heredados aún ejecutan todo (como, eh, el gobierno federal …), y no hay nuevos programadores que entren.

Por lo tanto, depende un poco de lo que esté buscando en la ciencia de datos, pero ambas rutas son viables. Sin embargo, aprenderá muchos idiomas diferentes a lo largo de su carrera, si es bueno, por lo que no me preocuparía demasiado por eso. Para un programador experimentado, aprender un nuevo idioma no es tan importante.

Y para responder a la pregunta de Michael Hochster sobre que SAS ha cambiado mucho en 15 años: no, no ha cambiado. Ha cambiado un poco y agregó algunas campanas y silbatos para usuarios avanzados, pero es casi lo mismo. Mucho de eso tiene que ver con la compatibilidad con versiones anteriores, en particular para los viejos mainframes de IBM que ejecutan SAS. Los límites de caracteres en el conjunto de datos y los nombres de las bibliotecas siguen vigentes por esa razón, aunque limitar una máquina moderna a 8 caracteres para cualquier cosa parece completamente ridículo. Y el lenguaje macro SAS sigue siendo un choque de trenes. O, como dicen en SAS, un &&& train & wreck …

Para el registro, provenía de un fondo tradicional de CS (C / C ++ / Java) y terminé escribiendo una gran cantidad de SAS trabajando en la intersección del gobierno y la atención médica.

Han pasado varios años desde que usé SAS, pero puedo afirmar con confianza que las capacidades de SAS cubren todas las áreas de ciencia de datos, desde la exploración y visualización de datos, hasta el modelado y la optimización predictivos de manera bastante integral. Incluso si SAS es la única herramienta que utiliza, puede ser un científico de datos completo.

Sin embargo, la pregunta me parece extraña. No lleva más de unas pocas semanas aprender a codificar en Python o R. La parte difícil es aprender técnicas de ciencia de datos y cómo aplicarlas en la práctica. Considere un problema de agrupamiento, por ejemplo.

  • ¿Sabes qué método de agrupación utilizar en qué situación?
  • ¿Sabes cómo decidir cuántos grupos asignar?
  • ¿Sabes qué métricas de distancia de clúster usar?
  • ¿Sabes cómo diseñar tus funciones?
  • ¿Sabes cómo analizar y visualizar datos multidimensionales?

… etc.

Tales cosas toman tiempo para aprender y experimentar para dominar. Averiguar si usar proc fastclus o proc modeclus o proc cluster, y cómo configurar los parámetros son fáciles de entender (suponiendo que conozca sus fundamentos, es decir, la respuesta a preguntas como las anteriores).

“¿Por qué debería aprender Python o R?” Es la actitud equivocada. Deberías estar pensando “¿Por qué no debería …?”

Tengo las últimas noticias y actualizaciones a partir de ahora para 2018, que está completamente sesgado a SAS como líder del mercado. Para cualquier aspirante nuevo, la certificación SAS realmente puede impulsar su carrera en el futuro .

SAS nuevamente encabeza a todos los proveedores de análisis predictivo y avanzado y proveedores de integración de datos, de acuerdo con el informe de IDC , IDC Worldwide Business Intelligence and Analytics Tools Software Market Shares, 2016: Here Comes the Cloud . [1]

SAS tenía una participación de mercado del 30.5 por ciento para 2016 en la categoría de análisis avanzado y predictivo, más del doble de la participación de mercado del siguiente competidor más cercano. SAS ha liderado en esta categoría desde que IDC comenzó a rastrear el mercado en 1997. SAS ha demostrado un crecimiento continuo cada año en la categoría, con 2016 mostrando un crecimiento de ingresos del 5 por ciento.

“SAS ha sido capaz de retener la autoridad en el mercado de análisis avanzado y predictivo y continuar creciendo año tras año”, dijo Dan Vesset, Vicepresidente del Grupo de Análisis y Gestión de la Información en IDC. “Esta no es una hazaña fácil dado el aumento en el número de competidores que ingresan al mercado. Las profundas raíces de SAS en analítica avanzada y compromiso con la I + D son dos cosas que ayudan a SAS a mantenerse en la cima de la categoría “.

Además, IDC clasificó a SAS como el líder de participación de mercado de 2016 para el software de integración de datos analíticos con una participación de mercado de 21.9 por ciento. [2]

Con ingresos de $ 3.2 mil millones en 2016, SAS reinvierte aproximadamente el doble del promedio de las principales empresas de tecnología en I + D: 26 por ciento en 2016, una estrategia diseñada para fomentar la innovación. SAS tiene oficinas en 58 países de todo el mundo con una base mundial de clientes de 83,000.

Vea todas las ofertas más recientes de SAS® Analytics, que se ejecutan en la Plataforma SAS. La plataforma se basa en una estrategia de utilizar conocimientos analíticos para impulsar acciones comerciales, y admite y acelera cada fase del ciclo de vida de la analítica, desde los datos hasta el descubrimiento y la implementación.

[1] Doc # US42072417, junio de 2017

[2] IDC, acciones de mercado de software de integración y gestión de datos analíticos mundiales, 2016: crecimiento en todos los segmentos del mercado (Doc # US42755917, junio de 2017)

Cuadrante Mágico para Plataformas de Ciencia de Datos

Una plataforma de ciencia de datos , por supuesto, debe apoyar a los científicos de datos que crean modelos sofisticados para obtener información profunda. Pero también debería permitir a los usuarios empresariales explorar datos de forma visual e interactiva. Y todos los usuarios se benefician de fuertes herramientas de preparación de datos.

“Estamos encantados de ser reconocidos por Gartner como líder en análisis”, dijo Laurie Miles, Directora de Análisis, SAS Reino Unido e Irlanda. “SAS reconoce que las empresas se enfrentan cada vez más a grandes desafíos mientras necesitan atender a una gama creciente y diversa de usuarios. Nuestros productos analíticos de confianza están diseñados, construidos y fabricados para evolucionar junto con el desarrollo de los requisitos del cliente, ya sea que operen en las instalaciones o en la nube. También trabajan junto con soluciones de código abierto “.

El nuevo informe de Gartner define una plataforma de ciencia de datos como “una aplicación de software coherente que ofrece una mezcla de bloques de construcción básicos esenciales para crear todo tipo de soluciones de ciencia de datos, y para incorporar esas soluciones en procesos comerciales, infraestructura y productos circundantes”. El informe reemplaza el Cuadrante Mágico de Gartner para las plataformas de análisis avanzado.

Diseñada para permitir información analítica para impulsar acciones comerciales, la plataforma de SAS admite todas las fases del ciclo de vida de la analítica, desde los datos hasta el descubrimiento y la implementación. La gestión y la gobernanza son características esenciales de esta plataforma líder.

Para obtener más información, lea cómo la última plataforma SAS es innovadora, abierta y diseñada para cualquier desafío analítico.

Por 12 ° año, SAS es nombrado líder en el Cuadrante Mágico de Gartner de octubre de 2017 para Herramientas de calidad de datos *. SAS fue reconocido por su integridad de visión y capacidad de ejecución.

“Cada vez más empresas confían en sus activos de datos para tomar decisiones comerciales estratégicas y aumentar los ingresos, pero eso solo es efectivo si esas decisiones se basan en datos de calidad”, dijo Todd Wright, gerente senior de marketing de productos para la gestión de datos en SAS. “Las herramientas de calidad de datos de SAS permiten a las organizaciones tomar decisiones de datos en las que pueden confiar. Apoyamos a las organizaciones en todos los estados del proceso de calidad de datos, lo que facilita el perfil y la identificación de problemas, la vista previa de datos y la configuración de procesos repetibles para mantener un alto nivel de calidad de datos “.

Según Gartner, “los líderes demuestran la fortaleza en profundidad en toda la gama de funciones de calidad de datos, incluidas las funciones básicas (análisis, estandarización y limpieza), creación de perfiles, visualización interactiva, correspondencia, soporte multidominio y flujo de trabajo impulsado por el negocio. Los líderes exhiben una comprensión clara de las tendencias dinámicas en el mercado de calidad de datos; exploran y ejecutan ideas innovadoras y diferenciadoras; y ofrecen innovaciones de productos basadas en las demandas del mercado “.

Los productos de calidad de datos de SAS incluyen SAS® Data Management y SAS Data Quality.

SAS Data Management se basa en la plataforma SAS con una base sólida de calidad de datos que ayuda a las organizaciones a mejorar, integrar y controlar los datos. No importa dónde se almacenen los datos, desde sistemas heredados hasta Hadoop, SAS Data Management ayuda a las organizaciones a acceder a los datos que necesitan y a crear reglas de administración de datos. El producto ofrece a las organizaciones un método estándar y repetible para mejorar e integrar datos, sin costo adicional.

SAS Data Quality ofrece datos confiables al admitir fuentes de datos tradicionales y emergentes, como Hadoop, Impala, Amazon Redshift y más, durante todo el ciclo de vida de los datos. Al mejorar los datos donde reside, SAS proporciona acceso a datos más rápido y seguro. Con los datos entrando y saliendo constantemente, las empresas confían en SAS para establecer procesos repetibles que generen y mantengan datos de alta calidad.

La última versión de la Plataforma SAS a finales de 2017 se basa en la experiencia de SAS en calidad de datos e introduce un nuevo producto, SAS Data Preparación. La preparación de datos SAS simplifica y agiliza el acceso y la integración de datos sin requerir conocimientos de codificación, brindando calidad de datos y preparación de datos para análisis a más partes de una organización.

“Los esfuerzos analíticos y operativos necesitan datos de alta calidad, rápidos, para ser efectivos”, dijo Wright. “SAS continuará siendo un líder en este espacio y agregará características y funciones a sus ofertas de calidad de datos para satisfacer las necesidades de los clientes en este mercado dinámico”.

Cuadrante Mágico para Herramientas de Calidad de Datos

Existe una gran y creciente necesidad de científicos de datos en la investigación no comercial: trabajo con bioinformática y la investigación del cáncer, que es un campo interesante para un científico de datos: hay niveles sobre niveles de datos para profundizar, desde la intrincada biología hasta las estadísticas de población – Y los biólogos están muy felices de cooperar con cualquiera que pueda ayudarlos con el lado de los datos de sus investigaciones.

Un departamento de investigación típico no está lleno de dinero. Si puedo ahorrar la cantidad exorbitante de dinero que costaría una licencia SAS y aún así hacer un trabajo decente, entonces ese dinero se puede usar para reactivos o servidores o salarios.

La mayor parte de la investigación se realiza en cooperación. Para todo lo que hago solo, SAS podría funcionar muy bien, pero si envío el código SAS a un colaborador, o incluso a alguien más en el departamento, básicamente les estoy exigiendo que compren su propia licencia antes de que puedan hacer algo con él … lo cual es algo grosero. En una nota menos personal pero quizás aún más importante, esto también se aplica al código publicado junto con los artículos: si desea que la gente use, valide o amplíe su trabajo, escribirlo en un costoso lenguaje de pago es un mal comienzo.

La cooperación también funciona mejor si encuentra algo en común. R es, con mucho, el lenguaje más utilizado entre las personas con las que trabajo, aunque también hay grandes grupos de Python, además de cantidades más pequeñas pero significativas de Java, C ++ y Perl. SAS es algo que aparece esporádicamente en la procedencia de los archivos de datos.

Hablando en términos prácticos, esto también significa que si necesita hacer algo extraño y específico de campo, probablemente haya un paquete R que pueda facilitarle las cosas.

La palabra clave aquí es “Data Scientist”. Si está trabajando como estadístico / programador en biotecnología, específicamente en ensayos clínicos en dispositivos farmacéuticos, de diagnóstico y médicos, SAS es el software principal en uso. ¿Por qué? SAS está validado. Muchos paquetes en R, python, etc. no funcionan en algunas situaciones. No se tolerarán errores en los paquetes de software, punto, al enviar envíos de medicamentos / instrumentos / dispositivos a la FDA. SAS es más lento de desarrollar porque todo debajo del capó funciona perfectamente o casi perfecto. Los estadísticos en la industria que trabajan con los departamentos de investigación y desarrollo pueden usar cualquier paquete que deseen (R, S +, arce, matlab, python, etc.), pero si envían por correo electrónico estimaciones erróneas debido a un error de la función del software sin saberlo, está en ellos. Las repercusiones no son tan graves como los errores que se envían a la FDA, por lo que es más flexible en lo que puede utilizar para el trabajo de I + D. SAS es esencial en entornos regulados. La banca puede tener algunos departamentos de análisis que también lo requieren cuando no se pueden tolerar errores en el producto final. SAS también es una gran compañía y ofrece un soporte fantástico.

La palabra de moda en todas partes es análisis, pero solo cuando se despierta su interés y decide investigar un poco más, se abre el ámbito de todas las herramientas de software de análisis. Entre estos, SAS que pronto encontrará es difícil de ignorar como parte integral de todos los dominios analíticos.

SAS es el líder en software y servicios de análisis de negocios, y el mayor proveedor independiente en el mercado de inteligencia de negocios. A través de soluciones innovadoras, SAS ayuda a los clientes en más de 70,000 sitios a mejorar el rendimiento y entregar valor al tomar mejores decisiones más rápido. Desde 1976, SAS ha estado dando a los clientes de todo el mundo el poder de usar datos para tomar decisiones comerciales informadas.

SAS o sistema de análisis estadístico como se llamaba originalmente es un paquete de software o un conjunto de soluciones desarrolladas por el Instituto SAS para analizar e interpretar grandes conjuntos de datos por parte de los usuarios comerciales de toda la empresa. Les permite sacar conclusiones y hacer recomendaciones estratégicas para mejorar el desempeño del negocio. Las muchas tareas que SAS puede realizar incluyen entrada de datos, recuperación y administración, redacción de informes y gráficos, análisis estadístico y matemático, planificación de negocios, pronósticos y soporte de decisiones.

¿Por qué optar por SAS?

La investigación de Gartner en su edición afirma que las fortalezas de SAS en la industria aún permanecen indiscutibles en varias esferas de análisis.

Pero, ¿por qué tú o yo deberíamos seguir lo que Gartner percibe?

Esto requeriría una breve introducción a Gartner. Gartner es una empresa de asesoría e investigación en tecnología de la información que proporciona información relacionada con la tecnología. Gartner utiliza lo que llama Cuadrantes Mágicos para la visualización de sus resultados de análisis de mercado. Los Cuadrantes Mágicos son la culminación de la investigación en un mercado específico, que le brinda una visión gran angular de las posiciones relativas de los competidores del mercado.

Si es un entusiasta de big data y desea ingresar al campo de big data, o si está empleando un equipo de desarrollo para manejar sus requisitos de big data, se encontrará reflexionando sobre esta pregunta muchas veces. ¿Es Python la mejor opción sobre los muchos otros lenguajes de programación disponibles ? ¿En qué idioma debe entrenarse usted o su personal? Python o R o Hadoop? bueno, un artículo no puede resolver tu dilema, pero sigue leyendo si necesitas saber qué ofrece Python.

Python es un lenguaje de programación de código abierto, que se usa más popularmente en big data. Python Language es sinónimo de flexibilidad, funciones potentes pero fáciles de usar. Python tiene su USP en el amplio conjunto de utilidades y las bibliotecas que ofrece para tareas de análisis y procesamiento de datos. Entonces, en general, es un hecho dado que, entre otras opciones disponibles, Python mantiene su popularidad esencialmente debido a sus características fáciles de usar, que admiten el procesamiento de grandes datos.

Python se desarrolló con la filosofía de llevar la codificación a una plataforma abierta, donde la codificación se vuelve fácil, más legible, donde se puede escribir menos número de líneas y obtener los resultados deseados. Teniendo en cuenta el objetivo, se introdujo una biblioteca estándar, que contenía herramientas listas para usar para realizar diversas tareas.

Estas características hacen de Python la opción más preferida para el desarrollo de software, y principalmente para la inteligencia artificial y el aprendizaje automático.

En pocas palabras, necesitas aprender Python porque ……

  1. Ofrece una curva de aprendizaje rápida y un tiempo de desarrollo reducido, la sintaxis en Python es mucho más limpia y ordenada en comparación con otros lenguajes. Es fácil de depurar debido a códigos más cortos. La arquitectura modular facilita la importación y el uso de un módulo en lugar de escribir un gran bloque de código. Gran elección para principiantes. Los códigos más cortos y rápidos reducen drásticamente el tiempo de desarrollo.
  2. Puede automatizar las tareas repetitivas, para tareas menos exigentes cognitivamente, las tareas que necesitan poca toma de decisiones se pueden programar automáticamente escribiendo un script en Python.
  3. Es la opción más común para el científico de datos y el análisis debido a la conveniencia de los módulos ricos en funciones en Python, lo que facilita la realización de análisis de datos de manera eficiente.
  4. Python es un lenguaje orientado a objetos, por lo que si aprende Python, le será más fácil cambiar a cualquier otro lenguaje orientado a objetos. Solo necesitará aprender la sintaxis del otro idioma.
  5. Es el futuro de la inteligencia artificial y el aprendizaje automático, que se integrará en la mayoría de las funciones en un futuro muy cercano. Python se convierte en la mejor opción para los algoritmos de aprendizaje automático, principalmente debido a las características portátiles y extensibles del lenguaje.

El campo de la ciencia de datos y el análisis, más específicamente la inteligencia artificial y el aprendizaje automático, continuarán floreciendo en los próximos años. Si está buscando zambullirse en este campo, la fluidez en Python puede considerarse un requisito previo. Learning Python tiene una inversión mínima y beneficios máximos, entonces seguramente se convierte en una ventaja para aprender.

Gracias por el A2A!
Lo que tendrá que entender es que SAS, R y Python son herramientas que ofrecen sus propias ventajas y también tienen sus propias dificultades.
Cualquiera de estos es suficiente en lo que respecta al dominio de la ciencia de datos. R y Python son de código abierto y son ampliamente utilizados por la comunidad de ciencia de datos en línea con la que puede interactuar y aprender.
Si bien SAS es un rival formidable, su principal inconveniente, aparte de ser un software pago, es que requiere una capacitación suficientemente mayor que R y Python. R es excelente para armar análisis rápidos y prototipos.
Como puede ver, soy un fanático del software que le ofrece la oportunidad de construir o implementar algoritmos desde cero, lo que ofrece mucho más que solo depender de implementaciones listas para usar que permiten solo ajustes estándar.
Dependiendo de un marco que no sea muy común en el mundo de la ciencia de datos, podría ser perjudicial cuando se necesita armar algo que se pueda hacer mejor con R o Python que con SAS. Esto podría cambiar, pero así es ahora. ¿No es eso de lo que se trata la ciencia de datos? Adaptabilidad y optimización de los recursos disponibles.
Por lo tanto, una excelente manera de hacer las cosas sería mantener su dominio de SAS y al mismo tiempo desarrollar una familiaridad con R y / Python.
Encontré esto hoy:
SAS es el número 1 … En planes para descontinuar el uso

La exposición a los tres (SAS, Python y R) es ideal. Es por eso que SAS o cualquier idioma individual es insuficiente. También, La firme creencia de que una o una pareja son inequívocamente mejores es arrogante y probablemente muestra una comprensión incompleta de una o más de las herramientas. Estoy a punto de ahorrar dinero y reconozco plenamente algunos de los dolores de cabeza logísticos de administrar / configurar SAS (especialmente haber estado involucrado en gran parte de mí mismo). También reconozco que los costos integrados existen en todas partes, ya sea a través de licencias o tiempo adicional para calcular y producir resultados. El hecho de que sea gratuito de configurar no significa que todas las tareas tarden la misma cantidad de tiempo en completarse en paralelo. El hecho de que algunas tareas sean más rápidas en paralelo no justifica el costo inicial de la misma manera.

Mi jefe (que es mejor en R que yo) construyó evaluadores de productos en R y SAS y, finalmente, optó por SAS porque era significativamente más rápido. Este no es siempre el caso. También hemos aprovechado html y d3 para visualizar algunos de nuestros datos salientes. ¿Por qué? Es más bonito y más personalizable que SAS y Tableau (nuestra empresa fomentó el producto de visualización). Para ser justos, tampoco teníamos Visual Analytics y probablemente no hubiéramos obtenido la aprobación para licenciarlo. Dicho esto, no estoy abogando por aprender hasta el último lenguaje de programación o técnica de manipulación de datos disponible, pero la exposición a algunos le dará más formas de pensar sobre cómo interactuar con sus datos.

No sabes con certeza dónde terminarás. Comprenda las fortalezas y deficiencias de SAS, Python y R. El lugar donde trabaje tendrá una influencia significativa sobre qué herramienta recibe la mayor parte de su tiempo / énfasis. Aún así, mantenerse pegado a un enfoque podría limitar las perspectivas de carrera a largo plazo. ¡Sigue siendo imparcial y hambriento de aprender y siempre estarás a salvo!

Además, no se olvide de las habilidades de Excel. He visto personas que son impresionantes con SAS, R o la programación en general, pero desconcertantemente lentas con Excel. Excel está en todas partes en el mundo de los negocios, planifique en consecuencia.

El conocimiento de SAS puede ser suficiente para algunos puestos de ciencia de datos, pero no para otros. El conocimiento que necesitará depende de algunos factores clave.

  • ¿La empresa tiene una licencia SAS? Las empresas más pequeñas y jóvenes, como las startups, tienen menos probabilidades de gastar dinero en licencias SAS. Al conocer solo SAS, se limita a las empresas que tienen SAS.
  • ¿Cuánto tiempo dedica a adquirir, limpiar y procesar datos en lugar de analizarlos? ¿Estás buscando sitios web para obtener datos? ¿Procesando registros web? ¿Recopilando datos de API web? Si está haciendo una gran cantidad de datos y limpieza, Python podría ser una mejor opción.
  • ¿Vas a construir sistemas automatizados a gran escala? Si es así, es posible que necesite descifrar un lenguaje como Scala o Java.

Personalmente, recomiendo tener más de una herramienta en su kit de herramientas, ya que le brinda mayor flexibilidad y comerciabilidad.

Editar: Consulte la respuesta de Anónimo a ¿Por qué SAS no es suficiente para convertirme en científico de datos? ¿Por qué necesito aprender Python o R? para el equilibrio ya que mis puntos de vista están fechados.

Ya no muchas empresas usan SAS porque es costoso y mucho de lo que hace puede hacerlo de forma gratuita (a menudo mejor) con alguna combinación de R y Python. SAS es realmente bueno para algunas cosas, pero es doloroso usarlo como un lenguaje de programación de propósito general. En el momento en que comienza a necesitar escribir macros, se vuelve horrible. Admito que esta es una experiencia de hace 15 años. Los usuarios más recientes deberían comentar cómo han cambiado las cosas, si es que han cambiado.

Ok, la primera oración no es cierta. Por supuesto, muchas empresas todavía usan SAS. Pero supongo que es principalmente cuando está profundamente integrado en sistemas heredados que sería difícil cambiar.

Veo dos razones para aprender un lenguaje como Python o R.

  1. Profesionalmente, tiene sentido invertir en más de un idioma. Aprender algunas formas diferentes de hacer el mismo análisis, en algunos idiomas diferentes, lo ayudará a adaptarse a diversas situaciones, clientes y empleadores.
  2. Dado que R y Python se benefician de las contribuciones de la comunidad de código abierto, y dada la calidad de las bibliotecas hasta ahora en esos proyectos para cosas como el aprendizaje automático avanzado, que son una parte integral de la ciencia de datos, tiene sentido aprender uno (o ambos) de ellos. Hemos visto cómo hacer que el software sea de código abierto, y contar con el respaldo de una o algunas corporaciones puede ayudar a producir un excelente software: los ejemplos incluyen Android, los muchos sabores de Linux que se utilizan para ejecutar servidores hoy en día, etc. En ese entorno, Tiene sentido aprender R o Python.

Dada la madurez de las herramientas dentro de Python especialmente, y la velocidad a la que estas herramientas y frameworks mejoran y maduran, siento que Python y lenguajes como Scala y frameworks construidos sobre ellos se convertirán en los estándares de facto en ciencia de datos.

Muchos puestos de ciencia de datos de hoy requieren fuertes habilidades de programación similares a las de un desarrollador de software. Para este tipo de posiciones, SAS no es la mejor herramienta porque es un lenguaje de alto nivel diseñado específicamente para el análisis cuantitativo. Entonces, si quería hacer una programación de propósito general más allá del análisis cuantitativo, entonces SAS es bastante restrictivo.

En contraste, Python se originó como un lenguaje de propósito general que desarrolló muchas extensiones cuantitativas. Como resultado, si usted es un científico de datos que quiere hacer programación de propósito general, así como análisis cuantitativos pesados, Python le ofrece lo mejor de ambos mundos.

R es un lenguaje que se encuentra en algún lugar entre Python y SAS.

Otro factor que favorece a Python y R es que son gratuitos y de código abierto. Esto permite a los usuarios contribuir con paquetes y bibliotecas que amplían su funcionalidad, a veces con impresionantes mejoras de optimización. SAS, por otro lado, es propietario y cuesta dinero para la licencia. Esto puede desanimar a ciertos usuarios, especialmente estudiantes y entusiastas.

SAS no es insuficiente para convertirse en un científico de datos. Podría decirse que el SAS Institute ofrece el conjunto más completo de software de ciencia de datos que existe. Podrías hacer una carrera completa trabajando solo en SAS.

La pregunta que debes hacerte es, ¿realmente quieres hacer eso? SAS es tecnología patentada y poco a poco está pasando de moda. El código abierto está de moda en estos días. Cada vez más industrias ven los beneficios del uso de tecnologías de código abierto como Python y R. Reducirá severamente sus opciones si se limita solo a SAS.

Es una falacia que necesite agregar Python o R porque SAS no es un lenguaje de programación. El paso de datos es un lenguaje completo de Turing que usa asignaciones, iteraciones (hacer o para bucles, iteraciones en la memoria usando sustitución de texto), funciones y “paquetes” (funciones definidas por el usuario o Procs). El hecho de que se vea diferente a R o Python, o se considere “desactualizado” no es una razón válida. Por cierto, APL, un lenguaje matricial, fue abandonado en gran medida en la década de 1970 y luego ‘redescubierto’ en forma de MATLAB y R.

Si su empresa se ha estandarizado en SAS, y sabe con certeza que su trabajo es seguro en el futuro, entonces, seguro, use SAS para el trabajo de ciencia de datos. Pero si está tratando de ingresar al campo, ¿por qué querría adoptar un producto de software comercial costoso en lugar de las tecnologías de código abierto R y Python que son muy populares ahora?

SAS no es insuficiente. O al menos no menos insuficiente que cualquier otro conjunto de herramientas de ciencia de datos.

No necesita conocer un lenguaje de programación para aprender ciencia de datos, que en su mayor parte es sentido común, lógica y estadística básicos. La teoría estadística y las fórmulas se pueden aprender sin la necesidad de python, r o SAS.

R y Python son de código abierto y puede descargarlos y usarlos como desee. Incluso puedes contribuir a la comunidad cargando tus creaciones.

SAS, por otro lado, tiene muchas limitaciones porque su licencia cuesta una gran cantidad de dinero y no sé si tiene un repositorio de paquetes y funciones donde los usuarios puedan contribuir. Realmente no tendría sentido comercial que las personas hicieran eso ya que ya pagaron más de 100k para usar el programa sangriento; no regalarán sus creaciones tan fácilmente.

Entonces … En conclusión. SAS está perfectamente bien para aprender ciencia de datos y cómo convertirse en una lista si eres lo suficientemente terco y obtienes el tipo de soporte adecuado cuando tropiezas.

Definitivamente necesitas programación para ser un científico de datos. Ser un científico de datos es más que ejecutar un algoritmo estándar en algunos datos ordenados. Hay mucho sobre la mezcla de datos y las API.

Y una vez que se convierta en programador, notará la grave deficiencia de SAS. En mi humilde opinión es tecnología bastante anticuada. Ninguna empresa que tenga la opción presentaría SAS hoy en día.

Si no lo cree, puede buscar ofertas de trabajo donde sepa que la compañía tiene un equipo avanzado de ciencia de datos. Comprueba lo que están usando.

More Interesting

¿Cómo se puede definir la ciencia de datos? ¿Se puede describir como un tema? ¿Cuál es su dominio? ¿Se puede limitar? Como científico de datos, ¿cómo definirá los requisitos previos para convertirse en científico de datos?

¿Cómo resolvería un científico de datos este problema comercial?

¿Debo resolver los problemas de las competencias de Kaggle para ser un científico de datos?

Cuál es el mejor campo para estudiar en el futuro; Ciencia de datos, Big Data o SAP?

¿Qué especialidad debería elegir si quiero ser un científico de datos?

¿Cómo es ser un científico de datos en ISRO?

¿Es valioso en el mercado el especialista con conocimientos de ciencia de datos y experiencia del usuario? ¿Tendrá ese papel cruzado demanda en el futuro en su opinión?

¿Qué tipo de revistas suelen leer los científicos de datos?

¿Cuáles son las desventajas de trabajar como científico de datos?

Soy un desarrollador de Java, de 32 años, que trabaja en una empresa financiera. ¿Es demasiado tarde para convertirse en un científico de datos? Si no, ¿cuál debería ser mi plan de juego?

Cómo convertirse en un científico de laboratorio de investigación sin una maestría

¿Qué debo saber si quiero convertirme en científico de datos?

¿Es el análisis de datos una buena carrera para los estudiantes graduados de BCom?

Como científico de datos, ¿debería concentrarme en un conocimiento más profundo de Python o Java?

¿Son dos años suficientes para que un graduado no informático se convierta en un científico de datos? Sé un poco de Java y Hadoop. ¿Donde debería empezar?