Trabajo con muchos datos médicos y tengo trabajos anteriores que usaban R, Stata, Java, C ++, Python e incluso un poco de Fortran, todo para hacer casi todo lo mismo.
Describiría SAS como un lenguaje más antiguo y feo, pero con muchas características bien probadas integradas a lo largo de los años. La ventaja de SAS sobre un lenguaje de código abierto como R es que los paquetes están respaldados por el cuerpo de SAS, por lo que si se equivocan, puede culparlos. Con el código abierto, utilizando paquetes aleatorios de internet, usted mismo asume la responsabilidad. Si un paquete de código abierto es de uso generalizado por las principales personas, puede sentirse bastante seguro de su implementación, pero algunas de las cosas realmente nuevas u oscuras son una verdadera apuesta.
Como lenguaje, SAS está a medio camino entre un lenguaje de programación “real” como Python, y un lenguaje específico de dominio “no te lastimes” como Stata o MATLAB. Escribir funciones modulares es una tarea ardua y graficar es un negocio feo. Usted manipula elementos de datos individuales en una observación por nivel de observación, a diferencia de la manipulación de nivel vectorial de Stata o R. El lenguaje macro de SAS es posiblemente uno de los inventos más horribles en la historia de la programación, pero es una necesidad. Las estadísticas de resumen simples son mucho más molestas de obtener que en Stata o R, lo que hace que explorar un conjunto de datos sea un dolor.
- ¿Ser un científico de datos perjudica mi carrera?
- Como ingeniero de datos / científico de datos, ¿qué tan importante es tener un conocimiento profundo de algoritmos y estructuras de datos? ¿No son las funciones de ingeniería de software e ingeniería de datos / ciencia diferentes por una razón y corresponden a diferentes conjuntos de habilidades?
- ¿Qué es una lista de libros que todo científico de datos debería leer?
- ¿Cuál será la carrera en ciencia de datos después de 2 años?
- ¿Cuál es el mejor centro de entrenamiento para científicos de datos en Bangalore (para el crecimiento futuro) con una garantía de empleo, no asistencia laboral?
Para el rendimiento, la principal ventaja de SAS es que no necesita cargar todo el conjunto de datos en la memoria para ejecutarse. No puede trabajar en conjuntos de datos de 80 g en Stata o R sin alguna solución alternativa, pero puede SAS sin cambios. Y no necesita un sistema de datos distribuido o un fondo de CS serio para trabajar en conjuntos de datos de este tamaño, solo unas pocas semanas de experiencia SAS para aprender los conceptos básicos, y puede procesar grandes datos, solo necesita caber en el disco. Varios trabajadores también pueden trabajar en estos grandes datos en la misma máquina, sin problemas de memoria. Corre lentamente, pero corre.
La documentación en línea es extensa, pero críptica y está mal escrita.
No es mi primera opción de lenguajes como programador, pero tiene muchas ventajas a nivel empresarial.