Aquí está mi lista de algoritmos principales:
- Agrupación : es el problema de agrupar a los individuos de una población por su similitud de atributos.
- Algoritmos de clasificación. La clasificación intenta predecir, para cada individuo en una población, a qué conjunto de clases pertenece este individuo.
- Algoritmo de reducción de dimensiones para reducir las dimensiones de un conjunto de datos. Intenta tomar un gran conjunto de datos y reemplazarlo con un conjunto de datos más pequeño que contenga gran parte de la información importante en el conjunto más grande. Por ejemplo, puede usar el conjunto de datos reducido para entenderlo mejor y visualizarlo en dimensiones 2D.
- PCA o análisis de componentes principales para identificar las variables más importantes en su conjunto de datos. Existen muchos estudios que utilizan PCA para el análisis de datos, pero este es uno de los documentos que lo aplica de manera original: Comportamientos propios: identificación de la estructura en la rutina.
- Filtrado colaborativo para construir sistemas de recomendación. Es un problema de similitud coincidente. Por ejemplo, encontrar personas que son similares a usted en términos de los productos que les han gustado o que han comprado o encontrar productos que son similares con respecto al conjunto de atributos. En este último caso, se realiza un algoritmo de recomendación “basado en elementos”
- Reglas de asociación o agrupación conjunta para el análisis de la cesta de la compra. Una pregunta común en este caso es: ¿qué artículos se compran comúnmente juntos? Por ejemplo, analizar los registros de compra de un supermercado puede descubrir que la cerveza se compra junto con papas fritas con frecuencia. Se puede utilizar una implementación de reglas de asociación instalando Weka: Data Mining con el software de código abierto de Machine Learning en Java
- Método de regresión para predecir el valor de un cierto valor . Por ejemplo: ¿Cuánto usará un cliente determinado un determinado servicio? La cantidad que se va a predecir aquí es el uso del servicio, y se podría generar un modelo observando a otras personas similares de la población y su uso histórico.
- Algoritmo LDA para análisis de sentimientos y minería de texto, pero también para muchas otras aplicaciones. Aquí un artículo al respecto: Página en aaai.org
- El camino más corto de Dijkstra para encontrar el camino más corto de un nodo a otro en un gráfico. Probablemente el algoritmo más importante en la teoría de grafos.
- Predicción de enlaces para predecir conexiones entre elementos de datos, sugiriendo que debe existir un enlace y estimando la fuerza del enlace. Por ejemplo, en las redes sociales trata de adivinar si usted y John comparten 15 amigos, tal vez usted y John podrían ser amigos en la vida real.
Estos son los algoritmos que hacen mi lista. Se combinan entre sí para crear métodos más sofisticados, como el agrupamiento espectral, por lo que es suficiente conocerlos para tener una comprensión general de la ciencia de datos y la minería de datos en general.
Hay más material sobre algoritmos y visualización de datos en mi blog: Algoritmos y Fusión de datos, como Visualización de algoritmos y estructuras de datos de Alket Cecaj sobre Algoritmos y Fusión de datos
De una manera más orientada a la implementación, hay mejores repositorios Java en github por categoría y ordenados por número de estrellas por Alket Cecaj en Algorithms and Data Fusion
- ¿Cuáles son algunas falacias comunes que todo científico de datos debe evitar? ¿Qué es un concepto socavado en ciencia de datos y para un científico de datos? ¿Dónde puedo encontrar recursos que me ayuden a descifrar una entrevista de ciencia de datos?
- Como novedad, ¿cuál es el alcance de comenzar una carrera en big data como científico de datos en India?
- Cómo conseguir un trabajo en Google o Facebook como científico de datos en 6 meses
- ¿Cuáles son las habilidades críticas de un científico de datos?
- Cómo ingresar a Google / Facebook como científico de datos con 1 año de experiencia laboral en ciencia de datos