¿Qué tipo de algoritmo usa YouTube o Quora para funciones como ‘Videos relacionados’ o ‘Preguntas relacionadas’? Cazar Trabajos es un oficio

¿Qué tipo de algoritmo usa YouTube o Quora para funciones como ‘Videos relacionados’ o ‘Preguntas relacionadas’?

Permítanme comenzar diciendo que no sé qué usan Quora o Youtube. Esperemos que un miembro de sus equipos responda y todos podamos averiguarlo. Sin embargo, este es un problema súper ordenado, por lo que me encantaría ayudarlo.

Parece que tienes algunas características agradables para trabajar,

Título
Enlace de YouTube / video por artículo
Manchas de texto por elemento de la lista
Persona que publicó el enlace
Los espectadores que vieron el enlace
Algunas etiquetas de palabras clave
Me gusta y relistas
Comentarios

Podrías probar muchas cosas geniales con ellos. No estoy seguro de lo que has probado, así que te sugiero un método simple que podría funcionar mejor para ti.

Use tf – idf en el título para obtener un vector para cada pieza de contenido, luego encuentre la diferencia (distancia) entre los vectores para cada una de sus listas. Cuanto más pequeña sea la distancia, mejor será el partido. La implementación ingenua escala como el número de listas, pero hay trucos o aproximaciones que puedes jugar para acelerarlo.

Si estos resultados también apestan, puede expandir o reemplazar las funciones que obtiene de los títulos con las de las imágenes borrosas de texto, o ambas. También podría incluir otras características de la lista (videos que están vinculados, que les gusta a las mismas personas, etc.). Puedes jugar con la métrica de distancia si algunas características resultan ser más importantes (suma de distancias ponderadas, es un producto interno). Hay buenos métodos para aprender automáticamente este tipo de cosas si tienes un conjunto de entrenamiento.

Una vez que comience a probarlo, puede obtener buenos comentarios al hacer clic en los enlaces de contenido relacionados. Cuando la gente hace clic probablemente significa que la coincidencia es buena. Puede moverlo hacia arriba en la lista de contenido relacionado. Pegue un poco de ruido aleatorio en la lista para obtener nuevo contenido que podría ser mejor.

De todos modos, es un problema realmente bueno. No estoy seguro de qué características “analíticas” tiene, pero algunas podrían ser muy útiles (¿secuencias de clics?). Me encantaría tener en tus manos tu conjunto de datos. ¡Buena suerte!

AlgoritmosDesarrollo webDiseño de productos de softwareIngeniería deIngeniería de software y programación de computadorasinteligencia artificialpregunta de clasificaciónProgramadores informáticosQuorasoftware