¿Qué tipo de algoritmo usa YouTube o Quora para funciones como ‘Videos relacionados’ o ‘Preguntas relacionadas’?

Permítanme comenzar diciendo que no sé qué usan Quora o Youtube. Esperemos que un miembro de sus equipos responda y todos podamos averiguarlo. Sin embargo, este es un problema súper ordenado, por lo que me encantaría ayudarlo.

Parece que tienes algunas características agradables para trabajar,

  1. Título
  2. Enlace de YouTube / video por artículo
  3. Manchas de texto por elemento de la lista
  4. Persona que publicó el enlace
  5. Los espectadores que vieron el enlace
  6. Algunas etiquetas de palabras clave
  7. Me gusta y relistas
  8. Comentarios

Podrías probar muchas cosas geniales con ellos. No estoy seguro de lo que has probado, así que te sugiero un método simple que podría funcionar mejor para ti.

Use tf – idf en el título para obtener un vector para cada pieza de contenido, luego encuentre la diferencia (distancia) entre los vectores para cada una de sus listas. Cuanto más pequeña sea la distancia, mejor será el partido. La implementación ingenua escala como el número de listas, pero hay trucos o aproximaciones que puedes jugar para acelerarlo.

Si estos resultados también apestan, puede expandir o reemplazar las funciones que obtiene de los títulos con las de las imágenes borrosas de texto, o ambas. También podría incluir otras características de la lista (videos que están vinculados, que les gusta a las mismas personas, etc.). Puedes jugar con la métrica de distancia si algunas características resultan ser más importantes (suma de distancias ponderadas, es un producto interno). Hay buenos métodos para aprender automáticamente este tipo de cosas si tienes un conjunto de entrenamiento.

Una vez que comience a probarlo, puede obtener buenos comentarios al hacer clic en los enlaces de contenido relacionados. Cuando la gente hace clic probablemente significa que la coincidencia es buena. Puede moverlo hacia arriba en la lista de contenido relacionado. Pegue un poco de ruido aleatorio en la lista para obtener nuevo contenido que podría ser mejor.

De todos modos, es un problema realmente bueno. No estoy seguro de qué características “analíticas” tiene, pero algunas podrían ser muy útiles (¿secuencias de clics?). Me encantaría tener en tus manos tu conjunto de datos. ¡Buena suerte!

Estás de suerte. Computerphile acaba de publicar un video sobre este tema.

More Interesting

¿Dónde puedo obtener software crackeado que sea seguro de usar o cómo puedo ejecutarlo de manera segura?

¿Por qué los programas contienen errores? ¿Cómo se arreglan?

¿Cuáles son las tres primeras cosas que harías para hacer la transición de un equipo de desarrollo a la práctica de scrum?

¿Por qué no hay una lucha real en mi vida? Soy una mujer de 22 años que trabaja en una empresa de software en Bangalore con un paquete decente.

¿Qué decisiones acertadas de arquitectura de software tomó Facebook? ¿Qué elecciones y decisiones que se tomaron en los primeros días realmente valieron la pena a largo plazo?

¿Cómo compilo el código Objective-C en Windows?

¿Existe una correlación entre los diseñadores de software / juegos y los científicos sociales?

¿Cuál es el significado de la personalización en un software para compartir conocimientos?

¿Cuál es la diferencia entre la ingeniería informática y la ingeniería de software, y cuál es mejor en términos de calidad del trabajo y salario?

¿Qué trabajo es más satisfactorio: Patwari a 18,000 / trabajo de software a 80,000?

¿Cuáles son las principales razones para externalizar su desarrollo de software a Ucrania?

¿Cuáles son algunas buenas herramientas de creación de prototipos de productos de software?

¿Qué es el código de calidad y cómo se ve?

Con respecto a la codificación corporativa, ¿encontró casos en los que un diseño se consideró sobredimensionado y se descartó, pero en retrospectiva fue el correcto?

¿Alguien puede probar la afirmación de la Asamblea General de que '90% de los estudiantes han seleccionado un puesto dentro de los 90 días de la graduación'?