Permítanme comenzar diciendo que no sé qué usan Quora o Youtube. Esperemos que un miembro de sus equipos responda y todos podamos averiguarlo. Sin embargo, este es un problema súper ordenado, por lo que me encantaría ayudarlo.
Parece que tienes algunas características agradables para trabajar,
- Título
- Enlace de YouTube / video por artículo
- Manchas de texto por elemento de la lista
- Persona que publicó el enlace
- Los espectadores que vieron el enlace
- Algunas etiquetas de palabras clave
- Me gusta y relistas
- Comentarios
Podrías probar muchas cosas geniales con ellos. No estoy seguro de lo que has probado, así que te sugiero un método simple que podría funcionar mejor para ti.
- ¿Cuáles son las cinco prácticas de bloques de construcción más importantes de Agile?
- ¿Cómo puede alguien estar bien versado con un IDE?
- ¿Vale la pena comprar un MacBook como programador?
- ¿Cuál es la diferencia práctica entre QA, QC y Tester?
- ¿Cómo entrar en el desarrollo de software de las pruebas? ¿Puede sugerir qué habilidades se necesitan en función de la tendencia actual en la industria de TI?
Use tf – idf en el título para obtener un vector para cada pieza de contenido, luego encuentre la diferencia (distancia) entre los vectores para cada una de sus listas. Cuanto más pequeña sea la distancia, mejor será el partido. La implementación ingenua escala como el número de listas, pero hay trucos o aproximaciones que puedes jugar para acelerarlo.
Si estos resultados también apestan, puede expandir o reemplazar las funciones que obtiene de los títulos con las de las imágenes borrosas de texto, o ambas. También podría incluir otras características de la lista (videos que están vinculados, que les gusta a las mismas personas, etc.). Puedes jugar con la métrica de distancia si algunas características resultan ser más importantes (suma de distancias ponderadas, es un producto interno). Hay buenos métodos para aprender automáticamente este tipo de cosas si tienes un conjunto de entrenamiento.
Una vez que comience a probarlo, puede obtener buenos comentarios al hacer clic en los enlaces de contenido relacionados. Cuando la gente hace clic probablemente significa que la coincidencia es buena. Puede moverlo hacia arriba en la lista de contenido relacionado. Pegue un poco de ruido aleatorio en la lista para obtener nuevo contenido que podría ser mejor.
De todos modos, es un problema realmente bueno. No estoy seguro de qué características “analíticas” tiene, pero algunas podrían ser muy útiles (¿secuencias de clics?). Me encantaría tener en tus manos tu conjunto de datos. ¡Buena suerte!