¿Cuál es la escala de tiempo para el desarrollo de un motor de búsqueda vertical que cubre aprox. 250,000 sitios?

Incluir 250,000 sitios web en su motor de búsqueda vertical es una tarea gigantesca. Los motores de búsqueda verticales generalmente existen para ofrecer mejores filtros y funcionalidad en esa vertical que Google, por lo que deben profundizar en la calidad y la estructura de los datos, y hacer más trabajo por fuente que Google. Eso significa mucho esfuerzo tecnológico.

Si está hablando de raspar sitios html, es probable que requieran una pequeña cantidad de configuración personalizada por sitio. Incluso si logra esto por ejemplo 1 hora hombre por sitio, está hablando de 250 mil horas hombre (unos pocos millones de dólares si lo hace a bajo precio), y eso es un esfuerzo de poca importancia.

Si habla de feeds de datos, su problema es la necesidad de contactar a 250,000 sitios, ¡peor aún! ¿Quizás hay algunas compañías de software u otros intermediarios que podrían ayudar?

Ahora que ha eliminado todos los 250,000 sitios una vez, debe regresar en una hora y verificar qué ha cambiado para mantener su contenido actualizado.

Ah, y necesita un motor de raspado, servidores para ejecutarlo todo, limpieza de datos, almacenamiento, normalización, deducción, indexación, y, tontamente, ¡los usuarios de un sitio web front-end pueden buscar! ¡Uf! Dependiendo de cuánto efectivo o personas tenga, calculo de 3 a 100 años.

Una estrategia sensata podría ser comenzar con los mejores 1000 sitios, el inventario probablemente se concentra allí de todos modos y obtener un MVP para probar el concepto.