Incluir 250,000 sitios web en su motor de búsqueda vertical es una tarea gigantesca. Los motores de búsqueda verticales generalmente existen para ofrecer mejores filtros y funcionalidad en esa vertical que Google, por lo que deben profundizar en la calidad y la estructura de los datos, y hacer más trabajo por fuente que Google. Eso significa mucho esfuerzo tecnológico.
Si está hablando de raspar sitios html, es probable que requieran una pequeña cantidad de configuración personalizada por sitio. Incluso si logra esto por ejemplo 1 hora hombre por sitio, está hablando de 250 mil horas hombre (unos pocos millones de dólares si lo hace a bajo precio), y eso es un esfuerzo de poca importancia.
Si habla de feeds de datos, su problema es la necesidad de contactar a 250,000 sitios, ¡peor aún! ¿Quizás hay algunas compañías de software u otros intermediarios que podrían ayudar?
- ¿Cuáles son los casos límite más comunes que los programadores principiantes descuidan?
- ¿Cómo se puede preparar el curso en línea Arquitecturas de software orientadas a patrones para software concurrente y en red de Douglas Schmidt?
- ¿Para qué se utiliza el mapa de impacto en el desarrollo ágil?
- ¿Por qué las licencias de software necesitan mantenerse actualizadas?
- ¿Se pagará a los desarrolladores web a la par de los desarrolladores de software?
Ahora que ha eliminado todos los 250,000 sitios una vez, debe regresar en una hora y verificar qué ha cambiado para mantener su contenido actualizado.
Ah, y necesita un motor de raspado, servidores para ejecutarlo todo, limpieza de datos, almacenamiento, normalización, deducción, indexación, y, tontamente, ¡los usuarios de un sitio web front-end pueden buscar! ¡Uf! Dependiendo de cuánto efectivo o personas tenga, calculo de 3 a 100 años.
Una estrategia sensata podría ser comenzar con los mejores 1000 sitios, el inventario probablemente se concentra allí de todos modos y obtener un MVP para probar el concepto.