Gracias por el A2A! No puedo decir que soy un experto en el tema, pero aquí están mis dos centavos.
Dado que los sitios web y sus plantillas varían enormemente, no creo que pueda encontrar una solución que funcione en todas partes. Algunos sitios están construidos muy bien con etiquetas semánticas HTML5, mientras que otros incluirán su contenido dentro de etiquetas div básicas o, me atrevo a decirlo, celdas de tabla.
Además, algunos sitios tienen contramedidas contra las personas que rastrean su valioso contenido y lo muestran en otros lugares sin sus anuncios. (Consulte: Raspadores de contenido: cómo averiguar quién está robando su contenido y qué hacer al respecto). Si lo hace funcionar, no se sorprenda si recibe un correo enojado o dos de bloggers y autores de artículos.
- Soy débil en matemáticas, ¿puedo ser ingeniero de software?
- ¿Por qué no hay más herramientas de ingeniería de software visual que no necesiten mucha codificación?
- ¿Qué necesito aprender para ser ingeniero de software desde cero?
- ¿Los ingenieros de software de nivel básico generalmente realizan poco trabajo, que en su mayoría son correcciones de errores y agregan una pequeña funcionalidad?
- ¿Cómo es ser pasante de ingeniería de software en Hudl?
Lo que sugeriría es configurar algunos motores de raspador diferentes y crear algún tipo de algoritmo simple para elegir cuál usar, por dominio. Si un motor te da demasiado o muy poco contenido, ejecuta uno diferente. Mantenga todo automatizado, pero permita anulaciones manuales si es necesario.
Un ejemplo de un motor de raspador podría ser un analizador DOM que recupera el contenido de cualquier etiqueta
después de un elemento de encabezado, como sugirió Bhavesh. Deje que su algoritmo elija qué motor usar en función de las etiquetas en el HTML, posiblemente también con algo más.
Obtenga una gran cantidad de datos y ejecute su algoritmo. Explore los resultados y observe los malos resultados. Ajustar hasta obtener (en su mayoría) resultados satisfactorios. Crea anulaciones manuales para el resto.