La palabra ‘valioso’ puede tener diferentes significados y también puede aplicarse en diferentes contextos. Depende del tipo de investigación que intente hacer. Por ejemplo: si está tratando de hacer un análisis de sentimientos, los datos que obtendría al eliminar Tweets de Twitter serían ‘valiosos’.
Consideraré que valioso, en su caso, significa un conjunto de datos bueno, limpio y fácil de descargar. Aquí hay algunos recursos útiles:
- Data.gov: repositorio de datos abiertos del gobierno de EE. UU., Usted tiene acceso gratuito a más de 190,000 conjuntos de datos sobre varios temas como salud, educación, energía, etc. Nota: data.gov.uk es el mismo pero para el Reino Unido. Estoy seguro de que hay más países con repositorios similares y que puede encontrar a través de una simple búsqueda en la web.
- Kaggle: una de las principales comunidades en línea para científicos de datos, Kaggle tiene varios conjuntos de datos populares como el conjunto de datos Titanic, el conjunto de datos de viajes en taxi de Nueva York. Puede pasar de realizar algoritmos de EDA / optimización de ML para predicciones en estos conjuntos de datos.
- Data World: una comunidad web muy interesante y nueva donde todos pueden contribuir con conjuntos de datos que se pueden integrar directamente con R o Python. ¡Definitivamente deberías ver esto!
- Gapminder: es un excelente recurso que tiene una colección de conjuntos de datos de la Organización Mundial de la Salud y el Banco Mundial que cubren estadísticas económicas, sociales y médicas como el VIH / SIDA, la tasa de desempleo, etc.
- Repositorio de aprendizaje automático de UCI: un repositorio muy conocido y popular mantenido por la Universidad de California en Irvine. Actualmente tiene 383 conjuntos de datos, algunos populares incluyen: The Iris Dataset, Breast Cancer – Wisconsin, Heart Disease dataset.
- Dataportals.org: ¡Este es un sitio web tan maravilloso! Enumera todos los portales de datos abiertos en todos los continentes. Por ejemplo, Data.gov sería uno de los recursos enumerados si hace clic en América del Norte.
- Organizaciones mundiales de salud: contiene datos sobre salud, enfermedades y nutrición.
- Servicios web de Amazon: tienen un gran repositorio de conjuntos de datos disponibles públicamente, el Proyecto Genoma Humano destaca como importante.
- Otras fuentes interesantes incluyen: UNICEF, Centro Nacional de Datos Climáticos, Healthdata.gov, The New York Times (deberá solicitar una API para acceder a los datos).
Hay toneladas de otros sitios web, repositorios que proporcionan conjuntos de datos. Muchas personas activas en GitHub proporcionan el conjunto de datos que utilizaron para admitir su código en sus repositorios.
- ¿El científico de datos tiene algún alcance en el futuro cercano?
- ¿Puede describir brevemente el trabajo que realiza como ingeniero de datos en su organización?
- ¿Puedes convertirte en un científico de datos después de hacer biotecnología B.Tech?
- ¿Es una buena decisión cambiar mi carrera de SAP a ciencias de datos después de 5 años de experiencia en SAP?
- El sistema educativo para científicos, ingenieros es todavía bastante tradicional. ¿Qué aprenderé yo como científico específicamente para convertirme en emprendedor?
¡Espero que esto haya sido útil y feliz de analizar!
Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.
El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes desarrollan proyectos sobre conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y se basa en la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.
Algunos enlaces rápidos
- Programa – http://www.greyatom.com/full-sta…
- Chatee con un consejero académico : le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…
- Panel de discusión en GreyAtom – https://www.youtube.com/watch?v=… https://www.youtube.com/watch?v=…