¿Cuáles son algunas plataformas donde puedo obtener estadísticas / datos valiosos?

La palabra ‘valioso’ puede tener diferentes significados y también puede aplicarse en diferentes contextos. Depende del tipo de investigación que intente hacer. Por ejemplo: si está tratando de hacer un análisis de sentimientos, los datos que obtendría al eliminar Tweets de Twitter serían ‘valiosos’.

Consideraré que valioso, en su caso, significa un conjunto de datos bueno, limpio y fácil de descargar. Aquí hay algunos recursos útiles:

  • Data.gov: repositorio de datos abiertos del gobierno de EE. UU., Usted tiene acceso gratuito a más de 190,000 conjuntos de datos sobre varios temas como salud, educación, energía, etc. Nota: data.gov.uk es el mismo pero para el Reino Unido. Estoy seguro de que hay más países con repositorios similares y que puede encontrar a través de una simple búsqueda en la web.
  • Kaggle: una de las principales comunidades en línea para científicos de datos, Kaggle tiene varios conjuntos de datos populares como el conjunto de datos Titanic, el conjunto de datos de viajes en taxi de Nueva York. Puede pasar de realizar algoritmos de EDA / optimización de ML para predicciones en estos conjuntos de datos.
  • Data World: una comunidad web muy interesante y nueva donde todos pueden contribuir con conjuntos de datos que se pueden integrar directamente con R o Python. ¡Definitivamente deberías ver esto!
  • Gapminder: es un excelente recurso que tiene una colección de conjuntos de datos de la Organización Mundial de la Salud y el Banco Mundial que cubren estadísticas económicas, sociales y médicas como el VIH / SIDA, la tasa de desempleo, etc.
  • Repositorio de aprendizaje automático de UCI: un repositorio muy conocido y popular mantenido por la Universidad de California en Irvine. Actualmente tiene 383 conjuntos de datos, algunos populares incluyen: The Iris Dataset, Breast Cancer – Wisconsin, Heart Disease dataset.
  • Dataportals.org: ¡Este es un sitio web tan maravilloso! Enumera todos los portales de datos abiertos en todos los continentes. Por ejemplo, Data.gov sería uno de los recursos enumerados si hace clic en América del Norte.
  • Organizaciones mundiales de salud: contiene datos sobre salud, enfermedades y nutrición.
  • Servicios web de Amazon: tienen un gran repositorio de conjuntos de datos disponibles públicamente, el Proyecto Genoma Humano destaca como importante.
  • Otras fuentes interesantes incluyen: UNICEF, Centro Nacional de Datos Climáticos, Healthdata.gov, The New York Times (deberá solicitar una API para acceder a los datos).

Hay toneladas de otros sitios web, repositorios que proporcionan conjuntos de datos. Muchas personas activas en GitHub proporcionan el conjunto de datos que utilizaron para admitir su código en sus repositorios.

¡Espero que esto haya sido útil y feliz de analizar!

Descargo de responsabilidad: soy cofundador de @GreyAtom y ayudo a talentos de ingeniería a encontrar carreras sostenibles en tecnologías emergentes.

El programa insignia altamente selectivo de GreyAtom tiene como objetivo orientar a los profesionales que trabajan y los más novedosos en el inicio de su carrera de ciencia de datos. Los estudiantes desarrollan proyectos sobre conjuntos de datos REALES y declaraciones de problemas proporcionadas por nuestra industria y socios de contratación. El programa se basa en el aula y se basa en la práctica. GreyAtom es un ecosistema donde los estudiantes pueden aprovechar lo mejor de la academia, profesionales de la industria y personas influyentes.

Algunos enlaces rápidos

  • Programa – http://www.greyatom.com/full-sta…
  • Chatee con un consejero académico : le invitamos a compartir todas sus dudas e inseguridades, a las que haremos todo lo posible para guiarlo hacia su camino profesional hacia el éxito. https://calendly.com/greyatom/co…
  • Panel de discusión en GreyAtom – https://www.youtube.com/watch?v=… https://www.youtube.com/watch?v=…

More Interesting

¿Qué programa de posgrado debería elegir para ser un buen científico de datos, sin embargo, mi promedio de calificaciones es inferior a 3.0?

¿Es posible que una persona que ha trabajado durante tres años en soporte de TI se mueva a la ciencia de datos? En caso afirmativo, ¿cómo comenzar y avanzar?

¿Por qué es Apache Spark popular entre los científicos de datos?

¿Qué pasos debo seguir para entrar en el campo de la ciencia de datos?

Cómo solicitar el puesto de científico de datos en McKinsey

¿Cuáles son las habilidades típicas que poseen los científicos de datos especializados en 'búsqueda' que la mayoría de los otros científicos de datos probablemente no tendrían?

¿Cuánto es importante saber sobre IR, PNL y modelado de temas para convertirse en un buen científico de datos? ¿Cuán relevantes son estos para la ciencia de datos?

¿Qué tan diferente es una maestría en análisis de una maestría en ciencia de datos?

¿Cuáles son los mejores cursos de científicos de datos en Bangalore?

Actualmente soy un ingeniero de control de calidad que aspira a convertirse en científico de datos. ¿Qué tan práctico es hacer la transición?

¿Tengo que aceptar un trabajo como desarrollador de Hadoop primero para convertirme en científico de datos?

¿Cuál es la mejor manera de convertirse en un científico de datos para alguien con experiencia en comercio y 3.5 años de experiencia corporativa?

¿Analista de datos o curso de licenciatura en ciencia de datos para profesionales que trabajan en Delhi NCR?

Cómo convertirse en un científico de datos desde un nivel principiante absoluto a un nivel avanzado

¿Cuáles son los requisitos esenciales para ser un científico de datos?