7 étapes pour apprendre l'exploration de données et la science des données

Auteur: Eugene Taylor
Date De Création: 12 Août 2021
Date De Mise À Jour: 12 Peut 2024
Anonim
7 étapes pour apprendre l'exploration de données et la science des données - La Technologie
7 étapes pour apprendre l'exploration de données et la science des données - La Technologie

Contenu


Source: Paul Fleet / Dreamstime.com

À emporter:

La science des données s’apprend mieux par la pratique, mais une bonne base de statistiques et d’apprentissage automatique est également importante.

On me demande souvent comment apprendre l'extraction de données et la science des données. Voici mon résumé.

Vous pouvez ainsi mieux apprendre l’exploration de données et la science des données, alors commencez à analyser les données dès que vous le pouvez! Cependant, n'oubliez pas d'apprendre la théorie, car vous avez besoin d'une base solide de statistiques et d'apprentissage automatique pour comprendre ce que vous faites et pour trouver de véritables pépites de valeur dans le bruit des données volumineuses.

Voici sept étapes pour apprendre l’exploration de données et la science des données. Bien qu'ils soient numérotés, vous pouvez les faire en parallèle ou dans un ordre différent.


  1. Langages: Apprendre R, Python et SQL
  2. Outils: apprendre à utiliser les outils d'exploration de données et de visualisation
  3. livres: lisez des livres d'introduction pour comprendre les principes fondamentaux
  4. Education: Regardez des webinaires, suivez des cours et envisagez un certificat ou un diplôme en informatique (pour en savoir plus, consultez Ben Loricas - Comment entretenir un scientifique de données.)
  5. Données: vérifier les ressources de données disponibles et y trouver quelque chose
  6. Compétitions: Participer à des compétitions d'exploration de données
  7. Interagissez avec d'autres scientifiques de données, via des réseaux sociaux, des groupes et des réunions

Dans cet article, j'utilise l'extraction de données et la science des données de manière interchangeable. Voir ma présentation, Analytics Industry Overview, où je regarde l'évolution et la popularité de différents termes tels que statistiques, découverte de connaissances, exploration de données, analyse prédictive, science des données et big data.


1. Apprentissage des langues

Un récent sondage KDnuggets a révélé que les langages les plus populaires pour l’exploration de données sont R, Python et SQL. Il existe de nombreuses ressources pour chacune, par exemple:

  • Livre électronique gratuit sur la science des données avec R
  • Débuter avec Python For Data Science
  • Python pour l'analyse des données: outils agiles pour les données du monde réel
  • Un python indispensable: Data Sourcing to Data Science
  • W3 Schools Learning SQL

2. Outils: logiciels d'exploration de données, de science des données et de visualisation

Il existe de nombreux outils d’exploration de données pour différentes tâches, mais il est préférable d’apprendre à utiliser une suite d’exploration de données prenant en charge l’ensemble du processus d’analyse de données. Vous pouvez commencer avec des outils open-source (gratuits) tels que KNIME, RapidMiner et Weka.

Cependant, pour de nombreux travaux d’analyse, vous devez connaître SAS, principal outil commercial largement utilisé. MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler et Rattle sont d'autres logiciels d'analyse de données et d'exploration de données populaires.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

La visualisation est une partie essentielle de toute analyse de données. Apprenez à utiliser Microsoft Excel (utile pour de nombreuses tâches plus simples), les graphiques R (en particulier ggplot2) et aussi Tableau - un excellent package pour la visualisation. TIBCO Spotfire et Miner3D sont d’autres bons outils de visualisation.

3. livres

Il existe de nombreux livres de Data mining et Data Science disponibles, mais vous pouvez les vérifier:

  • Exploration et analyse de données: concepts et algorithmes fondamentaux, téléchargement gratuit en format PDF (version préliminaire), par Mohammed Zaki et Wagner Meira Jr.
  • Exploration de données: outils et techniques d’apprentissage automatique pratiques, par Ian Witten, Eibe Frank et Mark Hall, des auteurs de Weka, et utilisation extensive de Weka dans des exemples
  • Les éléments de l'apprentissage statistique, de l'exploration de données, de l'inférence et de la prévision, par Trevor Hastie, Robert Tibshirani, Jerome Friedman. Une excellente introduction pour les mathématiques
  • LIONbook: Learning and Intelligent Optimization, de Roberto Battiti et Mauro Brunato, disponibles gratuitement sur le Web, chapitre par chapitre
  • Ouvrage sur l'extraction de données volumineuses, par A. Rajaraman, J. Ullman
  • StatSoft Electronic Statistics book (gratuit), inclut de nombreux sujets d'exploration de données

4. Éducation: Webinaires, cours, certificats et diplômes

Vous pouvez commencer par regarder certains des nombreux webinaires et webémissions gratuits sur les derniers sujets en matière d’analyse, de données volumineuses, d’exploration de données et de science des données.

Il existe également de nombreux cours en ligne, courts et longs, dont beaucoup sont gratuits. (Voir le répertoire d’éducation en ligne de KDnuggets.)

Vérifiez en particulier ces cours:

  • Machine Learning, à Coursera, enseigné par Andrew Ng
  • Apprendre des données chez edX, enseigné par le professeur Caltech Yaser Abu-Mostafa
  • Cours en ligne ouvert sur la science des données appliquées, de Syracuse iSchool
  • Data Mining avec Weka, cours en ligne gratuit
  • Consultez également des diapositives en ligne gratuites de mon cours de Data Mining, un cours d'introduction d'un semestre au Data Mining.

Enfin, envisagez d’obtenir des certificats en fouille de données, en science des données ou des diplômes supérieurs, comme une maîtrise en sciences des données.

5. données

Vous aurez besoin de données à analyser - voir le répertoire KDnuggets des jeux de données pour l'exploration de données, y compris:

  • Sites et portails de données gouvernementaux, fédéraux, provinciaux, municipaux, locaux et publics
  • API de données, hubs, marchés, plateformes, portails et moteurs de recherche
  • Données publiques gratuites

6. Compétitions

Encore une fois, vous apprendrez mieux par la pratique, alors participez aux compétitions Kaggle. Commencez par des compétitions pour débutants, telles que Prédire la survie du Titan à l'aide du Machine Learning.

7. Interact: réunions, groupes et réseaux sociaux

Vous pouvez rejoindre plusieurs groupes de pairs. Consultez les 30 principaux groupes LinkedIn pour les analyses, les données volumineuses, l'exploration de données et la science des données.

AnalyticBridge est une communauté active pour l'analyse et la science des données.

Vous pouvez assister à certaines des nombreuses réunions et conférences sur l'analyse, le Big Data, l'exploration de données, la science des données et la découverte des connaissances.

Envisagez également de vous joindre à ACM SIGKDD, qui organise la conférence annuelle KDD - la principale conférence sur la recherche dans le domaine.

Cet article est issu de KDNuggets.com. Il a été utilisé avec la permission de l'auteur.