12 conseils clés pour apprendre la science des données

Auteur: Laura McKinney
Date De Création: 3 Avril 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
12 conseils clés pour apprendre la science des données - La Technologie
12 conseils clés pour apprendre la science des données - La Technologie

Contenu


Source: Artinspiring / Dreamstime.com

À emporter:

Les scientifiques de données ont évidemment besoin de solides compétences en mathématiques et en codage, mais la communication et d’autres compétences non techniques sont également essentielles au succès.

Data scientist est le meilleur travail de Emplois pour 2019 en Amérique sur Glassdoor. Avec un salaire de base médian de 108 000 $ et un indice de satisfaction au travail de 4,3 sur 5, plus un bon nombre de postes vacants prévus, cela n’est pas surprenant. La question est: que faut-il faire pour être sur la bonne voie pour se qualifier pour cet emploi?

Pour le savoir, nous avons recherché les conseils donnés à ceux qui cherchent à se lancer dans cette carrière. Cela dépend en grande partie des compétences difficiles en codage et en mathématiques. Mais ce calcul puissant ne suffit pas à lui seul. Les scientifiques de données performants doivent également être en mesure de parler aux hommes d’affaires selon leurs propres termes, ce qui requiert les capacités associées aux compétences non techniques et au leadership. (Pour en savoir plus sur les fonctions de scientifique des données, voir la section Fonction: Scientifique des données.)


Construire la fondation éducative: Trois conseils de base

Drace Zhan, chercheur en données à la NYC Data Science Academy, insiste sur la nécessité de créer une base pédagogique intégrant les bases du codage et des compétences en mathématiques:

  1. R / Python + SQL. Si vous ne possédez pas les compétences de codage, vous avez besoin de beaucoup de puissance de réseautage et d’autres domaines pour renforcer ce déficit. J’ai rencontré des scientifiques spécialisés dans les données ayant de faibles connaissances en mathématiques et peu d’expérience dans le domaine, mais ils ont toujours eu une forte capacité de codage. Python est idéal mais R est un excellent outil de secours. C’est mieux d’avoir les deux dans votre arsenal. SQL est également extrêmement important pour un analyste de données.

  2. Solides compétences en mathématiques. Avoir une très bonne compréhension de quelques-unes des méthodes couramment utilisées: modèles linéaires généralisés, arbre de décision, K-moyennes et tests statistiques est préférable à une vision globale de divers modèles ou spécialisations telles que RNN.

Ce sont des compétences essentielles sur lesquelles s'appuyer, bien que certains experts y ajoutent. Par exemple, une liste KDnuggets inclut les composants de codage mentionnés par Zhan et ajoute quelques informations utiles sur le plan technique, notamment la plate-forme Hadoop Apache Spark, la visualisation de données, les données non structurées, l'apprentissage automatique et l'IA.


Mais si nous nous inspirons d'une enquête sur les outils les plus couramment utilisés, identifiés par une enquête Kaggle, dans la vie réelle, nous obtenons des résultats quelque peu différents. Comme vous pouvez le voir sur le graphique des 15 premiers choix ci-dessous, Python, R et SQL se classent facilement parmi les trois premiers, mais le quatrième est le bloc-notes Jupyter, suivi de TensorFlow, d'Amazon Web Services, du shell Unix, de Tableau, de C / C ++ et de NoSQL. , MATLAB / Octave et Java, tous devant Hadoop et Spark. Un autre ajout susceptible de surprendre, est l’exploration de données Excel de Microsoft.

Courtoisie d'image de Kaggle

La liste KDnuggets comprend également un conseil concernant l’éducation formelle. La plupart des spécialistes des données possèdent des diplômes avancés: 46% ont un doctorat et 88% sont au moins titulaires d’une maîtrise. Les diplômes de premier cycle qu'ils possèdent sont généralement répartis entre des domaines connexes. Environ un tiers d'entre eux sont en mathématiques et en statistiques, ce qui est le plus populaire pour ce type de carrière. Le deuxième plus populaire est un diplôme en informatique, détenu à 19%, et en ingénierie, à un choix de 16%. Bien entendu, les outils techniques propres à la science des données ne sont souvent pas étudiés dans les programmes menant à un grade, mais dans des camps d'entraînement spécialisés ou par le biais de cours en ligne.

Plus que des cours: deux autres conseils

Hank Yun, assistant de recherche au département de pneumologie de Weill Cornell Medicine et étudiant à la NYC Data Science Academy, conseille aux scientifiques expérimentés en matière de données de planifier leur travail et de trouver un mentor. Il a dit:

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Ne commettez pas l’erreur que j’ai commise en vous disant que vous connaissez la science des données car vous avez suivi un cours et obtenu un certificat. C’est un bon début, mais lorsque vous commencez à étudier, partez pour un projet. Trouvez ensuite un mentor sur le terrain et démarrez immédiatement un projet de passion! Quand tu es nouveau, tu ne sais pas ce que tu ne sais pas, alors ça aide quand quelqu'un est là pour te guider vers ce qui est important pour toi et ce qui ne l’est pas. Vous ne voulez pas passer beaucoup de temps à étudier sans rien donner à voir!

Savoir quel outil retirer de votre boîte à outils: Conseil pour rester en avance sur la courbe

Étant donné la disparité dans le classement des outils de science des données, certains peuvent se sentir déconcertés par ce sur quoi se concentrer. Celeste Fralick, responsable informatique chez McAfee, éditeur de logiciels de sécurité, aborde la question dans un article de CIO décrivant les compétences essentielles d'un informaticien. Il déclare: «Un informaticien doit rester à l'avant-garde en matière de recherche, ainsi que comprendre quelle technologie appliquer quand. »Cela signifie ne pas être attiré par le« sexy »et le nouveau, alors que le problème actuel» exige quelque chose de beaucoup plus banal. «Etre conscient des coûts de calcul pour l'écosystème, de l'interprétabilité, du temps de latence, de la bande passante et des autres conditions limites du système, ainsi que de la maturité du client, aide le technicien en informatique à comprendre quelle technologie appliquer.

Compétences douces essentielles: Six autres conseils

Le point soulevé par Fralick a trait aux compétences non techniques requises par le poste de spécialiste des données. C’est pourquoi la liste de KDnuggets comprend ces quatre domaines: curiosité intellectuelle, travail d’équipe, compétences en communication et sens aigu des affaires. Zhan a également inclus des compétences non techniques clés dans ses conseils aux informaticiens, identifiant des «compétences de communication» telles que KDnuggets, mais utilisant «une expertise de domaine» au lieu de «un sens aigu des affaires». Peu importe le nom, il fait référence à une application pratique de la science des données à la Entreprise. (Pour en savoir plus sur les compétences en communication, voir L'importance des compétences en communication pour les professionnels techniques.)

Olivia Parr-Rud a proposé ses propres solutions, en mettant l'accent sur le rôle de la créativité, affirmant: "Je pense que la science des données est un art autant qu'une science", ce qui nécessite de s'appuyer sur les forces des deux côtés du cerveau. «Beaucoup de gens parlent de la science des données comme d’une carrière qui utilise principalement le cerveau gauche. J'ai constaté que pour réussir, les scientifiques de données doivent utiliser tout leur cerveau. "

Elle a expliqué que pour progresser sur le terrain, il fallait non seulement des compétences techniques, mais aussi la créativité et la vision nécessaire pour diriger:

La plupart des tâches linéaires / cérébrales gauches peuvent être automatisées ou externalisées. Pour offrir un avantage concurrentiel en tant que scientifiques de données, nous devons être en mesure de reconnaître les modèles et de synthétiser de grandes quantités d’informations en utilisant les deux côtés de notre cerveau. Et nous devons être des penseurs novateurs. Plusieurs des meilleurs résultats résultent de l'intégration des cerveaux gauche et droit.

Elle a également souligné les raisons pour lesquelles il est essentiel de communiquer une vision:

En tant que data data, notre objectif est d’utiliser les données pour aider nos clients à accroître leurs bénéfices. La plupart des cadres ne comprennent pas ce que nous faisons ou comment nous le faisons. Nous devons donc penser comme des leaders et communiquer nos conclusions et nos recommandations dans un langage que nos parties prenantes comprennent et sur lequel ils ont confiance.

La douzaine de données

Les conseils clés intègrent un plus grand nombre d'outils techniques, de compétences et de capacités, ainsi que des qualités moins quantifiables telles que l'aptitude à la créativité et au leadership. En fin de compte, ce n’est pas simplement un jeu de chiffres. Comme la science des données ne consiste pas simplement à créer des modèles en vase clos mais à proposer des applications pratiques pour résoudre les problèmes concrets des entreprises, ceux qui réussiront sur le terrain doivent non seulement maîtriser la technologie, mais aussi connaître leur domaine d'activité et comprendre les besoins des utilisateurs. les différents membres de l'équipe au travail.