3 raisons pour lesquelles les développeurs font d'excellents data scientists
La science des données s'est rapidement développée au cours des deux dernières années, les ingénieurs en apprentissage automatique, les ingénieurs en Big Data et les scientifiques des données se classant parmi les
Ceci est une des raisons formation, cours et programmes diplômants en science des données gagnent en popularité, aidant les professionnels à maîtriser les compétences dont ils ont besoin pour répondre aux exigences de ce domaine en plein essor.
Et lorsqu'il s'agit de faire la transition vers une carrière dans les données, un groupe de professionnels peut être mieux placé que la plupart : les développeurs.
Voici trois raisons pour lesquelles les développeurs Web font d'excellents scientifiques des données.
Ils ont une formation en curation de données
La science des données couvre généralement deux grands domaines : l'analyse des données et la conservation des données. Analytics traite de l'analyse et de l'extraction d'informations et de connaissances pertinentes à partir de données. Il s'agit de l'activité que les gens associent le plus souvent aux scientifiques des données : traiter des chiffres et produire des informations exploitables et des modèles prédictifs. Mais il y a un autre aspect à la science des données : trouver comment collecter, gérer, conserver, documenter, transformer, modifier et accéder aux données de manière efficace et efficiente afin que l'analyse soit possible. Dans le milieu universitaire, ces activités sont souvent appelées curation de données .
La conservation des données implique la capture, la modélisation, la gestion, la documentation, le stockage, la transformation et la récupération des données. Dans le monde professionnel, les titres pour un spécialiste de la curation de données incluent Ingénieur de données , Développeur de données , Développeur Business Intelligence, Spécialiste Big Data, ou parfois juste Scientifique des données.
Ces spécialistes devraient avoir une solide compréhension des aspects suivants :
- Le modèle relationnel et ses différentes implémentations (SQL Server, Oracle Database, MySQL, etc.)
- Bases de données NoSQL comprenant :
- Le modèle Document Store et les bases de données NoSql comme MongoDB
- Bases de données à colonnes larges comme Cassandra
- Les magasins à valeur clé comme Redis
- Le modèle de programmation MapReduce et son implémentation dans Apache Hadoop.
- Les plates-formes de cloud computing comme Services Web Amazon et Microsoft Azure
Ils connaissent les langages de programmation
Les Data Scientists qui réussissent doivent avoir une connaissance des langages de programmation, y compris R, Python (
Cet accent mis sur l'apprentissage continu est idéal pour le domaine encore naissant de la science des données, qui se développe et évolue rapidement. Après tout, lorsque vous démarrez une carrière dans la science des données (et l'analyse de données), l'une des premières étapes consiste souvent à apprendre à créer un modèle prédictif à l'aide de l'apprentissage automatique. Les modèles doivent être formés, testés, ajustés, validés et déployés, et les Data Scientists doivent comprendre chaque étape de ce processus.
Ils savent programmer
Le défi pour les Data Scientists à l'avenir ne sera pas de construire les modèles prédictifs susmentionnés, mais d'intégrer ces types de boîtes à outils de données dans la pile de production d'une organisation. Et, mis à part une affinité pour les chiffres, cela prend les connaissances en informatique et l'expérience en programmation avant toute autre chose.
Comme Josh Wills, directeur de l'engagement des données chez Slack, l'a dit un jour, un scientifique des données est une personne qui est meilleure en statistiques que n'importe quel ingénieur logiciel, et meilleure en génie logiciel que n'importe quel statisticien.
En d'autres termes, les développeurs avantagent.
Si vous cherchez à faire le saut vers la science des données, consultez BrainStation Cours et programmes de science des données .