Machine learning, data science, big data, data mining, já ouviu falar sobre esses temas, não? Pois é, vamos conversar um pouco sobre eles?

Antes disso, deixa eu me apresentar. Meu nome é Pedro, concluinte de Ciências da Computação, e cerca de seis meses atrás eu não sabia nada sobre o tema, e depois do Google I/O 2017 me desafiei a me ambientar com ele – ainda hoje espero ansiosamente o Google Lens. Adentrar na área foi algo bem difícil, primeiramente, por quê antes de meter a mão na massa, sempre gostei de ter alguma base da teoria, e infelizmente é um pouco difícil de achar material em português; e também pela necessidade  de ter pessoas com quem conversar, discutir, tirar dúvidas – ta aí porque tento participar sempre dos eventos do GDG =). O foco do meu estudo é na análise e mineração de dados e também da aplicação de algoritmos, deixando para uma outra oportunidade outros temas como redes neurais, deep learning ou aprendizado com visão computacional.

O objetivo do artigo então, é recomendar formas para organizar os estudos, e como utilizei anteriormente, se ambientar com a ciência de dados, ainda não tenho experiência o suficiente para ensinar, mas posso repassar os caminhos que uso pra aprender. Recentemente foi lançado um curso pela Google e ganhou popularidade, porém não recomendo começar os estudos por cursos. A experiência que tive com eles não foi boa pelo fato de iniciarem com atividades práticas já mostrando dados e os aplicando à modelos, dando explicações superficiais do que estava acontecendo.

O conteúdo teórico

Durante esse período, as melhores fontes de informação teóricas foram o livro Introdução À Mineração de Dados, junto ao artigo Técnicas de Mineração de Dados. O livro tem como papel principal abordar as principais definições, com exemplos úteis, utilizando sempre da subestimada visualização de dados. Já o artigo apresenta os fluxos que podem ser seguidos para a construção de um modelo de aprendizagem, e a utilização dos conceitos, este pode ter uma curva maior de aprendizagem por requerer um conhecimento matemático que não é introduzido. Cheguei também a ler um pouco do Data Science for Business, e também o Introduction to Machine Learning with Python, mas ler livro didático em inglês acabou não ajudando muito.

Colocando a mão na massa

Aprendendo alguns dos conceitos, os requisitos da área e tendo alguma noção do assunto, podemos aprender como funciona na prática. Existem inúmeras ferramentas que podemos utilizar, as principais linguagens que podemos escolher são: R, Python ou Java. Escolhi utilizar Python também por conta do Google I/O, quem sabe um dia ainda venho falar pra vocês aqui um pouco do TensorFlow. Existem várias opções de cursos online, dos gratuitos se destacam o da própria Google, o Machine Learning Crash Course, os cursos da Coursera, que podem ser feitos gratuitamente, porém sem emissão de certificado e também os tutoriais fornecidos pelo Kaggle; já dos pagos, vou recomendar o que estou finalizando na Udemy, e os cursos da Data Science Academy, que me foi muito recomendado.

Se cercando de conteúdo

Pra finalizar, queria repassar um pouco do conteúdo online sobre ciências de dados que acompanho:

Quer aprender ou discutir mais sobre Data Science? Quem sabe até criar um grupo de estudos? Inscreva o seu e-mail aqui!