Este é um repositório em constante construção e atualização. Adiciono aqui técnicas de estudo e fontes que considero boas para o aprendizado de ciência de dados, com o objetivo de manter recursos organizados para consulta e ajudar quem se interessa pelo tema. O conteúdo aqui compilado vai do básico ao avançado.
Todas as fontes aqui referenciadas foram vistas e curadas por mim, e este repositório também me serve como fácil retorno a bons conteúdos.
- Como estudar
- Python and Data Analysis basics
- Data Engineering
- Data Visualization
- Machine Learning - Teoria
- Machine Learning - Prática
- Time Series
- Deep Learning - Neural Networks
- Transformers
- NLP - Natural Language Processing
- LLMs
- Computer Vision
- RecSys
- Marketing Mix Modeling
- Survival Analysis
- Deploy
- MLOps
- Tech Management
- Youtube channels
- Perfis no twitter
- AI with Karpathy - vídeo: minuto 3 ao 23 - Karpathy
- Criar um documento (Word, Notion, Evernote etc) pessoal com a sua organização do que vc já aprendeu/estudou e o que planeja aprender/estudar, de preferência organizado por mês ou bimestre. Procurar manter este doc atualizado
- Instalar a extensão video speed controller no google chrome (funciona em qualquer vídeo tocado pelo chrome browser), e aprender a usar
- Sempre estude do geral para o específico: top-down learning
- Para cada dose de teoria, uma dose de prática: problem-based learning
- Ao entrar em um assunto novo, ver um ou dois vídeos de ~10 min no youtube, pesquisar sobre o tema focando em material escrito, e estudar aplicações
- Evitar ficar muito tempo na parte teórica: Qualquer assunto novo tem suas aplicações via bibliotecas específicas. Se familiarizar com a documentação é o primeiro passo para aplicar o que aprendeu
- O segundo passo é a aplicação e uso, parte prática: Resolver problemas usando IA: Pesquisar aplicações no Kaggle (notebooks), fazer o fork (Copy and Edit), adicionar ideias.
- Evitar tentar reinventar a roda: aproveitar os códigos que já existem
- Adicionar aplicação ao seu repositório pessoal (público ou privado - kaggle ou github) de forma organizada para que você possa facilmente consultá-la no futuro
- Desde ~2020, nem os papers do arxiv e nem blogposts conseguem acompanhar a velocidade no avanço no ML/DL. As publicações acontecem de forma muito mais rápida e dinâmica no twitter, que é absolutamente fundamental pra quem quer acompanhar o estado da arte. Exemplo
- O twitter deve ser utilizado como ferramenta de estudo e atualização. Funciona muito bem como dose diária de aprendizado, e ajuda muito a acompanhar o trabalho de outros cientistas de dados e pesquisadores.
- Ferramenta essencial não só para o acompanhamento dos avanços na área de ciência de dados e papers publicados, mas também para a absorção de dicas e experiências compartilhadas sobre casos reais de DS na indústria e área de negócios.
- Nenhuma outra plataforma te entrega a informação de forma tão rápida e curada.
- Ver sugestões de perfis a seguir no final deste documento.
- Focar em Google Colab e Kaggle notebooks.
- No futuro, é interessante conhecer IDEs como VS Code, PyCharm e Spyder.
- Data Scientist: The Sexiest Job of the 21st Century - artigo out/2012
- Is Data Scientist Still the Sexiest Job of the 21st Century? - artigo jul/2022
- Never memorize code
- How to Code with AI in 2025 (For Non-Coders)
- 3 Tips to Build a Career in Machine Learning
- How to learn data science smartly
- Pandas tutorial - kaggle learn - Fazer o fork dos notebooks e aprender praticando
- Use pandas like a pro
- Dataframe efficiency with dtypes - intro - Rob Mulla
- Example of "reduce_memory_usage" function
- pandas cheat sheet
- Learn Pandas with pokemons
- Handling Missing Data
- Statistics: most important concepts
- Importar e ler csv, criar dataframe
- Checar tipos de variáveis (data types): numéricas e categóricas
- Plots básicos
- Analisar missing values (valores faltantes), tomar decisões sobre o que fazer com eles
- Analisar outliers, decidir o que fazer com eles
- Análise univariada, bivariada, multivariada (variáveis categóricas e numéricas)
- Feature Engineering (criação de variáveis)
- Deixar dados prontos para eventual modelagem de IA
- Definir Features and Target (if it is a supervised problem)
- Preprocess: Scaling and categorical encoders
- Check Target distributions
- Check features distributions, normalize them if needed
- Split train/validation datasets: Definir estratégia confiável de validação dos modelos (cross-validation strategy)
- Definir métricas de avaliação dos modelos
- Criar um baseline simples sem usar machine learning, e avaliar usando as métricas definidas
- Choose algorithm, train and validate model: create simple baseline using a ML model: Lei de Gall
- Evaluate model (fora da etapa de modelagem: cruzamento com business KPIs)
- Melhorar baseline: criar variáveis melhores (feature engineering), tunar hiperparâmetros, testar outros algoritmos, treinar e avaliar de novo
- Missing values & XGBoost
- OOF analysis & Error analysis
- Experimentos de Feature selection e preprocessing: diferentes sets de features e diferentes etapas de pré-processamento
- Melhorar explicabilidade
- Ensemble: combinar modelos para aumentar performance, estabilidade e poder de generalização
Um pouco de Engenharia de Dados (para cientistas de dados):
- Data Warehouse, Data Lake, Data Lake House, Data Mesh
- End to End Azure Data Engineering Real Time Project Demo
- Pyspark playlist
- Python Graph Gallery
- Visual Reference
- Séries de notebooks de visualização - ao final de cada notebook tem um link para o próximo
- Data Analysis - Brazilian Society (PNAD) - @hinepo
- Rio Temperature Analysis - @hinepo
- Power BI playlists
- Power BI - Leonardo Karpinski
- Power BI - Karine Lago
- Power BI + DAX + Projetos na prática - Curso Udemy
- graphviz - exemplos
- Supervised x Unsupervised Learning
- Supervised x Unsupervised Learning: applications
- Pesquisar sobre Overfitting e Underfitting, ver vídeos e gráficos
- Cross Validation
- Cross Validation - scikit docs
- Pesquisar sobre Cross Validation para Time Series (como evitar contaminação de dados do futuro pro passado, data leakage, train/test contamination...)
- Kaggle courses
- pdf do livro do Abhishek Thakur - disponível na Amazon tb
- Statquest - Vídeos sobre conceitos, teoria e matemática de algoritmos e ML
- Scikit-learn User Guide - Muito importante ler todo o item 1
- Scikit-learn Pre-processing
- Pesquisar sobre "Feature Engineering" (criação de variáveis)
- Pesquisar sobre métricas e como avaliar modelos:
- Classificação: Accuracy, ROC AUC, f1-score, recall, precision, MCC, Log Loss e Balanced Log Loss
- Regressão: RMSE, NRMSE, MSE, MAE, MAPE, Tip about MAPE, R²
- Transforming skewed data - como tratar o viés nos dados
- Outros conceitos importantes: Pesquisar sobre Boosting (XGBoost, LGBM, Catboost, GBM), Bagging, Split train/test, data leakage, time series, feature importances, ensemble...
- Imbalanced learning:
- Kaggle's 30 Days of ML - Abhishek Thakur
- Feature Engineering - Mark Tenenholtz
- SHAP (SHapley Additive exPlanations)
- Target encoding - kaggle Learn
- Target encoding - blog post
- 11 Categorical Encoders and Benchmark - kaggle
- Adversarial Validation
- Browse kaggle, ver notebooks e datasets dos assuntos que te interessam
- Fazer forks de notebooks do kaggle (Copy and Edit), testar hipóteses e técnicas
- Falar com as pessoas do kaggle, comentar e postar, fazer parte da comunidade
- Competições 'Getting Started': estudar notebooks com bom score, e usar técnicas e conceitos aprendidos para criar o seu próprio. Estudar notebooks com score médio, comparar com os de score bom, e entender o que causou a melhora na pontuação. Recomendo no mínimo uns 10 dias de estudo para cada uma das competições abaixo:
- Titanic Classification
- House Prices Regression
- Predict Future Sales
- Tabular Playground Series
- Nível avançado: competições reais (valendo prêmios)
- Optuna library
- Optuna example - notebook - @hinepo
- Optuna example - Abhishek Thakur
- Optuna official tutorial
- Tuning techniques - Abhishek Thakur
- Rob Mulla tutorial
- 3 methods for Time Series validation
- Error Analysis for Time Series - Mark Tanenholtz
- More time series tips from Mark
- Even more time series tips from Mark
- Classic features for time series models
- Techniques for working with time series data
- Time Series basic concepts
- Time Series - Youtube playlist
- pmdarima, statsmodels, ARIMA, SARIMA, prophet, theta model
- Case Zillow, Prophet, Time Series, & Prices
- Time-series prediction with XGBoost
- XGBoost for time series example
- Tabular Machine learning approach para múltiplas séries temporais:
- Create Lag features
- Group by série, tail(1)
- Validation strategy, Types of leakage, Evaluation
- Exemplos, notebooks e datasets bons:
Principais conceitos e keywords a pesquisar e aprender: tensors, gradient descent, automatic differentiation, forward pass, backpropagation, layers, batch, epoch, iteration, optimizer step, scheduler step, vanishing gradients, exploding gradients, transfer learning (fine-tuning & feature extraction)...
Basics:
- Neural Networks - 3Blue1Brown Playlist (~1h)
- Aula Intro de DL - Lex Friedman
- Deep Learning & Bugs - discussion
- Exploding and Vanishing gradients
- Regression Networks - The Magic of No Dropout
- Kaggle Grandmasters Tips to train deep learning models
- Deep Learning Tuning Playbook
- How To Tune Learning Rate Scheduler
- LSTM & GRU in 11 minutes
Frameworks:
Keras:
Tensorflow:
Pytorch:
- Pytorch Model In Minutes - Rob Mulla
- Pytorch DataLoader animation
- Finetuning x Feature Extraction - pytorch docs and examples
- Pytorch - Abhishek Thakur playlist and tutorials
- Pytorch - torch.nn
- Vídeo aulas com code examples (pytorch)
Um estudo muito útil e proveitoso é comparar e olhar em paralelo as documentações de Quick Start do Keras, do Tensorflow e do Pytorch. A lógica é bem parecida e existem muitas analogias:
Principais tipos de camadas (layers):
- Dense & Linear (fully connected)
- Activation functions (ReLU, LeakyReLU, SELU, PReLU, Tanh, Softmax, Sigmoid....)
- Conv (Convolutional)
- Flatten
- BatchNorm, LayerNorm, RMSNorm
- LSTM (Long Short Term Memory), BiLSTM
- GRU (Gated Recurrent Unit - Short Term Memory), BiGRU
- Dropout
- Pooling (Max, Mean, Average, Generalized Mean etc)
- Concatenate
- Do We Really Need Deep Learning Models for Time Series Forecasting? - paper oct/2021
- Tabular Data: Deep Learning Is Not All You Need - paper nov/2021
"JAX is Autograd and XLA, brought together for high-performance numerical computing and machine learning research. It provides composable transformations of Python+NumPy programs: differentiate, vectorize, parallelize, Just-In-Time compile to GPU/TPU, and more."
"JAX is NumPy on the CPU, GPU, and TPU, with great automatic differentiation for high-performance machine learning research."
JAX é um projeto open source do Google com o objetivo de criar uma API simples e backend eficiente para cálculos de deep learning. Tem crescido em popularidade e sido considerada muito promissora por pesquisadores. Imagina-se que em alguns anos será um concorrente direto do Pytorch (na área de pesquisa), e também deverá substituir o backend do tensorflow (na área de aplicações). Há quem chame o JAX de "tensorflow 3", e já existem planos para criação de uma API high level para JAX, adaptando a biblioteca Keras para usar JAX como backend. Portanto, é interessante conhecer.
Os Transformers e o Attention Mechanism, propostos em 2017 por Vaswani - Google Brain no paper Attention Is All You Need, são, até hoje, a maior revolução que o mundo do Deep Learning já passou. Vale a pena estudá-los com atenção (pun intended 😆), pois eles são o estado da arte em redes neurais hoje em dia para a maioria dos tasks, e pelo visto continuarão sendo por bastante tempo.
Transformers mostraram que não é preciso usar camadas LSTM para fazer tasks de NLP no estado da arte, e também não precisamos de camadas de Convolução para fazer CV (Computer Vision) no estado da arte. Attention Is All You Need.
- How to read papers - twitter thread
- Attention Is All You Need - paper dec/2017
- BERT - paper may/2019
- RoBERTa - paper jul/2019
- SBERT - paper aug/2019 - Sentence Transformers
- TaBERT - paper may/2020 - Learning Joint Representations over Textual and Tabular Data
- T5: Text-To-Text Transfer Transformer - paper jul/2020
- Longformer - paper dec/2020 - Local Attention
- ViT - paper jun/2021 - Vision Transformers
- Swin Transformer - paper aug/2021 - Shifted Window based Self-Attention
- DeBERTa - paper oct/2021 - Disentangled Attention
- Attention explained - Lightning AI - 4 min
- BERT Attention Mechanism
- Illustrated Guide to Transformers
- The Illustrated Transformer
- The Annotated Transformer
- Attention implementation in torch from scratch - twitter thread - Abhishek Thakur
- Attention implementation in torch from scratch - twitter thread 2 - Abhishek Thakur
- Transformers from Scratch - explicação visual e detalhada
- Awesome Self-Supervised Learning - github repo
Principais conceitos e keywords a conhecer: n-grams, CountVectorizer, TF-IDF, BOW (Bag of Words), CBOW (Continuous Bag of Words), Word2vec, FastText (facebook model), GloVe (Global Vectors), BERT, RoBERTa, Hugging Face....
- A brief timeline of NLP from Bag of Words to the Transformer family
- Bag of words & ML models
- Word vectors & Deep Learning
- Context vectors & Transformers
- The Illustrated Word2vec - A Gentle Intro to Word Embeddings in Machine Learning
- Resumo Hugging face library - 15 min video
- Hugging face - finetune a pretrained model: Trainer, native Pytorch, native Tensorflow
- Hugging Face course - excelente curso. HF é o melhor ecossistema de NLP e continuará sendo por muitos anos
- 10 Things You Need to Know About BERT and Transformer Architecture
- A Survey of Transformers - paper jun/2021
- Question Answering & Chatbot on private pdf (without LangChain) - Abhishek
- BERT tutorial by Abhishek Thakur
- Transformers in Tensorflow
- NLP guide - kaggle learn
- Hugging Face tutorial - video (30 min)
Large Language Models
- State of GPT - Andrej Karpathy
- Eight Things to Know about Large Language Models - AI Coffee Break With Letitia
- The busy person's intro to LLMs - Andrej Karpathy
- Vector databases and use cases
- LLM Based Chatbot to query your Private Knowledge Base - System Architecture
- Bits and Bytes + Hugging Face integration
- RLHF: Reinforcement Learning from Human Feedback
- Understanding PEFT (Parameter-Efficient Finetuning)
- LoRA
- QLoRA: Efficient Finetuning of Quantized LLMs
- How to generate text: decoding methods
- Text generation strategies - Hugging Face Generation docs
- LangChain Explained in 13 Minutes
- LangChain - Quickstart
- 8 use cases with LangChain
- Multiple-document retriever
- Talk to your data
- Chatbot memory types in LangChain
- RAG: Question-Answering chatbot with LangChain and Harry Potter - @hinepo
- Retrieval augmentation tips
- OpenAI roadmap for building production RAG systems
- RAG + StrOutputParser, RunnablePassthrough, RunnableMap, itemgetter
- Building RAG-based LLM Applications for Production - Goku Mohandas
- Advanced RAG Strategies - RAGOps - video
- RAG - Contextual Compression - Paulo Junqueira
- RAG - Hybrid Search - Paulo Junqueira
- 10 Ways to Improve the Performance of Retrieval Augmented Generation Systems
- Advanced RAG - Langchain code examples
- RAG Evaluation
- Advanced RAG - Query Optimization - Gabriel Vinicius
Rag vs Finetuning
There are many ways to finetune a LLM. Some examples are: Instruction Finetuning, Preference Finetuning, Class Finetuning and Regression Finetuning.
- LLM Instruction Finetuning + WandB - @hinepo
- LLM Alignment: Preference Finetuning - DPO, SLiC, IPO, KTO - @hinepo
- How to Fine-Tune LLMs in 2024 with Hugging Face - philschmid
- RLHF in 2024 with DPO & Hugging Face - philschmid
- Fine-Tune Your Own Llama 2 Model in a Colab Notebook
- Synthetic data creation for LLMs - @hinepo
- Synthetic data - Hugging Face: Few-shot vs DeBERTa finetuned on Synthetic data
- SPIN: Self-Play Finetuning for LLMs - @hinepo
Basics:
- Tool Calling with LangChain
- ReAct: Synergizing Reasoning and Acting in Language Models - paper mar/2023
- AgentExecutor in Langchain and LangGraph
- Function Calling Agents vs. ReACt Agents – What's Right for You?
- Advanced RAG with Agents - video
- Advanced RAG with Agents - code
- Function Calling with Local Models - Ollama, Llama-3, Phi-3
Langchain docs:
Hugging Face Agents
- Stop Prompting & Start Programming: DSPy Examples
- Automatic Prompt Generation with DSPy Agents
- Intro to DSPy: Goodbye Prompting, Hello Programming!
- DSPy - Github
- DSPY: Compiling Declarative Language Model Calls Into Self-Improving Pipelines - paper oct/2023
- Deploying open source models at scale - twitter post and blog post - Chip Huyen
- GenAI + Classical ML - Chip Huyen
- Comcast - Exemplo de um sistema de LLM em Produção
- Microsoft LLM Team - Why is it so hard to ship a simple LLM feature?
- Patterns for Building LLM-based Systems & Products
- Building LLM applications for production
- Speculative execution for LLMs - Karpathy
- Speculative decoding - Yam Peleg
- LangChain in Production - Microservice Architecture
- LLM Evaluation
- LLM Guard
- LLM Safeguards - notebook @hinepo
- AWS Bedrock
- Azure OpenAI Service - Content Filtering
- Assertions - paper jan/2024
- Topic Modeling com BERTopic, UMAP, HDBSCAN e Llama-2
- Mastering Customer Segmentation with Embeddings and Clustering
- LLM-PowerHouse - Great collection of code and articles
- LLM Course with code examples
- Image Processing with OpenCV and Python
- How to work with video data
- OpenCV Tutorials
- Image and Video processing - Great Barrier Reef
Existem várias versões do algoritmo Yolo. Vale a pena dar uma olhada nas evoluções que ocorreram desde o lançamento da versão original em 2015.
Porém, hoje em dia o pacote Ultralytics é a melhor forma de usar Yolo, e inclui várias versões e variações do Yolo e também de outros algoritmos.
Algumas funcionalidades:
- Tasks: Detection, Segmentation, Classification e Pose Estimation
- Modes: Train, Validate, Predict, Export, Tracking e até Benchmarking de performance
É muito importante ler toda a documentação do Ultralytics.
- Ultralytics docs
- YOLO Introduction
- YOLOv5 tutorial - notebook
- How to Train YOLOv8 Object Detection on a Custom Dataset - using folder structure and LabelImg
- How to Train YOLOv8 Object Detection on a Custom Dataset - using Roboflow
- Supervision docs - A lot of common Computer Vision utilities and features out of the box
Aplicações:
- YOLOv8 Finetuning for PPE detection - @hinepo
- YOLOv8 Inference for Red Zone application - @hinepo
- YOLOv9 + Supervision: Heatmap + Tracking + Counting - @hinepo
- YOLO-World: Zero-shot object detection
- Ultralytics YOLOv8 Solutions: Quick Walkthrough
- Traffic Analysis with YOLOv8 and ByteTrack - Vehicle Detection and Tracking
- YOLOv8 - Detecting and Counting vehicles - Paulo Junqueira
- YOLOv8 segmentation in 12 minutes
- YOLOv5 - Great Barrier Reef - Train
- YOLOv5 - Great Barrier Reef - Inference
- YOLOv5 tutorial by Abhishek Thakur
- Computer Vision History by Andrej Karpathy (até 2016)
- Kernel size in convolution layers
- Digit Recognizer: Getting Started Competition - ‘Hello World’ do mundo de CV: Estudar vários notebooks com bom score, e depois criar o seu misturando várias técnicas que vc achou promissoras em outros notebooks, tentando melhorar o score do baseline. Recomendo no mínimo uns 10 dias de estudo para essa competição.
- chatGPT resolvendo MNIST usando keras
- Pytorch tutorial for image classification - @hinepo
- Ensemble for image classification - @hinepo
- Transfer learning for CV guide - kaggle learn
- Dev Ideas - Treinamentos sobre visão computacional
O que o Hugging Face é para NLP é análogo ao que a biblioteca timm é para computer vision: um ecossistema open source, consolidado e no estado da arte, que disponibiliza uma API simples e unificada para uso de modelos, além de centenas de excelentes modelos multi-propósito (multi-task, general purpose models), já pré-treinados durante semanas em GPUs e TPUs de dezenas de milhares de dólares, todos prontos para usarmos apenas adicionando uma última camada na rede neural para atender ao nosso task/problema. Isso se chama feature extraction, e evita que tenhamos que treinar esses modelos gigantes from scratch.
- timm tutorial
- timm: pytorch image models
- timm: getting started
- timm: overview
- Pytorch/timm tutorial for transfer learning - @hinepo
- AlexNet - paper sep/2012
- ResNet - paper dec/2015
- ResNeXt - paper apr/2017
- Squeeze-and-Excitation Networks - SE ResNet - paper may/2019
- Self-Training with Noisy Student - paper jun/2020
- EfficientNet - paper sep/2020
- Meta Pseudo Labels - paper mar/2021
- A ConvNet fot the 2020s - ConvNext paper jan/2022
- ViT - 5 min video
- ViT - Hugging Face
- ViT exemplo - tranformer library
- ViT exemplo - timm library
- Swin Transformer
- OTTO competition é o melhor e mais completo material sobre sistemas de recomendação, incluindo muitas abordagens, baselines, códigos, discussões e soluções.
- EDA for e-commerce RecSys: Matrix Factorization + TSNE
- Mastering Recommender Systems | Grandmaster Series E8
- Facebook recommender systems
- An introduction to Recommender Systems - a thread 🧵 - Radek Osmulski
- Recommendation Systems for Large Datasets
- Recommender Systems in Python 101
- Teoria - Khrish Naik
- Prática - Khrish Naik
- RecSys with KNN - Khrish Naik
- Outros vídeos da playlist de RecSys - Krish Naik
- Arquitetura de Sistemas de recomendação - Mario Filho
- Etsy RecSys: from many GBDT models to one NN
- How to validate a recommendation model
- About validation
- About spliting the data
- Script to split the data - exemplo
- H&M Personalized Fashion Recommendations - How To Setup Local CV
- Content based (item similarity / item colaborative filtering)
- User based (user similarity / user colaborative Filtering)
- Word2Vec, FastText
- train from scratch on item sequences
- use Annoy lib to find nearest neighbors
- Co-visitation matrix + heuristic re-ranker (rule-based ranker)
- Ranking models (learning to rank)
- user features
- item features
- user-item interactions features
- co-visitation features
- Matrix Factorization & Matrix Factorization with GPU
- Autoencoder
- LSTM
- Transformers
- GNN (Graph Neural Networks)
- RecBole lib
- Curso 2h
- Multi-touch Attribution Models
- Marketing Mix Modeling
- Incrementality and A/B testing
- MMM models using tree-based ensembles and SHAP
- Lightweightmmm (Bayesian) Marketing Mix Modeling and Lightweightmmm Models
- Artigos de MMM do Mario Filho
- Lifelines - Introduction to survival analysis
- Lifelines - Survival regression
- Lifelines - code example
- xgbse - Loft
- Predictive Maintenance Problems - video
- Survival regression with accelerated failure time model in XGBoost - paper aug/2021
- Deploy pipelines: Feature, Training, Inference
- Data Roles and Data Value Chain
- 4 Types of ML model deployment
- You don't need streaming to do real-time machine learning - Chip Huyen
- Fine-tune and Deploy models with Azure Machine Learning
- Dealing with Train-serve Skew in Real-time ML Models
- A/B Testing with stats
- A/B Testing with bootstrap
- Streamlit - Revolutionizing Data App Creation
- Use docker for deployment, not for development
- Exemplo de Documentação de Modelos - Model Cards for Deployed models
- 7 - Model Deployment and Prediction Service
- Offline evaluation
- Backtesting
- Batch x Online
- Cloud x Edge
- 8 - Data Distribution Shifts and Monitoring
- How to monitor raw inputs, features, predictions, metrics
- 9 - Continual Learning and Test in Production
- Online evaluation
- Shadow Deployment
- A/B Testing
- Canary release
- Interleaving experiments
- Bandits
Deploying is an intervention and humans are agents that react to the predictions. That is the point of most models.
Intro:
- Como é o trabalho de um ML Enginner (MLE)?
- O que é Feature Store - Muito importante
- Capítulo "10 - Infrastructure and Tooling for MLOps" do livro "Designing Machine Learning Systemns - Chip Huyen"
Model Store:
Websites:
Papers:
- MLOps: Overview, Definition, and Architecture - paper mai/2022
- Operationalizing Machine Learning: An Interview Study - paper sep/2022
Tools & References:
Para o desenvolvedor e/ou cientista de dados, a melhor forma de programar e desenvolver um projeto é via Pair Programming. E Pair Programming é melhor via trabalho remoto.
- Pair Programming at OpenAI and Google
- Phillip Singer opinion (Kaggle rank 1)
- Greg Brockman opinion (OpenAI President)
- Jeremy Howard opinion - remote pair programming
- Advantages
- Pair Programming Advantages - video
Abaixo alguns canais nos quais acho válido se inscrever e acompanhar os conteúdos publicados.
- Abhishek Thakur
- AI Coffee Break with Letitia
- Chai Time Data Science
- Medallion Data Science
- Yannic Kilcher
- Krish Naik
- Underfitted
- Andrej Karpathy
- BI Elite
Algumas sugestões:
- Chip Huyen
- Mark Tenenholtz
- Santiago
- François Chollet
- Bojan Tunguz
- abhishek
- Aurimas Griciūnas
- Konrad Banachewicz
- JFPuget
- Chris Deotte
- Goku Mohandas
- Yann Lecun
- Andrew Ng
- James Briggs
- Jim Fan
- Owain Evans
- Yam Peleg
- arXiv abstract
- Sanyam Bhutani
- Ross Wightman
- Hugging Face
- Harrison Chase
- AI Coffee Break with Letitia Parcalabescu
- Andrej Karpathy
- Philipp Singer
- Jeremy Howard
- Ultralytics
- Harrison Kinsley
- Martin Henze (Heads or Tails)
- Anthony Goldbloom
- Machine Learning Mastery