Skip to content
View soboure69's full-sized avatar
🎓
Etudie
🎓
Etudie

Block or report soboure69

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
soboure69/README.md

👋 Soboure BELLO - Data Science Engineer

📊 Polytech Lyon | Applied Mathematics & Modeling

🎯 Data Science • Machine Learning • Data Engineering

GitHub followers GitHub stars


🚀 About Me

Je suis étudiant ingénieur en 4ème année à Polytech Lyon, spécialisé en Mathématiques Appliquées et Modélisation. Passionné par la data science, le machine learning et l'ingénierie des données, je transforme des problématiques complexes en solutions concrètes et exploitables.

Je combine une rigueur mathématique, un esprit analytique et une forte capacité à communiquer mes résultats pour créer de la valeur business réelle. Actuellement en recherche de CDI Data Scientist / Data Engineer ou alternance pour 2026-2027.

🎓 Formation

  • Cycle Ingénieur | Polytech Lyon (2023-2027)
    • Spécialisation : Data Science, Machine Learning, Deep Learning
  • Licence Mathématiques Appliquées | Université de Paris Cité (2021-2023)

💡 Core Competencies

🐍 Langages & Programmation

Python (Avancé)       ████████████░░  Pandas, NumPy, Scikit-learn, TensorFlow
SQL (Avancé)          ████████████░░  PostgreSQL, MySQL, Requêtes complexes
R (Intermédiaire)     ████████░░░░░░  ggplot2, dplyr
C++ (Intermédiaire)   ████████░░░░░░

📈 Data Science & ML

  • Supervised Learning : Régression, Classification, Gradient Boosting (XGBoost, LightGBM)
  • Unsupervised Learning : Clustering (K-Means, DBSCAN), Dimensionality Reduction (PCA)
  • Deep Learning : Neural Networks, CNN, RNN, LSTM, Transformers
  • NLP : Text classification, Sentiment analysis, Word embeddings
  • Model Optimization : Hyperparameter tuning, Cross-validation, Feature engineering

🔧 Data Engineering & Tools

  • Orchestration : Apache Airflow, Luigi
  • Databases : PostgreSQL, MySQL, SQLAlchemy ORM
  • Visualization : Tableau, Power BI, Plotly, Matplotlib, Seaborn
  • Deployment : Docker, Streamlit, Dash, Heroku
  • Cloud : AWS (S3, EC2), Google Cloud (notions)
  • MLOps : Git/GitHub, MLflow, Jupyter Notebook

🎯 Soft Skills

✓ Communication de résultats data
✓ Présentation aux stakeholders non-techniques
✓ Résolution analytique de problèmes
✓ Collaboration équipes cross-fonctionnelles


🏆 Portfolio Projects

1️⃣ Machine Learning - Prédiction Churn Clients

Identification de 87% des clients à risque de départ

🎯 Problématique : Prédire les clients qui vont résilier leur contrat dans une entreprise télécommunications
📊 Dataset : 7043 clients | 26.5% taux churn
🤖 Modèles : Random Forest (86.1% accuracy) vs XGBoost (87.2%)
💰 Impact : Économie potentielle 100K€/an via retention ciblée
🔍 Key Insights :

  • Contrat mensuel = 3x plus de churn vs annuel
  • Tenure et charges clients = features critiques
  • Feature importance analysis + confusion matrix

📚 Stack : Python • scikit-learn • XGBoost • pandas • Matplotlib • Seaborn
🔗 GitHub : 01_ML_Classique_Churn


2️⃣ Deep Learning - NLP Sentiment Analysis IMDB

Prédiction du sentiment en temps réel avec 92.3% d'accuracy

🎯 Problématique : Classifier automatiquement les avis films en sentiments positifs/négatifs
📊 Dataset : 50K reviews IMDB | 10K vocabulaire
🤖 Architecture : Embedding (128 dims) → Bi-LSTM (64 units) → Dense layers
📈 Performance :

  • Accuracy: 92.3% | Precision: 91.5% | Recall: 93.1%
  • ROC-AUC: 0.975 | Inference: <500ms/review

🌐 Déploiement : Streamlit app interactive (3 onglets : Predict, Analytics, About)
📚 Stack : TensorFlow • Keras • NLTK • Streamlit • Python
🔗 Live Demo : sentiment-analysis-soboure69.streamlit.app
🔗 GitHub : 02_DL_NLP_Sentiment


3️⃣ Data Engineering - Pipeline ETL Multi-Sources

Orchestration automatisée de 1000+ records/jour

🎯 Architecture : Extraction (Reddit, Twitter, OpenWeatherMap) → Transformation → Chargement
📦 Données : 1000+ records/jour | Multi-sources APIs
🔄 Workflow :

  • Extractors Python (praw, tweepy, requests)
  • Cleaning, validation, deduplication, feature engineering
  • Chargement PostgreSQL via SQLAlchemy ORM

Optimisation : Réduction temps traitement de 60%
🛡️ Robustesse : Error handling, data quality checks, retry mechanisms
📚 Stack : Python • Apache Airflow • PostgreSQL • SQL • REST APIs
🔗 GitHub : 03_Data_Engineering_Pipeline


4️⃣ Dashboard Business - Système Recommandation E-commerce

Moteur recommandation intelligent & dashboard interactif

🎯 Fonctionnalité : Content-based filtering avec cosine similarity
📊 Interface : 5 visualisations analytics interactives temps réel
💡 UX : Sélection produit → 5 recommandations similaires instantanées
Performance : Latence <500ms/requête
💰 Impact Business :

  • +25% panier moyen (simulé)
  • +40% CTR sur recommandations

🌐 Déploiement : Heroku production
📚 Stack : Python • Dash • Plotly • scikit-learn • Heroku
🔗 Live Demo : product-recommender-soboure69.herokuapp.com
🔗 GitHub : 04_Dashboard_Recommendation


📚 Education & Certifications

🎓 Diplômes

  • Cycle Ingénieur Polytech Lyon | 2023-2027

    • Spécialisation Data Science, ML, Deep Learning, Optimisation
    • Cours : ML Algorithms, Deep Learning, NLP, Computer Vision, Advanced Statistics, Databases, Big Data
  • Licence Mathématiques Appliquées | Université de Paris Cité | 2021-2023

🏅 Certifications

  • Machine Learning Specialization - Stanford Online (Andrew Ng) | Coursera
  • Deep Learning Specialization - DeepLearning.AI | Coursera
  • TensorFlow Developer Certificate - Google (En cours)
  • SQL for Data Science - UC Davis | Coursera
  • Python for Data Science - IBM | DataCamp

🎯 Qualités Personnelles

Qualité Description
🧮 Rigueur Mathématique Formation solide en mathématiques appliquées, modélisation statistique
🔬 Esprit Analytique Résolution systématique de problèmes complexes, analyse critique
📊 Synthèse & Communication Capacité à vulgariser travaux techniques à audiences non-spécialisées
🚀 Autonomie & Proactivité Apprentissage continu, gestion projets autonome, curiosité constante
👥 Travail Collaboratif Excellente intégration en équipes cross-fonctionnelles agiles
🌍 Intérêt Sociétal Conscience de l'impact éthique des données et modèles

📊 GitHub Stats

GitHub Stats

🏆 GitHub Trophies

Trophies

📊 Langages les plus utilisés

Top Langs


🤝 Let's Connect

Vous êtes intéressé par une collaboration, une discussion technique ou une opportunité professionnelle ?

Plateforme Lien
📧 Email [email protected]
💼 LinkedIn linkedin.com/in/sobourebello
🐙 GitHub github.com/soboure69
📍 Localisation Paris, Île-de-France, France

📄 Additional Resources


⭐ Si mon travail vous plaît, n'hésitez pas à mettre une star ⭐

"Transformer les données en insights, les insights en décisions, les décisions en impact."


Last updated: December 2024

Pinned Loading

  1. Movie-Backend Movie-Backend Public

    Phase 1 du Projet CinéData

    Python

  2. Movies-Analytics Movies-Analytics Public

    Phase 2 du Projet CinéData

    Jupyter Notebook

  3. G-olocalisation-Cartes-RSSI G-olocalisation-Cartes-RSSI Public

    Construction d’une fonction qui à partir des 4 forces de signal des bornes (cartes RSSI) reçues donne la position (géolocalisation)

    Jupyter Notebook

  4. A-B-Testing A-B-Testing Public

    Appliquer l'A/B testing dans le secteur du marketing

    Jupyter Notebook

  5. Analyse_Exploratoire_Donn-es_EDA Analyse_Exploratoire_Donn-es_EDA Public

    Il est question de faire une analyse exploratoire des données en Banque et en Marketing

    Jupyter Notebook

  6. Customer-Churn Customer-Churn Public

    Projet de machine learning visant à prédire le désabonnement des clients d'une entreprise de télécommunications, également appelé "customer churn".

    Jupyter Notebook