
Erster ETL-Pipeline-Bau als Anfänger: GitHub API mit Python
Ibrahim Salami beschreibt im zweiten Teil seiner Data-Engineering-Journey-Serie, wie er seine erste ETL-Pipeline von Grund auf gebaut hat – ohne Tutorials durchzuarbeiten, sondern direkt mit eigenem Code in Google Colab. Als Datenquelle nutzte er die öffentliche GitHub API, um die 30 am meisten gestarnten Python-Repositories der letzten 30 Tage abzurufen. Im Extract-Schritt verwendet er die Python-Bibliothek requests, um die Such-Endpoint von GitHub abzufragen und die JSON-Antwort in ein Python-Dictionary umzuwandeln. Das erste zurückgegebene Ergebnis war ein Anthropic-Repository mit 139.000 Stars. Im Transform-Schritt filterte er aus den verschachtelten Dictionaries relevante Felder heraus (Name, Owner, Stars, Sprache, URL) und lud sie in einen Pandas-DataFrame – inklusive einer neu berechneten Spalte. Als letzten Schritt (Load) speicherte er das Ergebnis als CSV-Datei. Der Artikel richtet sich explizit an Einsteiger und verzichtet bewusst auf Orchestrierungs-Tools wie Airflow, Spark oder Databricks, die Salami als Weiterentwicklung desselben Grundprinzips einordnet.
- Datenquelle: GitHub API (kostenlos, öffentlich, kein Account erforderlich für Basis-Suchen)
- Abgerufen: 30 meistgestarnte Python-Repos, erstellt in den letzten 30 Tagen — 9,2 Mio. Treffer gesamt
- Stack: Python, requests, pandas, Google Colab — keine Orchestrierungs-Tools
- Erstes Suchergebnis: Anthropic-Repository 'skills' mit 139.136 Stars
- Teil 2 einer Serie; Teil 1 beschrieb einen 12-Monats-Roadmap vom Data Analyst zum Data Engineer
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGtowardsdatascience.com0mo
Datenpipelines per YAML: Analysten ersetzen PySpark mit dlt, dbt und Trino
- MEINUNGmarktechpost.com3w
ZenML-Tutorial für produktive ML-Pipelines mit Custom Materializers
- MEINUNGmarktechpost.com0mo
Tutorial: Traceable LLM-Workflows mit Promptflow, Prompty und OpenAI
- MEINUNGtowardsdatascience.com3d
Schritt-für-Schritt-Anleitung: AI Agent in Python für Einsteiger bauen

Erster ETL-Pipeline-Bau als Anfänger: GitHub API mit Python
Ibrahim Salami beschreibt im zweiten Teil seiner Data-Engineering-Journey-Serie, wie er seine erste ETL-Pipeline von Grund auf gebaut hat – ohne Tutorials durchzuarbeiten, sondern direkt mit eigenem Code in Google Colab. Als Datenquelle nutzte er die öffentliche GitHub API, um die 30 am meisten gestarnten Python-Repositories der letzten 30 Tage abzurufen. Im Extract-Schritt verwendet er die Python-Bibliothek requests, um die Such-Endpoint von GitHub abzufragen und die JSON-Antwort in ein Python-Dictionary umzuwandeln. Das erste zurückgegebene Ergebnis war ein Anthropic-Repository mit 139.000 Stars. Im Transform-Schritt filterte er aus den verschachtelten Dictionaries relevante Felder heraus (Name, Owner, Stars, Sprache, URL) und lud sie in einen Pandas-DataFrame – inklusive einer neu berechneten Spalte. Als letzten Schritt (Load) speicherte er das Ergebnis als CSV-Datei. Der Artikel richtet sich explizit an Einsteiger und verzichtet bewusst auf Orchestrierungs-Tools wie Airflow, Spark oder Databricks, die Salami als Weiterentwicklung desselben Grundprinzips einordnet.
- Datenquelle: GitHub API (kostenlos, öffentlich, kein Account erforderlich für Basis-Suchen)
- Abgerufen: 30 meistgestarnte Python-Repos, erstellt in den letzten 30 Tagen — 9,2 Mio. Treffer gesamt
- Stack: Python, requests, pandas, Google Colab — keine Orchestrierungs-Tools
- Erstes Suchergebnis: Anthropic-Repository 'skills' mit 139.136 Stars
- Teil 2 einer Serie; Teil 1 beschrieb einen 12-Monats-Roadmap vom Data Analyst zum Data Engineer
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGtowardsdatascience.com0mo
Datenpipelines per YAML: Analysten ersetzen PySpark mit dlt, dbt und Trino
- MEINUNGmarktechpost.com3w
ZenML-Tutorial für produktive ML-Pipelines mit Custom Materializers
- MEINUNGmarktechpost.com0mo
Tutorial: Traceable LLM-Workflows mit Promptflow, Prompty und OpenAI
- MEINUNGtowardsdatascience.com3d
Schritt-für-Schritt-Anleitung: AI Agent in Python für Einsteiger bauen