In der Datenanalyse und -manipulation mit Python ist die Bibliothek Pandas sehr beliebt und leistungsstark. Mit Pandas können wir große Mengen von Daten problemlos importieren, analysieren und verarbeiten. Eine der häufigsten Aufgaben in der Datenanalyse besteht darin, bestimmte Spalten in einem DataFrame auszuwählen und damit zu arbeiten. In diesem Blogartikel werden wir uns genauer anschauen, wie wir Spalten in Pandas nach dem Index auswählen können.
Was ist ein DataFrame?
Ein DataFrame ist die Hauptdatenstruktur in Pandas und ähnelt einer Tabelle in einer relationalen Datenbank oder einem Excel-Tabellenblatt. Es besteht aus Zeilen und Spalten und kann verschiedene Arten von Daten enthalten. Jede Spalte eines DataFrames hat einen eindeutigen Index, der verwendet werden kann, um auf die Spalte zuzugreifen und mit ihr zu arbeiten.
Spalten auswählen mit loc und iloc
Pandas bietet zwei Hauptmethoden zum Auswählen von Spalten in einem DataFrame an: loc und iloc. Die loc-Methode ermöglicht den Zugriff auf Spaltenpositionen und -labels, während die iloc-Methode auf integerbasierten Indizes basiert.
Spalten nach Index auswählen mit loc
Die loc-Methode ermöglicht es uns, Spalten in einem DataFrame nach ihrem Index auszuwählen. Der Index kann ein Integer sein, der die Position der Spalte repräsentiert, oder ein Label, der den Namen der Spalte enthält. Um eine einzelne Spalte anhand ihres Index auszuwählen, können wir den Namen des Indexes als Argument an loc übergeben.
Beispiel
Angenommen, wir haben ein DataFrame mit dem Namen ‚data‘, das die Daten einer Verkaufsorganisation enthält. Das DataFrame besteht aus den Spalten ‚Name‘, ‚Alter‘, ‚Geschlecht‘ und ‚Umsatz‘. Um die Spalte ‚Geschlecht‘ auszuwählen, können wir folgende Zeile Code verwenden:
data.loc[:, ‚Geschlecht‘]
Hierbei wählen wir alle Zeilen des DataFrames aus (der ‚ : ‚ beim Zeilenindex) und die Spalte mit dem Label ‚Geschlecht‘ aus.
Spalten nach Index auswählen mit iloc
Die iloc-Methode ermöglicht es uns, Spalten in einem DataFrame nach ihrer Position auszuwählen. Wir verwenden dabei den integerbasierten Index, der die Position der Spalte im DataFrame repräsentiert. Um eine einzelne Spalte nach ihrem Index auszuwählen, können wir den Indexwert als Argument an iloc übergeben.
Pandas – Selektieren und Indexieren von Dataframes [Deutsch…
Beispiel
Angenommen, wir möchten die Spalte an der Position 2, also die dritte Spalte, auswählen. Wir können dies mit folgendem Code machen:
data.iloc[:, 2]
Hierbei wählen wir alle Zeilen des DataFrames aus (der ‚ : ‚ beim Zeilenindex) und die Spalte an der Position 2 aus.
Mehrere Spalten nach Index auswählen
Wir können auch mehrere Spalten gleichzeitig nach ihrem Index auswählen. Dafür müssen wir die Indexwerte der gewünschten Spalten in einer Liste übergeben.
Beispiel
Angenommen, wir möchten die Spalten an den Positionen 1 und 3 auswählen. Wir können dies mit folgendem Code machen:
data.iloc[:, [1, 3]]
Hierbei wählen wir alle Zeilen des DataFrames aus (der ‚ : ‚ beim Zeilenindex) und die Spalten an den Positionen 1 und 3 aus.
Fazit
Die Auswahl von Spalten nach Index ist eine grundlegende Fähigkeit in der Datenanalyse mit Pandas. Mit den Methoden loc und iloc können wir Spalten basierend auf ihrem Index auswählen und mit ihnen arbeiten. Diese Funktionen sind äußerst nützlich, um bestimmte Spalten für weitere Analyse- und Manipulationsaufgaben auszuwählen und die gewünschten Ergebnisse zu erzielen.