Pandas ist eine leistungsstarke Datenanalyse-Bibliothek für Python, die sowohl strukturierte als auch unstrukturierte Daten verarbeiten kann. Eine der häufigsten Aufgaben bei der Datenanalyse besteht darin, bestimmte Reihen aus einem Datenframe auszuwählen. In diesem Blogartikel werden wir uns genauer mit der Auswahl von Reihen anhand ihres Index befassen und zeigen, wie dies mit pandas einfach und effizient möglich ist.
Was ist ein Index in pandas?
Ein Index ist eine eindeutige Kennzeichnung für jede Zeile in einem pandas Datenframe oder einer Series. Die Indexierung ermöglicht einen schnellen und effizienten Zugriff auf spezifische Daten, da es die Reihen nach eindeutigen Labels oder numerischen Werten organisiert.
Der Index kann ein Datum, eine Zahl, ein Name oder ein beliebiger anderer identifizierender Wert sein. Standardmäßig beginnt der Index in pandas bei 0 und erhöht sich für jede Zeile um 1.
Auswahl von Reihen nach Index
Die Auswahl von Reihen nach Index ist eine häufige Aufgabe bei der Datenanalyse. In pandas gibt es verschiedene Möglichkeiten, um dies zu erreichen. Wir werden nun einige der gängigsten Methoden betrachten.
iloc-Methode
Die iloc-Methode ist eine der grundlegenden Methoden zur Auswahl von Reihen nach Index in pandas. Sie ermöglicht uns, Reihen anhand ihres numerischen Positionsindexes auszuwählen.
Die Syntax für die Verwendung der iloc-Methode lautet: dataframe.iloc[index]
“’python
import pandas as pd
- data = {‚Name‘: [‚Alice‘, ‚Bob‘, ‚Charlie‘],
- ‚Alter‘: [25, 30, 35],
- ‚Stadt‘: [‚Berlin‘, ‚München‘, ‚Hamburg‘]}
df = pd.DataFrame(data)
# Auswahl der ersten Zeile
row1 = df.iloc[0]
# Auswahl der ersten beiden Zeilen
row1_and_2 = df.iloc[[0, 1]]
“‘
In diesem Beispiel haben wir einen einfachen Datenframe erstellt und die iloc-Methode verwendet, um die erste Zeile oder die ersten beiden Zeilen auszuwählen. Die iloc-Methode akzeptiert auch Slices, die es uns ermöglichen, einen bestimmten Bereich von Reihen auszuwählen.
loc-Methode
Die loc-Methode ermöglicht uns, Reihen anhand ihrer Labels auszuwählen. Im Gegensatz zur iloc-Methode verwendet die loc-Methode keine numerischen Positionsindizes, sondern die eindeutigen Labels des Index.
Die Syntax für die Verwendung der loc-Methode lautet: dataframe.loc[label]
“’python
import pandas as pd
- data = {‚Name‘: [‚Alice‘, ‚Bob‘, ‚Charlie‘],
- ‚Alter‘: [25, 30, 35],
- ‚Stadt‘: [‚Berlin‘, ‚München‘, ‚Hamburg‘]}
df = pd.DataFrame(data)
df.set_index(‚Name‘, inplace=True)
# Auswahl der Zeile mit dem Label ‚Bob‘
row_bob = df.loc[‚Bob‘]
# Auswahl der Zeilen mit den Labels ‚Alice‘ und ‚Charlie‘
row_alice_and_charlie = df.loc[[‚Alice‘, ‚Charlie‘]]
“‘
In diesem Beispiel haben wir den Index des Dataframes auf die Spalte ‚Name‘ gesetzt und die loc-Methode verwendet, um die Zeilen mit den Labels ‚Bob‘, ‚Alice‘ und ‚Charlie‘ auszuwählen.
Benutzerdefinierter Index
In pandas haben wir auch die Möglichkeit, einen benutzerdefinierten Index anzugeben, der unsere Daten besser repräsentiert. Dies kann hilfreich sein, wenn wir einen eindeutigen Identifikator haben, der nicht auf eine numerische Position oder einen vorhandenen Wert im DataFrame beschränkt ist.
Die Syntax für die Verwendung eines benutzerdefinierten Index lautet: dataframe.set_index(‚Spalte‘)
“’python
import pandas as pd
- data = {‚Name‘: [‚Alice‘, ‚Bob‘, ‚Charlie‘],
- ‚Alter‘: [25, 30, 35],
- ‚Stadt‘: [‚Berlin‘, ‚München‘, ‚Hamburg‘],
- ‚ID‘: [‚A001‘, ‚B002‘, ‚C003‘]}
df = pd.DataFrame(data)
df.set_index(‚ID‘, inplace=True)
# Auswahl der Zeile mit der ID ‚B002‘
row_bob = df.loc[‚B002′]
“‘
In diesem Beispiel haben wir die Spalte ‚ID‘ als Index verwendet und die loc-Methode verwendet, um die Zeile mit der ID ‚B002‘ auszuwählen. Durch die Verwendung eines benutzerdefinierten Index können wir auf einfache Weise Reihen auswählen, indem wir nach spezifischen Werten suchen, die für unsere Daten relevant sind.
Pandas verstehen #07 – Reihen mit Bedingung selektieren und…
Fazit
In diesem Artikel haben wir uns mit verschiedenen Methoden zur Auswahl von Reihen nach Index in pandas beschäftigt. Die iloc-Methode ermöglicht die Auswahl von Reihen anhand ihres numerischen Positionsindexes, während die loc-Methode die Verwendung von Labels für die Auswahl ermöglicht. Wir haben auch gesehen, wie wir einen benutzerdefinierten Index verwenden können, um Reihen anhand eindeutiger Werte auszuwählen.
Das Beherrschen dieser grundlegenden Techniken zur Auswahl von Reihen nach Index ist entscheidend für die effektive Datenanalyse mit pandas. Es ermöglicht uns, auf einfache Weise die spezifischen Daten zu extrahieren, die wir für unsere Analysen, Visualisierungen und Modelle benötigen.