DataFrames sind eine der wichtigsten Datenstrukturen in der Datenanalyse und dem maschinellen Lernen. Sie ermöglichen es uns, Daten in einer tabellarischen Form zu organisieren und zu manipulieren. In diesem Blogartikel geht es darum, wie man spezifische Spalten aus einem DataFrame extrahiert. Wir werden verschiedene Möglichkeiten betrachten, wie Sie dies mit Python und der Pandas-Bibliothek tun können.
Was ist ein DataFrame?
Ein DataFrame ist eine zweidimensionale Datenstruktur, die in Pandas eingeführt wurde. Es ähnelt einer Tabelle oder einer Excel-Kalkulationstabelle und besteht aus Zeilen und Spalten. Die Spalten repräsentieren verschiedene Merkmale oder Variablen, während die Zeilen die einzelnen Beobachtungen oder Datensätze darstellen.
In Python können wir DataFrames einfach erstellen, indem wir die Pandas-Bibliothek importieren und unsere Daten in ein DataFrame-Objekt umwandeln. Pandas bietet uns eine Vielzahl von Funktionen und Methoden, um auf die Daten zuzugreifen und sie zu analysieren.
Zugriff auf eine Spalte über den Spaltennamen
Die einfachste Möglichkeit, eine bestimmte Spalte aus einem DataFrame zu erhalten, besteht darin, den Spaltennamen zu kennen und darauf zuzugreifen. Nehmen wir an, wir haben einen DataFrame mit dem Namen ‚df‘ und möchten die Spalte „Name“ extrahieren. Der Code dazu sieht wie folgt aus:
“‘
name_column = df[‚Name‘]
“‘
Dieser Code erstellt eine neue Variable ’name_column‘, die nur die Werte aus der Spalte „Name“ enthält. Wenn Sie den Inhalt der Spalte drucken möchten, können Sie einfach den folgenden Code ausführen:
“‘
print(name_column)
“‘
Dies gibt Ihnen eine Ausgabe ähnlich wie:
“‘
0 Max
1 John
2 Anna
Name: Name, dtype: object
“‘
Wie Sie sehen können, wird die erste Spalte der Ausgabe als „0, 1, 2“ dargestellt, was die Indexwerte für die Zeilen im DataFrame sind, während die Daten in der Spalte „Name“ angezeigt werden.
Zugriff auf eine Spalte über den Spaltenindex
Sie können auch auf eine Spalte zugreifen, indem Sie den Spaltenindex verwenden, anstatt den Spaltennamen. Der Spaltenindex ist die numerische Darstellung der Spaltenposition, wobei 0 die erste Spalte, 1 die zweite Spalte usw. repräsentiert.
Um die Spalte mit dem Spaltenindex 1 (zweite Spalte) zu extrahieren, verwenden Sie den folgenden Code:
“‘
column_1 = df.iloc[:, 1]
“‘
Der ‚iloc‘-Befehl ermöglicht es uns, auf den DataFrame zuzugreifen, indem wir den Zeilen- und Spaltenindex angeben. In diesem Fall geben wir ‚:‘ für alle Zeilen an und ‚1‘ für den Spaltenindex. Wenn Sie den Inhalt der Spalte drucken möchten, verwenden Sie einfach ‚print(column_1)‘.
Zugriff auf mehrere Spalten gleichzeitig
Manchmal möchten Sie möglicherweise mehrere Spalten gleichzeitig aus einem DataFrame extrahieren. Sie können dies erreichen, indem Sie die gewünschten Spaltennamen oder Spaltenindizes in einer Liste angeben.
Wenn wir beispielsweise die Spalten „Name“ und „Alter“ extrahieren möchten, können wir den folgenden Code verwenden:
“‘
name_age_columns = df[[‚Name‘, ‚Alter‘]]
“‘
Dies erzeugt ein neues DataFrame ’name_age_columns‘, das nur die ausgewählten Spalten enthält. Um den Inhalt des DataFrame zu drucken, verwenden Sie ‚print(name_age_columns)‘. Die Ausgabe wird wie folgt aussehen:
“‘
Name Alter
0 Max 25
1 John 30
2 Anna 35
“‘
Spalten zu einem DataFrame hinzufügen
Zusätzliche Funktionen und Optionen
Pandas bietet uns auch viele zusätzliche Funktionen und Optionen, um den Zugriff auf Spalten weiter anzupassen. Hier sind einige nützliche Funktionen, die Sie ausprobieren können.
head()
Die Methode ‚head()‘ gibt die ersten n Zeilen eines DataFrames zurück. Der Standardwert für n ist 5. Wenn Sie beispielsweise nur die ersten beiden Zeilen sehen möchten, können Sie den folgenden Code verwenden:
“‘
first_two_rows = df.head(2)
“‘
Dies gibt Ihnen ein neues DataFrame mit den ersten zwei Zeilen.
tail()
Ähnlich wie ‚head()‘ gibt die Methode ‚tail()‘ die letzten n Zeilen eines DataFrames zurück. Der Standardwert für n ist 5. Wenn Sie die letzten drei Zeilen drucken möchten, verwenden Sie den folgenden Code:
“‘
last_three_rows = df.tail(3)
“‘
Dies erzeugt ein neues DataFrame mit den letzten drei Zeilen.
loc()
Die Methode ‚loc()‘ ermöglicht es Ihnen, auf den DataFrame zuzugreifen, indem Sie den Spaltennamen und den Index der gewünschten Zeile angeben. Sie können sie wie folgt verwenden:
“‘
value = df.loc[index, ‚Spaltenname‘]
“‘
Hier ist ‚index‘ der Indexwert der gewünschten Zeile und ‚Spaltenname‘ der Name der gewünschten Spalte. Sie können auch ‚:‘ verwenden, um auf alle Zeilen oder Spalten zuzugreifen.
iloc()
Ähnlich wie ‚loc()‘ ermöglicht uns die ‚iloc()‘-Methode den Zugriff auf den DataFrame über den Spalten- und Zeilenindex. Hier ist ein Beispiel:
“‘
value = df.iloc[index, index]
“‘
Anstelle des Spaltennamens verwenden wir den Index und können auch ‚:‘ verwenden, um auf alle Zeilen oder Spalten zuzugreifen.
Fazit
In diesem Artikel haben wir verschiedene Möglichkeiten untersucht, wie Sie eine bestimmte Spalte aus einem DataFrame extrahieren können. Wir haben gezeigt, wie Sie auf eine Spalte über den Spaltennamen und den Spaltenindex zugreifen können. Außerdem haben wir demonstriert, wie Sie auf mehrere Spalten gleichzeitig zugreifen können. Schließlich haben wir einige zusätzliche Funktionen und Optionen vorgestellt, die Ihnen helfen können, den Zugriff auf Spalten weiter anzupassen.
DataFrames sind eine leistungsstarke Datenstruktur in der Datenanalyse und Pandas bietet uns viele nützliche Methoden, um mit ihnen zu arbeiten. Indem Sie lernen, wie Sie spezifische Spalten aus einem DataFrame extrahieren, können Sie die Daten effektiver analysieren und Erkenntnisse gewinnen. Also legen Sie los und probieren Sie es selbst aus!