You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
# Data inlezen (kijken welke sep dat het is, meestal ; of ,) -> default is ,data=pd.read_csv("data.csv", sep=";")
# Data bekijkendata.head() # eerste 5 rijen# Properties van de data bekijken# Print data informationprint("Data information:")
print(data.info()) # prints column names and data types# Print number of rows and columnsprint("\nNumber of rows and columns:")
print("Rows:", len(data)) # prints number of rowsprint("Columns:", len(data.columns)) # prints number of columns# Print shape of dataprint("\nShape of data:")
print(data.shape) # prints number of rows and columns# Print data typesprint("\nData types:")
print(data.dtypes) # prints data types of columns# het aantal unieke waarden in een kolomdata["kolomnaam"].unique()
# hoeveel van elk datatype zit er in# volledige datasetdata.dtypes.value_counts()
# per kolomdata["kolomnaam"].value_counts()
# indexendata.index# geeft de indexen weerdata.set_index("kolomnaam", inplace=True) # zet de kolom als index
Kwalitatieve variabelen
# Kwalitatieve variabelen moeten omgezet worden naar een categorydata["kolomnaam"] =data["kolomnaam"].astype("category")
# Kwalitatieve variabelen omzetten naar een category met een bepaalde volgorde -> ordinal variable# bv. een rating van 1 tot 5# maak een lijst aan met de volgorderating_order= ["1", "2", "3", "4", "5"]
# maak een CategoricalDtype aan met de volgorderating_type=CategoricalDtype(categories=rating_order, ordered=True)
# zet de kolom om naar een category met de volgordedata["kolomnaam"] =data["kolomnaam"].astype(rating_type)
# deze volgorde wordt gebruikt bij het plotten van de data
Selecteren van data
# Selecteren van kolommendata["kolomnaam"] # geeft de kolom terugdata.kolomnaam# geeft de kolom terugdata[["kolomnaam1", "kolomnaam2"]] # geeft de kolommen terug in een dataframe# Selecteren van rijendata.iloc[0] # geeft de eerste rij terug -> tellen vanaf 0data.iloc[0:5] # geeft de eerste 5 rijen terug -> tellen vanaf 0 -> exclusief de laatste index# Query'sdata[data["kolomnaam"] =="waarde"] # geeft alle rijen terug waar de kolomnaam de waarde heeft#ofdata.query("kolomnaam == 'waarde'")
# query's voor bepaalde kolomendata[(data["kolomnaam1"] =="waarde1") & (data["kolomnaam2"] =="waarde2")][["kolomnaam1", "kolomnaam2"]]
Droppen van data
# Droppen van kolommendata.drop("kolomnaam", axis="columns", inplace=True) # axis=1 -> kolom, axis=0 -> rijofdata=data.drop("kolomnaam", axis="columns")
# veel lege waardes in een kolom?data.dropna() #dropt elke rij waar er een lege waarde in zit -> niet aan te radendata.dropna(how="all") #dropt elke rij waar alle waardes leeg zijn# legen waardes vervangen door een waardedata["kolomnaam"].fillna("waarde", inplace=True)
Creëren van nieuwe kolommen
# Creëren van nieuwe kolommendata["nieuwecol"] =#iets van data of een berekening# mappen van waardesmap_dict= {"waarde1": "nieuwewaarde1", "waarde2": "nieuwewaarde2"}
data["nieuwecol"] =data["kolomnaam"].map(map_dict)
# kan ook met functiedeffunctie(x):
ifx=="waarde1":
return"nieuwewaarde1"elifx=="waarde2":
return"nieuwewaarde2"else:
return"waarde3"data["nieuwecol"] =data["kolomnaam"].map(functie)