Dataset

Een gegevensverzameling of dataset is een verzameling van gegevens (data), meestal gepresenteerd in tabelvorm. Elke kolom vertegenwoordigt een bepaalde variabele. De dataset representeert dan een verzameling rijen (ook records genoemd), elk voor één object (in de ruime zin van het woord, het kunnen bijvoorbeeld ook personen zijn). Een rij bevat de waarden voor elk van de variabelen, of attributen, voor het betreffende object, bijvoorbeeld lengte en gewicht.

Een verzameling rijen is op zichzelf niet geordend. Een weergave met de rijen in een andere volgorde is dan niet de weergave van een andere dataset. Ordening kan op basis van de waarde van een variabele. De rijen kunnen ook geordend zijn, los van de waarden van de variabelen.

Als de datatabel van de al of niet geordende dataset maar één kolom heeft wordt deze wel vereenzelvigd met de betreffende (respectievelijk niet of wel) geordende multiset (die eventueel een verzameling is).

Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een karakterstring, zoals een XML-bestand.

Geschiedenis

De term dataset is afkomstig uit de tijd van de mainframes, waar gegevensverzameling een precies omschreven betekenis bij IBM-mainframes had. Deze betekenis wordt hier niet behandeld.

Eigenschappen

Een gegevensverzameling heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. Daartoe behoren het aantal en het type van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals gemiddelde, standaardafwijking, scheefheid.^[1]

In het eenvoudigste geval is er slechts één variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een lijst. In tegenstelling tot wat de naam doet vermoeden, is zo'n univariate dataset geen verzameling in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een multiset in plaats van een (geordende) lijst.

De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal niveau zijn. Voor elke variabele zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.

In de statistiek zijn datasets gewoonlijk het resultaat van een steekproef en bevat elke rij de waarnemingen aan een element van de populatie. Sommige moderne statistische software, zoals SPSS, gebruikt nog steeds de klassieke vorm van een dataset voor de gegevens.

Klassieke datasets

Er bestaan in de statistische literatuur enkele klassieke datasets die uitvoerig geanalyseerd zijn:

De iris-dataset: een multivariate dataset afkomstig van Ronald Fisher (1936).^[2]
Categorische data: Datasets gebruikt in het boek, An Introduction to Categorical Data Analysis, van Agresti, zijn online bechikbaar bij StatLib.
Robuuste statistiek: Datasets gebruikt in Robust Regression and Outlier Detection (Rousseeuw and Leroy, 1986). online beschikbaar bij de Universiteit van Keulen.
Tijdreeksen: Data gebruikt in Chatfields boek, The Analysis of Time Series, zijn online bechikbar bij StatLib.
Bayesiaanse data-analyse: Data gebruikt in het boek, Bayesian Data Analysis, zijn online beschikbaar bij Andrew Gelman, een van de auteurs.
De Bupa dataset, gebruikt in verscheidene artikelen in de literatuur over machinaal leren.

Externe links

Research Pipeline - Een wiki/website met links naar datasets op allerlei gebied.
StatLib--Datasets Archive
StatLib--JASA Data Archive
Data.gov
UK Government Public Data
GCMD - Op deze site staan meer dan 20.000 beschrijvingen van datasets op het gebied van aard- en milieuwetenschappen.
DataverseNL

Bronnen

↑ Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 9783540664901.
↑ Fisher, R.A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics 7: 179-188. DOI: 10.1111/j.1469-1809.1936.tb02137.x. Gearchiveerd van origineel op 2011-04-122011-04-12. Geraadpleegd op 10 december 2011.