Geo-visualisatie/Classificatie

Deel B: Classificatie

Doelstellingen van deze module 'Classificatie'

Deze module gaat over de belangrijkste aspecten die spelen bij het classificeren van data, oftewel het omzetten van 'ruwe data' in een informatieve kaart, met een zinvolle legenda. Na het lezen kent de lezer verschillende classificatiemethoden en verschillende meetschalen en weet hij hoe deze om te zetten in de juiste legenda's.

Inleiding

Een voorbeeld van een classificatie en een gekozen kleurenschema. Hier zijn gebieden geclassificeerd op de kans op verwoestijning. Hoe groter de kans op verwoestijning, hoe roder de kleur.

Voordat je data ten behoeve van een kaart mooie legendakleuren kan geven, moet je deze data eerst classificeren. Daarbij moet je kennis hebben van de meetschaal waarmee deze data is ingedeeld.

Deze module beschrijft classificatiemethoden, waarbij met name de geo-visualisatie van thematische kaarten aan de orde komt.

Dit wordt met name geïllustreerd met één voorbeeld; het besteedbaar inkomen. Een kaart hiervan komt steeds weer in een ander gedaante tevoorschijn, zonder dat de data wijzigt. Daardoor komt het brede scala aan mogelijkheden aan de orde waar een GIS-specialist over beschikt. Duidelijk zal worden dat er écht steeds iets anders getoond wordt, waarbij elke kaart mogelijk voor een ander doel geschikt is.

Achtereenvolgens komen aan de orde:

meetschalen: hoe de brondata - oftewel de 'ruwe data' die in een kaart zal moeten worden omgezet - is ingewonnen;
classificatiemethoden (classificatie is nodig als data nog niet geclassificeerd is, zoals dit het geval zal blijken bij nominale en ordinale meetschalen);
kleurschema's ten behoeve van de legenda: hoe de verschillende kleurschema's in welke gevallen in te zetten;
aanvullende technieken om de scherpe kantjes / nadelen van gekozen classificaties en meetschalen te verbeteren.

Met name thematische kartering via choropleten en chrochromatische kaarten komen aan de orde. Symbologie in zijn algemeenheid komt in de module hierna aan de orde.

Meetschalen

Bij het maken van een kaart wordt per definitie een bepaalde grootheid van een bepaald thema (zoals houttransport, bereikbaarheid of bevolkingsdichtheid) ingewonnen met een bepaalde meetschaal (ook wel meetniveau genoemd). Zo zou de grootheid 'bereikbaarheid' misschien wel ingewonnen zijn in bereikbaarheidsklasses: A (0-15 minuten), B (15-30 minuten) en C (meer dan 30 minuten). Of de bereikbaarheid is gemeten in tijd: 0, 1, 16, 18, 19.33 minuten, et cetera. 'Bereikbaarheidsklasse' en 'tijd' zijn duidelijk verschillende meetschalen.

Wanneer we hier kaarten van willen maken is het van belang om kennis te hebben van meetschalen. Bij het inwinnen van data is al voor een bepaalde meetschaal gekozen. Meetschalen worden in vier (of vijf) soorten ingedeeld (op volgorde van opklimmende toepasbaarheid/intelligentie):

nominale meetschalen, waaronder binaire meetschalen
ordinale meetschalen
interval meetschalen
ratio meetschalen

Nominale en ordinale meetschalen beschrijven kwalitatieve datasets. Met een kwaliteit wordt een belangrijke eigenschap bedoeld waarmee iets aan een bepaald doel voldoet. Interval en ratio meetschalen daarentegen bschrijven kwantitatieve (getalsmatige) datasets.

In het volgende schema worden de definities gegeven, tezamen met voorbeelden en enkele kenmerken. Helemaal rechts in de tabel staan voorbeelden van mogelijke kleurenschema's bij die meetschaal.

soort	meetschaal	definitie	voorbeelden	eigenschappen	visualisatie / kleurenschema's
kwalitatief	binair	nominale meetschaal waarbij slechts sprake is van twee benoemingen. Het kunnen tegengestelde aspecten zijn, zoals ja of nee, zwart of wit, wel of niet, goed of fout. Het kan ook om vergelijkbare waarden gaan, zoals stemt op de republikeinen of op de democraten. Het betreft altijd chorochromatische kaarten.	1 = vervuild, 2 = niet vervuild. Ja (of 1) = Navo-lid en nee (of 0) = geen Navo-lid. Wijk komt wel of niet in aanmerking voor subsidie.	kenmerkend	Gebruik een kwalitatief kleurenschema. In het geval het om tegengestelde data gaat, kunnen tegengestelde kleuren gebruikt worden. In het geval het om vergelijkbare waarden gaat, kies dan niet voor zwart-witte of rood-groene kleuren; die schema's lijken een voorkeur uit te spreken voor één van beide opties. Gaat het om "wel of niet aanwezig" dan zal de klasse "niet aanwezig" waarschijnlijk het beste met wit (of lichtgrijs) gesymboliseerd kunnen worden.
kwalitatief	nominaal	meetschaal waarbij slechts sprake is van een woordelijke (nominale) benoeming. Deze meetschaal kan naar getallen (0, 1 of 2) of opeenvolgende cijfers (A, B, C) zijn omgezet, maar deze omzetting heeft geen (volgordelijke) betekenis! Die omzetting is dan vaak om praktische redenen gedaan; er mag niet mee worden gerekend: de ene klasse is niet meer of beter dan de andere! Het betreft altijd chorochromatische kaarten.	provincies, regio's, bodemsoort, taalgebied.	kenmerkend	Gebruik een kwalitatief kleurenschema; dat zijn kleuren zonder volgordelijkheid, met een vergelijkbare verzadiging
kwalitatief	ordinale	meetschaal waarbij sprake is van een ordening. Bij een ordinale schaal is de volgorde duidelijk, maar de verschillen zijn hier niet interpreteerbaar. Vervuilingsgraad 4 is erger dan 3, en vervuilingsgraad 3 is weer erger dan vervuilingsgraad 2, maar van vervuilingsgraad 3 naar 4 is niet net zo'n grote stap als van vervuilingsgraad 2 naar 3. Het gaat hier om een choropleet.	vervuilingsklasse, grondwatertrappen, opeenvolgnde geluidsniveau's: 1, 2, 3 en 4 of steeds strenger wordende beveiligingsniveau's	kenmerkend, volgorde	Gebruik een volgordelijk kleurenschema; dat zijn kleurenschema's waarbij één kleur langzaam van licht of niet verzadigd naar donker of wel verzadigd oplopen. Dus van licht- naar donkerrood. Soms wordt een tweede ondersteunende kleur gebruikt, bijvoorbeeld van geel, via oranje naar lichtrood en donkerrood. Aangezien er géén nulpunt is, mag hier géén wit gebruikt worden. Er kan eventueel ook van een divergerende schaal gebruik gemaakt worden, zie onder 'ratio'.
kwantitatief	interval	meetschaal waarbij altijd sprake is van getallen en de verschillen onderling vergelijkbaar zijn. Het nulpunt heeft hier géén specifieke betekenis. Het gaat hier om een choropleet.	temperatuur; 10°C, 20.2°C, 33,2°C, enz. 20 graden is niet twee keer zo warm als 10 graden; blijkbaar heeft het nulpunt inderdaad géén betekenis!	kenmerkend, volgorde, verhoudingen	Gebruik een volgordelijk kleurenschema; zie hierboven, bij ordinale. Er kan eventueel ook van een divergerende schaal gebruik gemaakt worden, zie onder 'ratio'. Ook hier geldt dat voor de laagste klasse geen kleur wit voor mag worden gebruikt, omdat dit met nul (geen waarde) wordt geassocieerd.
kwantitatief	ratio	meetschaal waarbij eveneens sprake is van een nulpunt. Verhoudingen hebben een betekenis. Dus: 1000 mm neerslag is tweemaal zo nat als 500 mm neerslag. Het gaat hier om een choropleet.	neerslag (0mm, 10mm, 110mm, 153.2mm) of uitstoot van hoeveelheden fijnstof bij een weg, gemiddeld inkomen per land per hoofd van de bevolking.	kenmerkend, volgorde, verhoudingen, nulpunt	Hetzelfde kleurenschema als bij interval kan gebruikt worden; een volgordelijk kleurenschema. Echter, hier kan wel sprake zijn van witte kleuren bij nulwaarden. Is er sprake van positieve en negatieve waarden, of is er sprake van onder en boven de 100%, dan kan van een divergerend kleurschema gebruik gemaakt worden. Het midden kent hierbij een min of meer neutrale kleur, naar beneden en boven lopen de kleuren langzaam op naar twee tegenovergestelde kleuren (laatste voorbeeld geheel rechts).

Over de tabel:

De voorbeeld kleurenschema's tonen uiteraard een beperkt deel van alle mogelijkheden. Waar een in rood opklimmende schaal is genoemd, kan ook voor een blauwe of groene schaal gekozen worden. Die kleur is dan meestal afgestemd op het thema. Zie ook Kleurgebruik en kleurassociaties. Ook geldt dat het aantal legenda eenheden (hier steeds 5) uiteraard ook kan afwijken. Een goed GIS-pakket komt, gegeven een door jou uitgekozen, logische kleur, meestal met een redelijk kleurenschema. Of die kleuren ook echt goed zijn hangt uiteraard ook weer af van de kleuren van de (overige) achtergrondthema's, zoals een extra laag met wegen of steden. Via de Colorbrewer op Internet kan je in een aantal stappen (die keurig worden uitgelegd) de ideale kleuren voor choropleten en chorochromatische kaarten bepalen. Nadat je op die site het 'ideale' kleurenpalet hebt bepaald en door jou zijn getest op een imaginaire kaart, zijn de 'RGB'- en 'CMYK' waarden vervolgens af te lezen en te gebruiken voor je eigen kaarten. Ook krijg je op die site te zien voor welke situaties (laptop, beamer, papier, zwart-wit of juist kleur) het gekozen kleurenschema voldoet.
Pas op met rode en groene kleuren, zeker bij de binaire en nominale schalen. Sommige kleuren hebben namelijk een (negatieve) associatie. Zie ook weer Kleurgebruik en kleurassociaties in deel C. Er is veel meer te schrijven en te weten over hoe kleurschema's in elkaar moeten zitten, in allerlei verschillende gevallen. Dit staat onder andere goed beschreven in Geo-visualisatie/Overige_informatie#Literatuur de literatuurlijst van dit handboek; Designing Better Maps van C. Brewer is daarvan misschien wel het mooiste voorbeeld.

Een visualisatieschaal, met een aantal onderscheiden klassen in bepaalde kleuren is een wezenlijk ander begrip dan een meetschaal. Daar waar de data de objecten classificeert in de typen A, B, C, en D, kan de visualisatie A en B tot één klasse groeperen, en C en D in een tweede klasse groeperen. Een visualisatieschaal is zichtbaar voor de kaartlezer, een meetschaal (net zoals de eigenlijke data) is dat niet. Dit brengt een verantwoordelijkheid voor de kaartmaker met zich mee. Er mag niet zomaar een classificatie worden gekozen. Er moet enige kennis van de data aanwezig zijn. In de paragraaf hierna zal dit met een aantal voorbeelden over besteedbaar inkomen duidelijk worden.

Bij het visualiseren kunnen:

onbekende waarden (gebieden die niet met de meetschaal zijn ingedeeld in een bepaalde categorie) dienen in ieder geval in een ten opzichte van het kleurenschema afwijkende kleur te krijgen. Bij voorkeur is dit grijs. Het is in ieder geval niet wit, omdat deze kleur meestal met nul of geen waarde wordt geassocieerd.
de visualisatieschaal (nominaal, binair, ordinaal, interval, ratio) en het aantal klasses dat gebruikt wordt bij het visualiseren afwijken van dat van de meetschaal. Per definitie zal dat zo klein mogelijk moeten zijn, én afgestemd op het gebruik van de kaart. Pas dan is er niet meer sprake van data, maar informatie. Zorg voor maximaal 8 klassen, maar minder is meestal beter. In zeldzame - overwogen - situaties kunnen meer klassen ook nog leesbaar zijn. Bijvoorbeeld door het maken van groeperingen; drie soorten blauw, drie soorten groen, et cetera. Dit is zeker goed mogelijk indien die klassen niet random, maar logisch verspreid zijn over de kaart, zoals dat bij geologische kaarten vaak het geval is.
alleen schalen gebruikt worden die gelijk of van een lagere intelligentie zijn ten opzichte van de meetschaal. Bijvoorbeeld: is een meetschaal ordinaal (grondwatertrappen), dan mag de laagste grondwatertrap bij het visualiseren géén witte, en de overige trappen een steeds verzadigendere rode tint krijgen; immers, een ordinale schaal kent géén nulpunt.
maximaal zoveel categorieën worden gebruikt als dat er bij de inwinning op de daar gebruikte meetschaal zijn onderscheiden. Bij het meervoudig gebruik dient er dus afstemming te zijn tussen degene die de informatie inwint en degene die de informatie dient te visualiseren ten behoeve van de eindgebruikers.

SAMENVATTING: Er zijn vier meetschalen te onderscheiden wanneer we datasets indelen. Dat zijn -in opklimmende intelligentie: nominale, ordinale, interval en ratio meetschaal. Een binaire meetschaal is een verbijzondering van een nominale meetschaal. Nominale en ordinale meetschalen beschrijven kwalitatieve datasets. Dat zijn datasets waarbij de verschillende klassen verschillende soorten voorstellen, waarbij de ene klasse niet meer of minder, maar 'anders' is. Interval en ratio meetschalen bschrijven daarentegen kwantitatieve (getalsmatige) datasets. Bij elke soort meetschaal hoort een andere soort visualisatieschaal, een ander kleurschema.

Kleurenschema's

Inmiddels zijn de soorten kleurenschema's al genoemd. Hieronder voor de volledigheid een overzicht voorbeelden:

sooort kleurenschema	omschrijving	gebruik
kwalitatief kleurenschema (Engels: Qualitative color scheme)	Een kwalitatief kleurenschema laat visueel geen kwantitatieve verschillen zien tussen de verschillende legenda-eenheden (klassen). Kleurverschillen worden alléén gebruikt om klassen onderling visueel te kunnen onderscheiden. De verschillende legendaeenheden verschillen alleen qua kleur, níet qua lichtheid of verzadiging. Daardoor lijkt het ene vlak niet meer of beter dan het andere vlak.	Kwalitatieve schema's worden gebruikt voor het weergeven van nominale meetschalen (en dus ook binaire meetschalen). Dus niet-geordende verschillen, zoals gebieden met voornamelijk moslims of juist voornamelijk christenen.
volgordelijk kleurenschema (Engels: sequential color scheme)	Er is sprake van één tint (hue) of hoofdkleur. De lichtheid (Engels: lightness) van de kleur varieert echter: (klassen met) lage waarden kennen de lichtste grijstint (bv: lichtrood), (klassen met) hogere waarden kennen donkere grijstinten (bv: donkerrood). De opeenvolgende kleuren in zo'n kleurenschema worden ook wel monochrome kleuren genoemd. Soms wordt een net iets andere kleurtint gebruikt voor de meest lichte en/of meest donkere klasse, om die extra duidelijk weer te geven. Zie de kleur geel, links)	Een sequentieel schema is geschikt voor het weergeven van geordende data, dus gegevens die zich minimaal op een ordinale schaal bevinden.
divergerend kleurenschema (Engels: diverging color scheme)	Een divergerend schema gaat uit van een bepaald midden (een gemiddelde, de modus, of een wettelijk bepaalde ondergens). Naar onder en naar boven toe loopt die uit naar de beide einden van de dataset. Soms is het midden zelf één klasse (bijvoorbeeld 95% tot 105%); die kleur is dan neutraal. Soms is het midden zelf een klassegrens (bijvoorbeeld 100%). De kleuren naar onder toe hebben één overeenkomstige tint, en lopen van licht (dicht bij het midden) naar donker (maximaal verwijderd van het midden). De klassegrenzen kunnen in percentages beschreven zijn, maar net zo goed op basis van de eenheden waarin de dataset gemeten is. In het eerste van de twee voorbeelden van dit kleurenschema wordt visueeel een bepaalde tegenstelling in de data benadrukt. In het tweede voorbeeld is dat niet het geval, omdat er mengkleuren zijn gebruikt. Er wordt niet geoordeeld met de harde, ongemengde 'stoplichtkleuren' rood en groen.	Kan bij alle kwantitatieve meetschalen gebruikt worden, vooral bij de ratio en interval meetschaal. Bij de ordinale meetschaal zal dit alleen voorkomen als de meetschaal waarop gemeten is zelf al in zich een gemiddelde waarde kent.

*) = Soms is het terecht tegenstellingen te benadrukken door contrasterende kleuren te kiezen (rood versus groen). Bijvoorbeeld als - bij de divergerende schaal - onder een armoedegrens of juist boven een armoedegrens uit komt. Of wanneer de politie of een assetmanager volgens het beleid zou moeten ingrijpen. Gaat het echter om het percentage van het aantal 70 plussers per gemeente, dan heeft ónder of boven een landelijk gemiddelde weinig te maken met goed of slecht. Je kiest dat wel twee goed onderscheidbare kleuren, maar geen tegengestelde kleuren.

Een voorbeeld van een volgordelijk kleurenschema toegepast op vlakken (zie tekst)

NB1: Kies in kwalitatieve kleurenschema's bij elkaar passende tinten; dus óf allemaal blauwachtige tinten, óf allemaal pastel tinten óf allemaal harde - min of meer - primaire kleuren, of allemaal mengkleuren. Meer over kleuren vind je in 'Kleuren'.
NB2: Het moge duidelijk zijn dat divergerende kleurenschema's en kwalitatieve kleurenschema's niet zonder meer naar een zwart-wit afbeelding kunnen worden omgezet. Dat geldt wél voor een volgordelijk kleurenschema zoals die voor kwantitatieve datasets wordt gebruikt.
NB3: Divergerende kleurenschema's doen bij kwantitatieve data een uitspraak over 'goed-beter-best', in tegenstelling tot volgordelijke kleurenschema's. Divergerende kleurenschema's voegen door extra informatie een extra oordeel toe aan de data / klassegrenzen. Volgordelijke schema's doen dat niet en zijn daardoor objectiever, maar soms ook minder veelzeggend. Of je voor een divergerende of een volgordelijke kleurenschema kiest, hangt dus af van wat je wilt zeggen met de kaart.

Een voorbeeld van een meer in Oostenrijk (zie figuur rechts) toont hoe strak kaartsoorten, datasets en kleurenschema's qua mogelijkheden aan ekaar gebonden zijn. Het betreft een isolijnen (diepte-lijnen) kaart. De isolijnen zélf zijn echter door het GIS-programma onzichtbaar gehouden. Doordat de tussenliggende vlakken met verschillende blauwtinten zijn ingekleurd, is een choropleet ontstaan. Verder gaat het om een kwantitatieve dataset (diepte), een volgordelijk kleurenschema en er is als classificatiemethode voor het weergeven van de diepte gekozen voor een zogenaamde 'equal interval'-classificatie. Over classificatiemethodes is twee paragrafen verder meer te lezen.

SAMENVATTING: Bij kwalitatieve meetschalen (nominaal, binair) horen kwalitatieve kleurenschema's. Bij kwantitatieve meetschalen (ordinaal, interval en ratio) horen volgordelijke of divergerende kleurenschema's. Kleurenschema's zoals die door een GIS standaard gegenereerd worden voldoen niet altijd. Handmatig moeten deze vaak worden gewijzigd. Dat kan zijn om meer onderscheid te creëren (door bijvoorbeeld meer verzadiging toe te passen), om bepaalde (negatieve) kleurassociaties te vermijden, of om enkele klassen een gezamenlijke, afwijkende kleurtint mee te geven. de reden kan bijvoorbeeld zijn dat deze klassen boven een landelijk gemiddelde of een politiek, ecologisch, commercieel of veiligheidstechnische gewenste norm liggen. Door een dergelijk kleine ingreep worden data echt bruikbare informatie.

TIP1: Maak je bij kwalitatieve datasets gebruik van harde, primaire kleuren, dan worden de vlakken vaak als tegengesteld ervaren (bijvoorbeeld links of rechts stemmend). Bekijk de eerste twee voorbeelden van de drie kleurenschema's hier rechts. Het eerste kleurenschema is met zijn pasteltinten lichter en minder verzadigd dan de donkere, verzadigdere tinten daarnaast. Maar in beide voorbeelden gaat het om zogenaamde mengkleuren. Dat zijn kleuren ontstaan door het mengen van de primaire kleuren. Maak je van dergelijke mengkleuren gebruik, dan worden de onderlinge vlakken minder snel als tegengesteld ervaren, maar eerder als anders (bijvoorbeeld gemeentes). In het derde voorbeeld zie je een kleurenschema met (twee) primaire kleuren; deze kleurenschema's zijn goed voor het visualiseren van gebieden met tegengestelde eigenschappen (denk aan NAVO versus communistische landen tijdens de Koude Oorlog).

TIP2: Kies bij (geheel) vlakvullende kleuren voor lichtere, minder verzadigde (pastel) kleurenschema's. Dat geeft een rustiger beeld. Bovendien zijn overige symbolen (zoals wegen) en teksten dan nog goed te zien. De kaart zal dan rustig ogen. Gaat het om niet (geheel) vlakvullende gebieden, lijnen of puntsymbolen, dan zijn uiteraard wel eerder donkerdere, verzadigdere (harde) kleurenschema's goed mogelijk; die kleinere vlakken, lijn- en puntsymbolen vallen immers met die donkerdere mengkleuren, of die primaire kleuren meer op.

TIP3: Heb je aan bovenstaande links, aanwijzingen, je eigen GIS-pakket en je eigen inspiratie nog niet genoeg om zelf kleurenschema's te maken, gebruik onderstaande figuur met vele (ongesorteerde) voorbeelden. Bijvoorbeeld door de RGB-waarden er uit af te leiden met een simpel programma als Windows Paint, of met 'Pixie'. Hiermee kan je kleuren kopiëren van één pixel op een afbeelding naar het klembord met de juiste HSV/RGB/CMYK-kleurencodes. Het is gratis te downloaden software.

Voorbeelden van kleurenschema's (gesorteerd). Door kleurenschema's ook om te zetten naar zwart-wit (rechts in beeld), is te zien of de grijswaarden wel echt volgordelijk zijn. Het zijn immers de grijswaarden die via de oog-brein-combinatie de visuele volgordelijkheid bepalen, en niet de kleur! Zie verder tekst.

TIP4: Pas op met divergerende kleurenschema's. Deze kennen vaak een lichte, neutrale kleur in het midden - bij de gemiddelde waarden - maar worden donkerder naar beide kanten toe. Bijvoorbeeld steeds groener voor gebieden met een relatief steeds jongere bevolking, en steeds bruiner voor gebieden met een steeds oudere bevolking. Een dergelijke kleurenschema is op je scherm fantastisch, maar de krant waar jij voor werkt levert een totaal onleesbare kaart af, wanneer deze in zwart-wit wordt getoond. Zeker wanneer er ook nog grijs is gebruikt voor gebieden met een 'onbekende' waarde. De hele figuur bestaat uit grijstinten. Ook het maken van zwart-wit kopiën zal niet goed gaan. De fout is vaak te zien in landelijke kranten. Conclusie: vraag de uitgever / opdrachtgever of je in kleur mag werken, en houd hem er ook aan.

TIP5: In het onderdeel Vragen en opdrachten is onder andere deze vraag gewijd aan divergerende meetschalen: Wereldkaart Bruto Binnenlands Product. Hier zijn met name bij de Antwoorden (onder het kopje Antwoorden bij 'Wereldkaart Bruto Binnenlands Product') enkele voorbeelden te zien hoe het wel en hoe het liever niet moet.

De visuele indruk van een kleurenschema

Bij kwantitatieve data worden dus 'volgordelijke' kleurenschema's gebruikt. Deze paragraaf zal laten zien dat juist bij deze kwantitatieve data de kleur die deze data representeert niet zo maar vrij gekozen kan worden. Wat in eerste instantie van nature al geprobeerd zal worden, is om er voor zorgen dat onderlinge de kleuren maximaal van elkaar te onderscheiden zijn. Dit kan door te werken van licht naar donkerder, al of niet aangevuld door de donkere kleur nog verzadiger te laten worden. Jouw GIS komt meestal al met een aardig kleurenschema bij een eerste classificatie. (Zie ook de Kleuren verder op in deel B en de kleurenschema's die de Colorbrewer of misschien zelfs jouw GIS weten te creëeren).

Echter niet alles gaat automatisch en makkelijk; de exacte kleuren die je kiest voor een legenda moeten namelijk in overeenstemming zijn met de data. Stem het gradueel laten oplopen van de verzadiging en / of het donkerder laten worden van de kleuren af op de dataset. Zie de figuur met de verschillende blauwe kleurenschema's. Stel voor dat hiermee bijvoorbeeld de neerslag van een gebied of de diepte van een meer wordt gerepresenteerd. Laten we de getoonde kleurenschema's eens bespreken. We gaan daarbij voor het gemak niet in op het aantal klassen dat gekozen is, dat is in deze paragraaf even niet het onderwerp.

volgordelijk kleurenschema's in relatie tot de data. Het gaat hier bijvoorbeeld om neerslagcijfers in mm per jaar of dieptes in meters (zie verder tekst).

Bij A is gekozen voor een blauwe, steeds donkerder kleur blauw. De kleuren lopen van klasse tot klasse geleidelijk op, er zit géén sprong in de kleur blauw. Dat is correct, want de data gaat ook per klasse met 200 omhoog. De diepte of neerslag neemt dus als het ware toe van de minimaal mogelijke waarde (0%) tot de maximaal mogelijke waarde (90 of 100%). Het kleurverloop in de visuele schaal en de meetschaal loopt evenredig toe met de klassemiddens (100, 300, .. t/m 1700).

Bij B zie je in de laatste klasse een soort vergaarbak van dieptes. Misschien is dat gedaan omdat deze waarden niet zo vaak voorkomen, of omdat de gradaties onder de 1000 belangrijker zijn. Van belang is dan wel dat deze brede (gemiddeld diepe!) klasse ook een donkerdere kleur krijgt. Die donkere kleur vertegenwoordigt de gemiddelde waarde van de vier hoogste klassen uit de situatie bij A. Dat betekent dus ook dat die kleur het gemiddelde moet zijn van de kleur van die vier klassen. In ieder geval ga je aan de donkere kant zitten, zodat deze zeldzame en hoge klasse goed opvalt ten opzichte van de lagere klassen. Zo waarschuw je de kaartlezer met de kleur al in de kaart en hoeft hij strikt genomen de legenda niet te zien.

Bij C zie je dat er - in tegenstelling tot bij A - niet gekozen is om de complete range die ons aan lichte en donkere blauwe kleuren ter beschikking staat te gebruiken. Dit wordt gedaan om niet de indruk te wekken dat zelfs de donkerste klasse (800-1000) zo veel neerslag betekent. Het gaat blijkbaar om een relatief droog gebied.

Bij D (het eerste voorbeeld van D) zie je dat er vooral blauwe kleuren voorkomen. Dit wekt de indruk dat het er nat is. Dat betekent dus dat het gebied in werkelijkheid ook een gebied moet zijn waar relatief veel neerslag valt. Ook al hebben landen een heel verschillend neerslagbereik, landen worden zo wel onderling vergelijkbaar. Landen met een legenda C en landen met een legenda D zijn dus goed vergelijkbaar. Ook als er géén kaart met een legenda zoals bij C bij deze kaart stond was het niet slim om een lichtere legenda te nemen. Er dienen gewoon donkere kleuren gekozen te worden. Wanneer een gebied overal zeer nat is, is het niet slim om de kleine verschillen die er zijn met veel klassen uiteen te splitsen, en die dan met sterk uiteelopende lichte en donkere kleuren blauw te representeren. Een mogelijk nadeel van deze (juiste) overwegingen kan echter zijn dat de onderlinge onderscheidbaarheid minder is geworden. Het tweede voorbeeld bij D zie je dat er toch voor gekozen is om de klassen maximaal van elkaar op kleur te kunnen onderscheiden. Dit is gevaarlijk, omdat de visuele indruk van de kleur niet overeenkomt met de data (hoeveelheid regen bijvoorbeeld). De tekst zal er aandacht aan moeten schenken. Het is alleen een mogelijke terechte optie als de kaartlezer een ervaren kaartlezer is, of een boer of ontwikkelingsmedewerker die exact allerlei grenzen in een land op regen wil kunnen bestuderen. Voor een reisgids of in een gratis ochtendkrant met een breed publiek is dit tweede kleurenschema juist niet geschikt: er moet (steeds weer opnieuw) naar de legenda gekeken worden: 800 mm regen is erg veel!

Bij E zie je in feite hetzelfde als bij A. Hier heeft de kaartmaker er voor gekozen dan 1000 mm al veel (erg nat) is. Merk op dat de kleuren nu iets dichter bij het midden zitten. Het is minder noodzakelijk om extreem lichte en extreem donkere (verzadigde) kleuren te gebruiken. Dat levert een mooiere kaart op. Het héle lichte en het hele donkere zijn op laptops en beamers minder goed te zien. Dat is overigens ook een reden om zo min mogelijk klassen te gebruiken; Bij E zijn de kleuren onderling beter onderscheidbaar dan bij A.

In alle getoonde kleurenschema's is er nog géén wit gebruikt. Dat had ook niet gemogen! Bij F zijn er gebieden waar echt géén neerslag is gevallen (in die maand of in dat jaar). Die dienen dus ook géén kleur te krijgen, maar wit te blijven. Overigens, onbekende gebieden, of gebieden waarvan geen (neerslag) cijfers bekend zijn, dienen dus juist ook géén witte e/o blauwe kleuren mee te krijgen, om dezelfde reden; anders zou de kaartlezer denken dat hier geen neerslag valt, of dat er juist wel een bepaalde hoeveelheid valt.

Om dat te voorkomen wordt meestal grijs gekozen als kleur om gebieden weer te geven waar geen informatie over is. Zie G. In de legenda wordt zo'n grijs legendavakje dan ook vaak los getekend van de overige legendavakjes (legendaeenheden). Wit mag dus niet, want dat wordt geassocieerd door de kaartlezer met de meetwaarde nul.

Bij H gaat het weer over dezelfde dataset (laten we maar weer zeggen: neerslag), echter nu kwalificeren we echter de kwantitatieve dataset; dat gebeurt met een min of meer divergerende schaal; de lage waarden worden gegroepeerd, en zijn samen (immers door hun gelige kleuren) te onderscheiden als te droog. Ook de te natte waarden zijn bewust erg donker (blauw) weergegeven. De indruk die ontstaat bij de kaartlezer is ook voor deze 'neerslagkleuren' erg nat. De uiteindelijke kaart zal naar verwachting goed leesbaar zijn, omdat de kaartlezer 3 kleursoorten ervaart: gele tinten (te droog), groene tinten (geschikt) en blauwe tinten (te nat).

NB1: Merk dus op dat al deze kleurenschema's goed (kunnen) zijn. En merk op dat geen van de getoonde kleurenschema's in elk geval voldoet.

SAMENVATTING: Het kleurverloop binnen (kwantitatieve) kleurenschema's is niet geheel vrij. Ze worden deels opgedrongen door het verloop van de dataset. Verschillend gekozen kleurenschema's leiden tot verschillende beelden van het fenomeen bij de kaartlezer. Verkeerde keuzes leiden zelfs tot een verkeerd beeld bij de kaartlezer.

TIP: Kies dus niet altijd voor een maximaal verloop tussen maximaal licht en maximaal donker. Maak gebruik van zowel de lichtheid (lightness) als de verzadiging (saturation) om onderscheidbaarheid van klassen te waarborgen of vergroten, zeker indien er meer dan 4 of 5 klassen worden gebruikt.

Normatieve en neutrale legenda's

Voorbeeld van een 'neutrale' legenda. Het kleurenschema zegt netjes: "hoe meer reistijd hoe meer reistijd", niets meer

Voorbeeld van een 'normatieve' legenda. Het kleurenschema schreeuwt het uit: "hoe meer reistijd, hoe erger, 20-30 minuten is eigenlijk al verschrikkelijk, maar daarboven is het gewoon te laat!"

Legenda's kunnen het beeld en daarmee de indruk van een kaart flink sturen.

Hier rechts zie je twee legendavoorbeelden.

Het eerste voorbeeld (links) is neutraal. Deze legenda (beter gezegd: kleurenschema) 'stuurt het beeld dat een lezer heeft niet, hooguit op een neutrale wijze. Dat komt met name door de volgordelijkheid (naast het NIET kiezen voor bijvoorbeeld een rode kleur).
Het tweede voorbeeld (rechts) is normatief. Er wordt wel degelijk met volgorde gewerkt; de kleuren gaan min of meer van licht naar donker. Maar er zit iets divergerends in. De hoogste twee klassen zijn blauw. Vanwege het thema (reistijd) lijken dit ijzigblauwe, vrijwel 'onbereikbare' plekken. Er is gebruik gemaakt van een bepaalde drempelwaarde. Ook wordt ook echt bewust gebruik gemaakt van negatieve kleuren bij een steeds slechtere reistijd. Het gaat dan ook om de reistijd van een hulpdienst.

Geen van beide legenda's is fout, er is ook geen beste. Het zijn verschillende kleurenschema's die in verschillende situaties juist wel of juist niet gebruikt moeten worden.

Een normatieve legenda / (of: normatief kleurenschema) is veel ingewikkelder dan een neutrale legenda (of neutraal kleurenschema). Zowel om te maken als om te lezen. Er dient goed over nagedacht te worden. Het hangt ook af 'van wie de kaart is'. Een reisorganisatie die huisjes wil aanprijzen, met daarbij een kaartje van attracties in de omgeving, zal eenzelfde soort bereikbaarheidskaart echt niet met dezelfde kleuren tonen als hierboven. Overheid, Brandweer, actiegroep 'buitenwijken beter bereikbaar' en actiegroep 'minder geld uittrekken voor de brandweer', zullen allen een andere legenda maken... In feite is een normatieve legenda niets anders dan een geclassificeerde volgordelijke legenda.

Het gebruik van normatieve legenda's

Normatieve legenda's sturen de kaartlezer. Normatieve legenda's geven behalve informatie ook interpretatie. Je gaat aanvullende informatie toevoegen aan de legenda. Daardoor ontstaat een andere (of, als het goed is, betere) kaart. Er kunnen, vergelijkbaar als met de divergerende legenda's van hierboven, betere en snellere beslissingen mee worden genomen. Als je je als kaartmaker ook op deze wijze informatie verspreidt, bedenk dan dat je de indruk van een kaart sterk beïnvloedt; je stuurt de opinie van de kaartlezer. Je kan op deze wijze beslissingen en meningen van mensen sturen. Daar is niets mis mee. De kaart is een sterk visueel middel. Omdat op deze wijze grote hoeveelheden informatie, middels een plaatje, bij kunnen blijven bij mensen. Een actiegroep kan daar gerust gebruik van maken, zeker op het moment dat het als lezer duidelijk is waarvoor dat kaartje bedoeld is en voor welk medium en doelgroep het is ingezet.

In de beleidsvorming, bij advisering, zeker bij eindrapporten, zijn normatieve legenda's zeer nuttig. De kaart (of het geografisch informatie systeem) is zo tot een 'decision supporting system' of beleidsondersteunend systeem gemaakt.

Legendaopmaak

Drie voorbeelden van legenda's bij een isolijnen kaart, hier een geluidscontouren kaart. Alleen de rechter legenda is goed (waarom?: zie tekst). De linker legenda is ronduit fout en verschijnt vaak als eerste als je vraagt aan je GIS-programma om een legenda toe te voegen. De middelste legenda klopt gezien de klassegrenzen, maar is lastig leesbaar en dus matig vormgegeven.

Wat je GIS-programma als eerste 'prompt' als opgemaakte legenda bij jouw kaart, zal qua en classificatie en de bijbehorende kleuren (immers, jij hebt er al over nagedacht) vast wel goed zijn. Echter de opmaak kan vaak veel beter. Onder andere bij isolijnenkaarten is dit het geval. Het is daarbij onder andere gebruikelijk de legendaeenheden tegen elkaar aan te zetten. Ook dienen de klassegrenzen zelf weer gegeven te worden, in plaats van bij elk vakje/kleurtje de bijbehorende range van getallen te plaatsen. Het scheelt niet alleen typen, maar belangrijker is dat er minder te lezen is voor de kaartlezer. Sterker. Binnen één bepaalde klasse is niet onderscheiden wat daar getalsmatig de waarde is, slechts op de grenzen daarvan is die waarde bekend. Vandaar dat je beter de klassegrenzen zelf in de legenda moet zetten, en deze legendaeenheden ook aan elkaar vast moet plaatsen. Immers, op de kaart zullen ze ook nooit losse vlakken vormen. De legenda komt zo natuurlijker over en de legenda wordt als één gelezen, in plaats van als verschillende vlakjes. Het is - ook als de kaart en het onderwerp nog niet meteen duidelijk zijn of bekeken zijn - meteen duidelijk dat het om een isolijnenkaart gaat. Zie figuur.

Samengestelde kaarten en gecombineerde legenda's

Voorbeeld van een gecombineerde legenda.

Er zijn twee soorten samengestelde kaarten te definiëren:

kaarten waarbij één informatielaag (bijvoorbeeld vlakken) op twee manieren wordt geclassificeerd tot één (gecombineerde) legenda.
kaarten waarbij twee informatielagen over elkaar heen komen te liggen (zoals geclassificeerde snelwegen over geclassificeerde staten). Er zijn dan twee kleurenschema's te zien.

Overigens, een kaart waarbij (ongeclassificeerd) gewoon de snelwegen met één kleur zijn weergegeven over geclassificeerde staten wordt géén samengestelde kaart genoemd. De snelwegen zijn dan slechts als referentie opgenomen.

De eerste genoemde soort (zie de voorbeeldlegenda) is vaak lastig te interpreteren en is vaak meer voor onderzoeksdoeleinden en ervaren kaartlezers bedoeld. Je ziet hem soms in atlassen. Vaak wordt met zo'n kaart gepoogd te kijken of er een verband is tussen beide weergegeven grootheden. In het voorbeeld zou een conclusie kunnen zijn: "of in een gebied nu werknemers voornamelijk uit de primaire, secundaire of tertiare sector komen, er is sowieso in de noordelijke gebieden een daling van de beroepsbevolking". Blijkbaar is er niet met het soort werk, maar de ligging van die gebieden een relatie met de afname van de beroepsbevolking. De licht gekleurde gebieden liggen dan allen in het noorden, maar het betreft zowel, groene, paarse als oranje kleuren, door elkaar heen. Wanneer alle lichte gebieden (met een afname dus) voornamelijk groen en paars zijn, zou er een andere conclusie getrokken worden: "in het noorden zie ik allemaal lichte kleuren, maar die lichte kleuren zie ik net zo goed in het zuiden, het zijn voornamelijk groene en paarse kleuren, dus de afname ligt niet aan de ligging, maar aan de sector die in die gemeente dominant is. Merk op dat er slechts een zeer gering aantal klassen (zowel horizontaal als verticaal) in een gecombineerde legenda moeten worden opgenomen. Een mens kan normaal slechts 8 klassen nog zien, maar dat is al met enige moeite.

Een voorbeeld van een volgordelijk kleurenschema toegepast op lijnen (zie tekst)

Zelfde afbeelding als hierboven, nu met groene ondergrond. Hierdoor is het een goed voorbeeld van een slechte kaart geworden, omdat de kleuren uit de voorgrond (de lijnen) niet meer objectief geïnterpreteerd kunnen worden (zie tekst).

TIP1: Over samengestelde kaarten.
Maak je gebruik van kleurenschema's voor lijn- of puntstymbolen (in plaats van vlakken), zorg dan dat de ondergrond qua kleuren niet wijzigt. Zie bijvoorbeeld de eerste kaart. Dit is geen samengestelde kaart. Het beschrijft het aantal doden per kilometer per snelweg. Zou je nu de staten 'onder de snelwegen' kleuren meegeven (bijvoorbeeld allemaal lichtgroen of grijs) dan vallen de lichtst gekleurde snelwegen meer op dan je zou willen. Eenzelfde vervelend effect treedt op wanneer je de staten zou inkleuren met een ander thema (in het voorbeeld rechts staten uit het oosten, midden en westen). Er is dan sprake van een samengestelde kaart. Doordat de staten nu allerlei verschillende lichte en donkere kleuren krijgen, blijft er van een goed beeld van de spreiding van het aantal doden per snelweg vrijwel niets over. Of een lijn opvalt of niet hangt nu ook nog eens van het gebied af. De spreiding is nu niet meer objectief te beoordelen. Combineer in dergelijke gevallen de thema's dus niet tot een samengestelde kaart. Kies voor twee kaarten naast elkaar. In het voorbeeld rechts is een kleur gebruikt; groen. Maar ook grijs bijvoorbeeld was fout geweest. In alle gevallen zorgt de achtergrond voor een andere beleving van de kleuren op de voorgrond. Meer uitgebreide informatie over waarom een dergelijke kaart een foute kaart is, zie de theorie over contrast.
Kies je toch voor een of meer achtergrondkleuren - bijvoorbeeld omdat er op de achtergrond een vlakvullende topografische kaart is opgenomen als referentie - zorg dan dat deze achtergrondkleuren:

licht zijn (lichter dan de lijnsymbolen). Dit kan vaak door de transparantie van die kaartlaag in te stellen, zodat de legendakleuren ongewijzigd kunnen blijven.
een afwijkende kleurenset hebben (bijvoorbeeld pastel) ten opzichte van de kleuren van de lijn- of puntsymbolenen.
de achtergrondkleur altijd lichter is dan de overige kleuren van de lijnen.
maak de lijnen op de voorgrond extra dik voor een goed onderscheid.

TIP2: In het voorbeeld met de snelwegen is gekozen voor een kleurenschema zoals je helemaal links aantreft. Er had misschien ook voor het rechter kleurenschema met alleen maar rode tinten gekozen kunnen worden. Het voordeel van de kleur geel/oranje, is dat geel/oranje ook met fout / te veel wordt geassocieerd. Lage waarden zijn in dit geval immers nog steeds te veel doden! Daarnaast mogen lage waarden soms juist wel opvallen, omdat ze daardoor de vraag oproepen "waarom zijn juist op die plekken de waarden zo laag?".

TIP3: Naar aanleiding van tip1: Was toch gekozen voor het rechter kleurenschema met alleen maar lichte en donkere kleuren rood, dan hadden de hoogste klassen beter met wat zwart kunnen worden bijgemengd. De verzadiging van die kleur neemt af; het percentage rood daalt dus. De kleur die je ziet en ervaart wordt donkerder. Het onderscheid wordt daardoor beter, ook in de (hier: twee) erg rode klassen die erg op elkaar gaan lijken. Wat ook wel wordt toegepast is de dikte van die lijnen groter maken voor de hogere klassen. Er wordt dan op twee wijzen - in cartografisch jargon: met twee grafische variabelen - aangegeven dat de waarden voor die klassen hoger zijn.

SAMENVATTING: Samengestelde kaarten kunnen handig zijn, maar zijn vaak moeilijk te lezen. Kies voor een overzichtelijke legenda, waaruit blijkt hoe de kleuren zijn opgebouwd. Gebruik zo min mogelijk klassen. Zorg dat in beide richtingen de kleuren nog logisch en te onthouden zijn. Bijvoorbeeld: hoe meer > hoe donkerder op de horizontale as van de legenda; terwijl de verschillen op de verticale as op basis van kleur nog te onderscheiden zijn. Geclassificeerde lijnen die op een geclassificeerde vlakken worden weergegeven, zijn slecht te interpreteren. Dat komt omdat de kleur en donkerte van de lijnen ten opzichte van de achtergrond beoordeeld wordt door het oog van de kaartlezer. Vermijd daarom bij een thematische lijnenkaart dat de ondergrond ook geclassificeerd wordt of wijzigt van helderheid. Bij een gekleurde topografische achtergrond dient deze (veel) lichter te zijn als het thema op de voorgrond.

Het classificeren

Classificeren is het indelen van verschijnselen of objecten in klassen op grond van overeenkomende of aanverwante eigenschappen. Dit indelen gebeurt door het aangeven van klassegrenzen.

Bij nominale meetschalen is het classificeren relatief eenvoudig, omdat de individuele objecten al geclassificeerd zijn: die ene stad behoort nu eenmaal tot die ene provincie. Ook bij ordinale meetschalen is al een classificatie aangebracht: een gebied behoort nu eenmaal tot die ene grondwatertrap. Hooguit zou een kaartmaker er in bepaalde gevallen voor kunnen kiezen om bepaalde klassen toch samen te voegen. Onderstaande voorbeelden gaan vooral over het classificeren van gegevens die met een interval meetschaal of een ratio meetschaal zijn ingewonnen.

Het classificeren zelf gaat (bijvoorbeeld met een GIS) heel gemakkelijk. Echter, het goed classificeren blijkt een hele kunst - net zoals het vervolgens toedelen van de juiste kleuren aan die klassen die zo ontstaan zijn (zie vorige paragrafen).

Kijk maar eens naar de volgende vier kaarten. Hier zijn vier maal exact dezelfde gegevens over het besteedbaar inkomen per gemeente weergegeven. Er zijn steeds exact dezelfde legendakleuren gebruikt. Het doel van elke kaart is steeds een goed beeld te geven over de spreiding die er is tussen de gemeentes voor wat betreft de inkomens van de (gemiddelde) werknemers.

Besteedbaar inkomen, geclassificeerd op basis van de Quantile-methode (klassen met steeds evenveel objecten)

Besteedbaar inkomen, geclassificeerd op basis van de Natural Breaks methode ('Jenks', zie tekst)

Besteedbaar inkomen, geclassificeerd op basis van Equal Interval-methode (gelijke intervallen)

Besteedbaar inkomen, geclassificeerd op basis van (klassebreedtes gelijk aan de) standaarddeviatie

Merk op dat de kaarten verschillende visuele beelden achterlaten bij de kaartlezer:

In de eerste kaart 'is de Randstad erg rijk' en zijn er maar weinig echt arme en gemiddelde gemeenten. Hogere waarden worden blijkbaar benadrukt. De kaart lijkt (partijdig?) te willen zeggen dat er vooral veel rijke gemeenten zijn.
In de tweede kaart 'zijn er maar enkele gemeenten erg rijk'. De kaart lijkt niet echt een landelijk verschil keihard te willen benadrukken, hooguit de nadruk te leggen op enkele gemeenten die rijk of juist arm zijn.
In de derde kaart 'zijn er vooral veel gemiddelde gemeenten, en enkele gemiddeld arme gemeenten'. De kaart lijkt te willen zeggen dat er niet echt een probleem is.
In de vierde kaart 'zijn er helemaal geen arme gemeenten'. De kaart lijkt te willen zeggen dat er geen probleem is, hooguit dat er tussen de gemiddelde en hoge inkomens wat verschillen zijn.

NB: Was slechts één van deze kaarten in een krant, folder of website terechtgekomen, dan had waarschijnlijk bij geen enkele versie iemand de vraag gesteld 'zijn de klassegrenzen wel goed bepaald?'.

De vragen die we daarom als verantwoordelijke kaartmaker moeten stellen zijn:

Op welke manieren kunnen we classificeren?
Welke manier van classificeren moeten we gebruiken?

In de paragraaf hierna worden deze vragen beantwoord op basis van het voorbeeld van hierboven. Het is belangrijk om nu al vast te weten dat er géén één beste classificatiewijze is, en dat de te gebruiken classificatiewijze af hangt van het exacte doel van de kaart.

Het classificeren komt neer op twee aspecten: het bepalen van klassegrenzen en het bepale van het aantal klassen. Het indelen op kleur is een aspect dat hier dus in principe buiten valt.

SAMENVATTING: De keuze van de classificatiemethode bepaalt de klassegrenzen, en daarmee ook de visuele indruk die je de kaart meegeeft. Bij het kiezen van een classificatiemethode moeten we vooraf weten wat de bedoeling van de kaart moet zijn. Zoals, "moet de kaart vooral de extremen laten zien?", "moet de kaart tegenstellingen duidelijk maken?", of "moet de kaart juist de gebieden maximaal onderscheidbaar maken over de gehele range van voorkomende waarden?".

Klassegrenzen bepalen

Met een GIS zijn meestal allerlei classificatiewijzen (allen voorzien van mooie, betrouwbare namen) makkelijk te selecteren en uit te voeren. Binnen no-time is er sprake van een mooie kaart. De voorbeelden hierboven tonen aan dat zomaar een keuze maken blijkbaar niet een goede werkwijze is; ze leveren echt verschillende kaarten op. Er zal dus naar die verschillen gekeken moeten worden. Dat kan door de verschillende kaarten zelf te vergelijken, zoals bij de bespreking van de vier kaarten van hierboven. Echter, het is beter de ruwe statistische gegevens te gaan bekijken. Op basis van die daadwerkelijke gegevens moet de classificatie bepaald worden, tezamen met het doel van de kaart.

Laten we daarom eerst eens wat beter kijken naar de daadwerkelijke gegevens zelf. De hierboven met vier kaarten geïllustreede, verschillende classificaties zien er - in dezelfde volgorde - statistisch gezien zo uit:

Besteedbaar inkomen, geclassificeerd op basis van de Quantile-methode (klassen met steeds evenveel objecten)

Besteedbaar inkomen, geclassificeerd op basis van de Natural Breaks methode ('Jenks', zie tekst)

Besteedbaar inkomen, geclassificeerd op basis van Equal Interval-methode (gelijke intervallen)

Besteedbaar inkomen, geclassificeerd op basis van (klassebreedtes gelijk aan de) standaarddeviatie

Deze vier diagrammen geven steeds dezelfde data weer. Deze worden door de grijze kolommen weergegeven. Voor alle diagrammen zijn deze dus hetzelfde. Op de horizontale as staan de meetwaarden, dus in dit geval, de gemiddelde inkomens per gemeente. Op de verticale as is te zien hoe vaak die individuele meetwaarden voorkomen. In dit voorbeeld komt de klasse rondom 12 het vaakste voor, in zo'n 40 gemeenten. De spreiding van aantallen over alle individuele meetwaarden wordt in de statistiek een verdeling genoemd. In blauw zijn de toegepaste klassegrenzen te zien. Dat zijn de enige verschillen tussen de vier diagrammen.

Hoewel in werkelijkheid verdelingen binnen datasets erg onregelmatig kunnen en zullen verlopen, is het toch zo dat de verdelingen vaak een op een patroon lijken. De statistiek beschrijft onder andere de volgende verdelingen:

symmetrisch verdelingen om een gemiddelde heen, zoals de normale verdeling (of Gauss-verdeling) en de binomiale verdeling. Links en rechts van het gemiddelde zijn ongeveer even veel waarden.
asymetrische verdelingen, zoals een Poisson-verdeling. Hogere waarden, 'rechts' van het gemiddelde, komen weinig voor, maar bestaan wel. Lagere waarde, 'links' van het gemiddelde komen veel voor, maar zijn verspreid over een beperkt deel van de horizontale as en liggen dichter bij het gemiddelde. Het gemiddelde ligt dan vaak hoger dan de meetwaarden die het meest vaak voorkomen. In het voorbeeld van de besteedbare inkomens, is dit bijvoorbeeld het geval.

NB:

Meer over deze verdelingen kan je indien gewenst terugvinden in het wikibook over discrete kansrekening of bekijk wikipedia over normale verdelingen.
Soms bepalen bepaalde, sterk afwijkende (hoge of lage) waarden het beeld. Deze waarden worden in het Engels - heel mooi - 'outliers' genoemd. Hier dient in de classificatie rekening mee te worden gehouden. Komen dergelijke waarden voor, dan is het niet slim om te kiezen voor vaste klassebreedtes. Het resultaat is dan een aantal klassen die géén of weinig waarden bevatten. Het (visueel) onderscheidend vermogen van de kaart is dan zeer beperkt.

Jij als kaartenmaker alleen, hebt dus de beschikking over de ruwe data, in dit geval, de exacte gemiddelde inkomensgegevens van de individuele gemeenten. Jij hebt een beeld van de voorkomende meetwaarden en de verdeling. Door te classificeren 'sla je de data plat', populair gezegd . Je maakt van de ruwe data een mooi, visueel aantrekkelijk plaatje. Beter gezegd: van data maak je informatie. Data is een onoverzichtelijke hoeveelheid gegevens. Zou je er voor kiezen om elke afzonderlijke gemeenten één kleur te geven, die afhangt van het gemiddelde inkomen, of je zou in elke gemeente het exacte getal weergeven dat overeenkomt met het gemiddelde inkomen, dan breng je alle data - onverdund - in kaart. Het zal nog steeds een onoverzichtelijke brij aan data zijn. Dat is niet de bedoeling van een goede kaart. Een goede kaart maakt wel degelijk keuzes. Je vat de brij samen. Als informatiemakelaar (zie Deel A) heb je die plicht om dit goed te doen. De kaartenlezer beschikt immers niet over de data achter de kaart, en kan het visuele beeld niet verifiëren, laat staan mentaal corrigeren (zie eerder in dit Deel B, over Bertin).

Laten we de vier inmiddels genoemde classificatiewijzen eens op een rij zetten en beschrijven:

classificatiewijze	definitie	opmerkingen
op basis van Quantile (Nederlands: 'kwantielen')	classificeert een dataset in een op te geven aantal klassen waarbij de klassen onderling evenveel meetwaarden kennen. Een kwantiel is een klassegrens (getal) dat een dataset verdeelt in een aantal grotere, en kleinere waarden. De klassebreedtes kunnen variëren, maar het aantal binnen elke klasse is steeds gelijk.	Bekend is het 0,5-kwantiel (spreek uit: het nul-komma-vijf-kwantiel) dat overeenkomt met de mediaan. De mediaan is het midden van een geordende dataset, dus niet het gemiddelde, maar die meetwaarde waarbij er evenveel meetwaarden onder, als boven liggen. Het is een inzichtelijke methode, maar de uitkomst kan misleidend zijn. Tests met andere methoden en / of het goed bestuderen van het resulaat / en het bekijken van de verdeling zijn daarom aan te bevelen.
op basis van Natural Breaks ('Jenks -')	classificeert een dataset in een op te geven aantal klassen met een bepaald statistisch algoritme op een zodanige wijze dat binnen de klassen de variatie minimaal is, en de klassen onderling maximaal verschillen. In het ideale geval vallen de klassegrenzen samen met de dalen in grafiek die de verdeling van de meetwaarden weergeeft. De klassebreedtes kunnen variëren.	Deze methode maakt het mogelijk om groeperingen en patronen te ontdekken die in de data zitten / die in de data 'zelf zijn opgesloten'. De methode gaat ervan uit dat er verschillende groepen ('populaties' in statistisch jargon) zijn binnen een verdeling. De methode kan dan ook het beste alleen gebruikt worden voor die situaties waarbij geldt dat er groepen zijn. De methode zoekt die groepen op en maakt klassegrenzen zodanig aan dat de bij de groepen horende meetwaarden in één klasse voorkomen, bijvoorbeeld erg rijke gemeentes, en erg arme gemeentes. Overigens, in dit voorbeeld van gemeentes is er niet echt sprake van groepen. Test wel het resultaat door de kaart en de verdeling van de meetwaarden goed te bestuderen; hoe zijn door het algoritme de klassegrenzen terechtgekomen? Is dit wat ik wil? Of wil ik toch bepaalde uitschieters liever benadrukken? Moeten de grenzen niet toch handmatig verschoven worden, en horen die twee groepen misschien niet gewoon tot één groep. Een toepassing waar een dergelijke classificatie wel tot zijn recht zou komen is het inkomen per adres in een wijk, wanneer in (bepaalde delen van) die wijk twee soorten inwoners wonen. Wanneer een wijk uit zowel appartementen als rijtjeshuizen staan, zou het leuk zijn om in de data twee groepen te creëren, met een klassegrens ertussen, zodanig dat de rijke groep in de appartementen zit en de arme groep in de rijtjeshuizen. Het is dan zeer aardig om bijvoorbeeld als rijk geclassificeerde adressen tegen te komen in rijtjeshuizen; misschien blijkt hieruit dat een deel van de rijtjeshuizen toch als duurder of beter bekend staat?
op basis van Equal interval (gelijke intervallen)	classificeert een dataset in een op te geven aantal klassen waarbij de klassebreedte voor elke klasse gelijk is. De klasses worden daarbij gelijk 'uitgesmeerd' tussen de minimale en maximale waarde.	Dit lijkt een aantrekkelijke classificatiewijze, vooral door zijn transparante wijze. In veel gevallen is een dataset echter binomiaal verdeeld, waarbij dus vooral veel objecten in één of enkele van de (meestal) middelste klasses vallen. De laagste en hoogste klassen zijn dan (bijna) leeg. Deze classificatie zorgt voor een visueel beeld waarbij erg veel waarden tot het gemiddelde lijken te horen. Een beperkt aantal uitschieters zullen daardoor extra opvallen. Dit kan soms juist wel en soms juist niet de bedoeling zijn.
op basis van Standaard deviatie	classificeert een dataset in een van de breedte van de dataset afhankelijk aantal klassen, door uit te gaan van de gemiddelde waarde, waarna de klassegrenzen worden toegevoegd rondom het gemiddelde op basis van de standaard deviatie. De breedte van elke klasse is gelijk aan één maal, een half maal, of een kwart maal de standaard deviatie. De klassenbreedtes zijn dus steeds gelijk, maar het aantal klassen is gelijk aan de breedte van de dataset gedeeld door de standaard deviatie. Het aantal klassen bepaal jij dus niet, maar de breedte van de dataset!	De standaarddeviatie is een statistische maat van de spreiding van meetwaarden binnen een dataset. Bij een normale verdeling bevindt 66% van de meetwaarden zich binnen éénmaal de standaarddeviatie, en 95% van de meetwaarden binnen twee maal de standaarddeviatie. Zijn er onder en boven deze klassen nog veel uiteenlopende meetwaarden, dan kunnen er veel klassen nodig zijn buiten deze waarden. Gebruik deze classificatie daarom niet bij verdelingen die niet lijken op een normale verdeling. Gebruik deze ook niet als je juist ook nuanceringen in hoge en lage waarden wilt kunnen aangeven. De methode is wel goed om objectief extreme waarden (de 5 of 10% laagste en hoogste waarden) met opvallende kleuren weer te geven.
Handmatig	classificeert een dataset in zelf te bepalen aantal klassen waarbij de klassegrenzen handmatig bepaald worden.	Als uitgangspunt kan één van de bovenstaande classificaties dienen, waarbij met de hand de grenzen worden geoptimaliseerd op basis van de meetwaarden en op basis van het doel van de kaart, dus welke meetwaarden aparte aandacht moeten krijgen. Ook kan als uitgangspunt gebruikt worden een bij de wet of in de natuur geldende onder- of bovengrens. Bijvoorbeeld: 1) onder het landelijk gemiddelde of 2) onder of boven een criterium dat geldt voor het in aanmerking komen voor subsidie of 3) wanneer het fijnstof gehalte de wettelijk bepaalde maximum gemiddelde jaarwaarde van 40 µg/m³ overschrijdt.

Er zijn overigens nog meer statistische methodes om de dataset in klassen te verdelen, namelijk die geclassificeerd worden op basis van de verdeling in de dataset, zoals op basis van aritmische, harmonische of geometrische verdelingen. Meer over deze laatst genoemde verdelingen, statistische kartering en dataclassificatie is onder andere te lezen in Kraak en Ormeling ^[1].

SAMENVATTING: Er zijn meerdere classificatiewijzen waarmee klassegrenzen te bepalen zijn, waaronder quantile, natural breaks, equal interval, standaarddeviatie en handmatig. De verdeling binnen de dataset en de bedoeling van de kaart bepalen welke keuze de beste is. Vaak is het handmatig bijstellen van de klassegrenzen aan te bevelen, als was het maar om mooie, ronde (of gehele) getallen in de legenda te krijgen. De keuze van de classificatiemethode bepaalt de klassegrenzen, en daarmee ook de visuele indruk die je de kaart meegeeft.

Het aantal klassen

Bij een classificatie dient, zoals eerder genoemd, ook het aantal klassen bepaald te worden.

Bij een nominale schaal - of anders gezegd, op een chorochromatische kaart - wordt dit aantal vaak gedicteerd door de data zelf: Een provinciekaart van Nederland kent nu eenmaal 12 provincies, en een bodemkaart kent nu eenmaal tientallen bodemsoorten, en dus ook evenzoveel legendaeenheden. Bij dergelijke kaarten is het vooral een kwestie van kleuren groeperen, dus alle bodemsoorten op zand krijgen een zandige kleur (geel-oranje), en alle veen-bodemsoorten krijgen een lichte tot donkere paarse kleur. Desgewenst kan je het aantal klassen verminderen, door deze te groeperen: alle bodemsoorten op zand krijgen één (geel oranje) kleur. Hiermee wordt de kaart veel leesbaarder. Of dit mogelijk is, hangt af van het doel van de kaart.

Bij sommige chorochromatische kaarten, zoals de provinciekaart van Nederland, is geen legenda nodig voor de kleuren van de provincies. De (twaalf) verschillende kleuren moeten onderling onderscheidbaar zijn. De kleuren hebben verder geen betekenis; door de ligging en de grenzen om de provincies heen is al duidelijk wat de kleuren precies zijn. In zo'n geval is het dan ook geen probleem om twaalf klassen en twaalf (al of niet geheel verschillende) kleuren te hebben. Kies dan wel voor een kleurenschema met kleuren uit 'één thema'; vaak zie je dat GIS-pakketten hier je al mooi uit laten kiezen; zo heb je snel een aantal bij elkaar horende herfst-, oceaan- of fruit-tinten. Overigens, meestal zal je in die gevallen aan vier kleuren genoeg hebben; misschien moet je er dan wel even de tijd voor nemen. Zie ook de 'vierkleurenstelling' op Wikipedia.

Ook bij een ordinale meetschaal (geluidsniveau's, grondwatertrappen) wordt het aantal klassen gedicteerd door de data; het aantal klassen staat min of meer vast, omdat er al een ordening - en dus ook een indeling - is aangebracht. Het samenvoegen kan (soms) wenselijk zijn, maar meestal is die indeling al niet voor niets zo in de dataset aangebracht. De classificatie is in feite al gebeurd. De volgorde (in tegenstelling tot de hierboven besproken schalen) ligt wel vast; dat betekent dat er een zelfde volgordelijkheid in de kleuren in de legenda moet terugkomen (zie hiervoor in de paragraaf over meetschalen en kleurenschema's). Zorg dat de oplopende kleuren ongeveer diezelfde 'beweging' in de data volgen. Is er (bijvoorbeeld in het geval van grondwatertrappen) misschien een opdeling te make in het aantal klassen (grondwatertrappen) waardoor er twee groepen ontstaan? Geef de 'droogste' groep dan kleuren die min of meer bij elkaar horen - en langzaam oplopen qua grijswaarde of verzadiging - en doe dat voor de 'natste' groep met een andere (blauwere) kleur.

Bij de overige kwantitatieve schalen, is het lastiger - anders gezegd - hebben we meer mogelijkheden. Interval en ratio meetschalen kennen in theorie een oneindig aantal tussenliggende meetwaarden. We kunnen dus ook in theorie kiezen voor het splitsen van de data over 2, 3, 10, 100 of 1000 klassen. Bij 100 en 1000 klassen hebben we al gauw het gevoel dat we niet goed bezig zijn. Maar wat is dan wel goed?

Vergelijk eens de volgende kaarten, die exact weer hetzelfde fenomeen beschrijven als eerder: het gemiddelde besteedbaar inkomen per gemeente.

Besteedbaar inkomen, geclassificeerd in 3 klassen (Quantile-methode)

Besteedbaar inkomen, geclassificeerd in 5 klassen (Quantile-methode)

Besteedbaar inkomen, geclassificeerd in 7 klassen (Quantile-methode)

Besteedbaar inkomen, geclassificeerd in 18 klassen (Quantile-methode)

Merk op dat de kaarten - opnieuw - verschillende visuele beelden achterlaten bij de kaartlezer:

In de eerste kaart 'is de Randstad erg rijk'. De kaart lijkt vooral verschillen te willen benadrukken. De kleurkeuze rood is in dit geval (met veel gemeenten die 'rood kleuren') erg opvallend.
In de tweede kaart 'blijken er onder de rijke gemeenten ook minder rijke gemeenten te zijn, en onder de arme gemeenten lijken er ook minder arme gemeenten te zijn. De kaart lijkt een veel genuanceerder beeld te willen geven.
De derde en vierde kaart geven hetzelfde beeld bij de kaartlezer als de tweede kaart, al is een individuele meetwaarde (wat verdient iemand nu gemiddeld in die ene gemeente) niet meer met zekerheid te achterhalen; de legenda is minder leesbaar. De kaart lijkt minder harde uitspraken te willen doen.

Duidelijk is dat 3 klassen onvoldoende is en 18 klassen niets toevoegd, behalve onduidelijkheid.

De manier van classificeren lijkt dus van invloed op de spreiding van het fenomeen, vanuit het oogpunt van de kaartlezer bezien althans. Opnieuw blijkt hier weer de verantwoordelijkheid van de kaartmaker. Het is dus duidelijk dat je met het aantal klassen waarmee je gaat karteren moet experimeteren. Let op - net als hierboven besproken bij het bepalen van klassegrenzen - wat voor beeld de kaart achterlaat, of bepaalde klassen wèl gevuld zijn en zo ja met hoeveel meetwaarden. En zoals het beeld naar voren komt, sluit dat aan bij het doel van de kaart?

In het voorbeeld met het besteedbaar inkomen kan het zijn dat je tóch kiest om de gegevens in 7 of 9 klassen op te delen, bijvoorbeeld omdat je wil dat het duidelijk is dat onderlinge gemeentes, die net even wat meer of minder verdienen, toch wilt kunnen vergelijken. De algehele spreiding van het fenomeen ('gemiddeld inkomen per gemeente') blijft intakt. Gaat het echter alléém om die spreiding, dan blijkt hier dat 5 klassen voldoende is; de kaarten met 7 en 18 klassen hebben echt geen meerwaarde voor wat betreft een beter, visueel beeld van die spreiding. Voor het gehele beeld van Nederland is een verdeling in 5 klassen in dit geval voldoende.

Overigens, iemand die bewust de verschillen tussen de rijke Randstad en 'het platteland' wil benadrukken, zou juist toch voor 3 klassen kunnen kiezen. Wel zal hij hierin een iets minder overheersende kleur moeten kiezen; immers, de klassemiddens van al die rijke gemeenten, zijn helemaal niet zo maximaal rijk als die volle kleur rood bij de kaartlezer misschien doet vermoeden.

SAMENVATTING: We zagen al eerder in dit deel dat het aantal klassen dat een gemiddelde kaartlezer kan bevatten én goed kan interpreteren acht is. Willen we het zekere voor het onzekere nemen, dan kiezen we zo mogelijk voor minder klassen. Dit hangt af van het doel dat de kaart moet hebben, en of de dataset zich er voor leent. Zijn er duidelijk zes groepen in de data te herkennen, laat die dan zien! Is er niet echt een aantal groepen te herkennen, kies dan voor een quantile of natural breaks methode met vijf klassen. Wil je de uitersten benadrukken, kies dan eventueel voor een methode op basis van de standaarddeviatie.

TIP: Zijn er specifieke klasses die je wilt benadrukken, dan zijn er andere handmatige methoden; selecteer die klassen er uit met de juiste klassegrenzen, en breng die in beeld met andersoortige kleuren. Dit zal in de volgende paragraaf aan de orde komen. Eerder zagen we dergelijke voorbeelden ook al bij kleurenschema's; het laatste voorbeeld, waarbij klassen die 'te nat' en 'te droog' waren, met aparte of opvallende kleuren waren weergegeven.

Lessen uit het classificeren

Tijdens het classificeren zien we heel exact hoe de ruwe dataset er écht uit ziet. Bij het testen van classificatie(methode)s leren we de data goed kennen. Misschien zijn we als GIS-specialist zelf al de (deskundige) onderzoeker van die data. Er zijn bij dit proces van het testen meerdere 'mislukte' en 'gelukte' kaarten verschenen. Dit testen is niet voor niets, de GIS-specialist is bevoorrecht.

We kunnen door al die kennis namelijk bepaalde lessen trekken uit het classificeren. Het kan goed zijn dat we hierdoor besluiten toch een andere kaart te gaan maken dan we oorspronkelijk dachten. Allerlei ander technieken kunnen de scherpe kanten van bepaalde classificatiemethoden er af halen. Zo leggen de kaarten weer een andere nadruk of zijn ze nog makkeliker door de kaartlezer te lezen doordat de boodschap nog kernachtiger is, of de informatie nog verder toegespitst.

Te denken valt aan:

het labellen van (alle of) bepaalde extreme meetwaarden.
het anders kleuren van bepaalde vlakken. Extreme waarden worden opvallender gemaakt, gemiddelde waarden kunnen zachtere tinten meekrijgen.
het kiezen van een andere kleurschaal.

Met name het laatste aspect is nog niet naar voren gekomen in het verhaal over het besteedbare inkomen. Er is 'zomaar' gekozen voor een divergerende kleurschaal. Één neutrale gele kleur in het midden, de kleuren lopen naar de minimale en maximale waarden toe langzaam uiteen naar twee andere, tegenovergestelde kleuren. Misschien willen we helemaal geen verschillen benadrukken! Dan moeten we ook helemaal géén verschillende kleurtinten gebruiken, maar één kleurtint die langzaam donkerder wordt. Dat is een volgordelijke schaal. Door toepassing van de divergerende schaal hebben we misschien onbewust een extra, visuele classificatie toegebracht. Dat is extra informatie of een mening! Wellicht is dat niet juist en niet objectief. Een kaartlezer associeert in meer of mindere mate - en bewust of onbewust - kleuren met bepaalde eigenschappen. Rood is rijk of misschien wel slecht. En groen is arm, rustig of landelijk (zie eventueel het stuk over kleurassociaties). Delft is bijvoorbeeld groen, maar niet landelijk. Meer over kleuren weten? Zie Kleuren).

Kortom, besef dat het ook anders kan. Hieronder een aantal voorbeelden.

Besteedbaar inkomen. Door een ander zogeheten volgordelijk kleurschema worden nu géén tegenstellingen benadrukt, maar eerder mogelijkheden

Besteedbaar inkomen. Door een ander kleurschema en vooral een andere (handmatige) klasseindeling, worden de extremen benadrukt

Besteedbaar inkomen. Hier is het gemiddeld gemeentelijk inkomen op 100 gesteld, en labels geven extra informatie.

Merk op ook deze kaarten - nog steeds dezelfde dataset! - verschillende visuele beelden achterlaten bij de kaartlezer:

In de eerste kaart 'is de Randstad erg rijk' en zijn er maar weinig echt arme en gemiddelde gemeenten. Hogere waarden zijn blijkbaar benadrukt, misschien hadden er meer de hogere klassgrenzen bij gemoeten. De kaart lijkt te willen zeggen dat er vooral veel rijke gemeenten zijn, maar het mogelijke probleem van armere gemeenten valt door de lichte rode kleur niet op. De kaart lijkt dit bewust te negeren. De vraag is of de kaartlezer dit bewust ziet... waarschijnlijk niet!
In de tweede kaart 'zijn er maar enkele gemeenten erg rijk', en enkele gemeenten erg arm. De kaart lijkt niet het land te willen opdelen; de meeste gemeenten lijken gemiddeld. Héél goed zichtbaar is de geconcentreerde spreiding van juist die arme en rijke gemeenten! Misschien moet de titel wel anders: "De 20 rijkste en 20 armste gemeenten" of iets dergelijks.
In de derde kaart worden gemeenten die erg rijk of arm zijn, voorzien van een label. Hierdoor wordt gehoor gegeven aan de verwachte vraag van de kaartlezer: 'Hoeveel wordt er nu precies in die hele rijke en arme gemeenten verdiend?'. Daarnaast is de data genormaliseerd ten opzichte van het gemiddelde. Het zorgt voor een toegankelijkere kaart, waar minder achtergrond informatie voor nodig is bij de kaartlezer. Het gemiddelde besteedbare inkomen is gesteld op 100%, armere gemeenten komen daardoor op onder de 100% qua gemiddeld besteedbaar inkomen, rijkere gemeenten komen juist boven de 100%. Dat is een veel voorkomend verschijnsel, waarbij nu het kleurenschema op een logischer wijze lijkt te zijn toegepast. De waarden zijn vaak ook duidelijker voor de gemiddelde kaartlezer, omdat deze niet altijd bekend is met wat 'normaal' is. Veel mensen weten nu eenmaal niet hoeveel een gemiddeld besteedbaar inkomen is. Veel mensen weten ook niet eens wat nu de definitie is van een besteedbaar inkomen. Wil je voorkomen dat kaartlezers de kaart links laten liggen of - erger - verkeerd interpreteren, zet dan de definities duidelijk in de kaart. Het voordeel van het gebruik van percentages is ook duidelijk voor de kaartlezer voor wat betreft de kleurkeuze: rood is méér dan het gemiddelde, groen is minder dan het gemiddelde. Geel licht (ongeveer) op het gemiddelde. Hij ziet dat zo in één oogopslag wanneer hij naar de legenda kijkt. Tot slot nog een waarschuwing: het gemiddelde alle meetwaarden (gemiddeld besteedbaar inkomen per gemeente) is niet het gemiddelde besteedbare inkomen van alle Nederlanders. Dat komt doordat sommige gemeenten groter zijn dan andere gemeenten. Bij het omzetten van een ratioschaal naar een divergerende schaal, moet je hier rekening mee houden.

SAMENVATTING: Ben je hierboven 'de beste' kaart tegengekomen? Dan komt dat waarschijnlijk omdat je de kaart niet getest hebt met de doelgroep, óf omdat je geluk hebt. Er is in principe niet één kaart de beste. Het aantal klassen, de klassegrenzen, het kleurschema en de hoeveelheid informatie, zoals begeleidende teksten en labels zijn variabelen waaraan gesleuteld moet worden om de kaart voor de doelgroep in orde te maken.

Proportionele symbolen / Legenda's bij figuratieve kaarten

Legenda voorbeelden waarmee de data geclassificeerd (boven) en ongeclassificeerde (onder) in beeld wordt gebracht.

Figuratieve kaarten geven kwantitatieve data weer door middel van proportionele symbolen. Dat wil zeggen, de grootte van de symbolen is evenredig met de data. Meestal is de grootte van de symbolen zelfs rechtevenredig met de data - zoals in beide voorbeelden rechts - maar dat hoeft niet. Je kan er namelijk voor kiezen om lage waarden meer te laten opvallen en grote, extreme waarden relatief kleiner weer te geven. bijvoorbeeld wanneer het de verdeling van de data erg asymmetrisch is.

De legenda kan bij figuratieve kaarten op twee manieren worden weergegeven (zie figuur):

geclassificeerd; er wordt op de kaart en in de legenda één symboolgrootte per klasse gebruikt
ongeclassificeerd; er wordt op de kaart voor elke locatie een symboolgrootte bepaald die proportioneel is met de meetwaarde.

Bij het de geclassificeerde legenda zijn er een beperkt aantal symboolgroottes te zien. De symboolgrootte dient proportioneel te zijn met de klassemiddens.

Nadeel: er is op de kaart géén onderscheid binnen de klassen meer te maken.
Voordeel: de kaart is visueel makkelijker te interpreteren (bijvoorbeeld: waar liggen de plaatsen met meer dan 80 restaurants). Dit leidt meestal dus tot een eenvoudiger en overzichtelijkere kaart. Nog een voordeel: er kan gebruik gemaakt worden van grenswaarden. Een voorbeeld: gemeten vervuilingswaarden van onder de 10 is nooit schadelijk, tussen 10 en 100 is alleen schadelijk in specifieke gevallen of is niet met zekerheid aangetoond. Zijn de vervuilingswaarden boven de 100 dan moet de gemeente volgens Europese richtlijnen in actie komen. Stel je je legenda op deze grenswaarden in (er komen dan slechts drie klassen) dan zegt een dergelijke kaart veel meer dan een kaart die alle individuele gemeten vervuilingswaarden ongeclassificeerd weergeeft. Door het gebruik van dergelijke grenswaarden voeg je informatie toe aan de kaart. Sterker, de informatie / kaart wordt bijna een beleidskaart: Je ziet onmiddellijk welke steden aan de slag moeten. Hiermee is je kaart / GIS een zogenaamd 'Decision Support System' geworden.

Bij de ongeclassificeerde legenda zijn er een 'oneindig' aantal symboolgroottes te verwachten. In de legenda worden meestal een aantal tussenliggende voorbeelden opgenomen, maar sowieso dienen de kleinste en de grootste symbolen te zijn opgenomen.

Er kunnen figuratieve symbolen (kerstbomen, of kruizen) gebruikt worden bij figuratieve kaarten, echter, abstracte wiskundige symbolen zoals cirkels of staven zijn bij het proportioneel weergeven van die symbolen veel beter leesbaar.

In het begin van deel B bleek het al: het voordeel van cirkels boven staafdiagrammen is dat op met cirkels een sterk uiteenlopende dataset beter gevisualiseerd kan worden; dat komt omdat een cirkel een oppervlakte heeft, en een staaf een lengte. Echter, het menselijk oog neemt de grootte van een cirkel niet zo goed waar. Dat komt omdat eerder de doorsnede ervaren wordt dan de oppervlakte. Grote waarden worden dus te laag beoordeeld, kleinere cirkels vallen daarentegen te veel op. Dit heet het Flannery-effect. Overigens, bollen gebruiken om een volume weer te geven (zoals m³ LPG in de Rotterdamse haven) is helemaal gevaarlijk. 3D figuren gebruiken voor proportioneel kan het oog (immers op scherm of papier weergegeven) helemaal slecht in schatten (een soort dubbel Flannery-effect). Grote bollen worden véél te klein ingeschat. Gebruik driedimensionale symbolen dus alleen bij zeer sterk uiteenlopende (volume)cijfers. Cirkels kan je gewoon voor aantallen, oppervlaktes en inhoud gebruiken. Een legenda is bij dergelijke proportionele kaarten dus echt een must.

SAMENVATTING: Kwantitatieve, absolute data kan je met puntsymbolen in kaart brengen. Worden ze echter genormaliseerd (relatief ten opzichte van het gebied) dan kunnen ze per gebied in beeld gebracht worden (choropleten). Ongenormaliseerd zal er sprake zijn van puntsymbolen. Bij figuratieve kaarten zijn de puntsymbolen qua grootte proportioneel met de meetwaarde / data. Een legenda kan bij figuratieve kaarten geclassificeerd en ongeclassificeerd worden weergegeven. De grootte van de symbolen / cirkels / staafdiagrammen is meestal proportioneel en rechtevenredig met de data, maar dat hoeft niet. Grote symbolen kunnen best relatief kleiner gemaakt worden om een rustiger kaartbeeld te krijgen. Bijvoorbeeld bij een sterk uiteenlopende dataset. Zo zijn ook de kleine symbolen nog goed leesbaar en onderscheidbaar. Dit moet dan wel uit de legenda afleidbaar zijn.Bij geclassificeerde data dient in de symboolgrootte proportioneel te zijn met de klassemiddens en komen slechts een beperkt aantal symboolgroottes voor. Dat zorgt voor betere onderscheidbaarheid, maar voor minder zichtbaar detail.

TIP: Gebruik je cirkels als proportionele symbolen, maak deze dan 1,4 maal zo groot als dat je op grond van het oppervlakte zou verwachten. Hiermee compenseer je het Flannery-effect. Deze overdrijvingsfactor is nodig omdat je oog de grootte van de cirkels (een oppervlakte) te laag inschat, doordat de doorsnede op het oog meer indruk maakt dan de oppervlakte.

Referenties

↑ Cartography, Visualisation of Spatial Data; M.J. Kraak en F.J. Ormeling; 2003, 2e editie; Pearson Education blz 116-121

Literatuur

Voor literatuur zie Overige informatie en links.

Ga naar de opdrachten en vragen over deze module 'Classificatie'.

Ga verder met Deel B: Symbologie.

This article is issued from Wikibooks. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Cartography, Visualisation of Spatial Data; M.J. Kraak en F.J. Ormeling; 2003, 2e editie; Pearson Education blz 116-121