Blokcode

Binnen de coderingstheorie neemt de blokcode een grote en belangrijke plaats in binnen de foutcorrigerende codes. Er zijn dan ook veel soorten blokcodes. De blokcode heeft als belangrijkste kenmerk dat ze de te versturen data opdeelt in blokken van een vaste lengte, waarna elk blok gecodeerd wordt. Blokcodes hebben een heleboel praktische toepassingen.

De blokcode als abstract concept onderzoeken (in tegenstelling tot elke concrete code afzonderlijk onderzoeken) is nuttig omdat het gelegenheid biedt de eigenschappen van alle blokcodes gezamenlijk te bestuderen. Er zijn grenzen aan de parameters van blokcodes, die gelden voor alle blokcodes. Bij zo'n grens moet men denken aan het maximale aantal fouten dat gedetecteerd of hersteld kan worden.

Enkele voorbeelden van concrete blokcodes zijn Reed-Solomoncodes, Hammingcodes en Reed-Mullercodes. Deze codes zijn bovendien allemaal ook lineair. Ze worden dan ook lineaire blokcodes genoemd.

De term blokcode wordt ook soms gebruikt voor elke foutcorrigerende code, met de eigenschap dat een blok van $k$ bits invoerdata $n$ bits uitvoerdata genereert. Met deze definitie zijn bijvoorbeeld Turbocodes ook te rekenen tot de blokcodes. Dit artikel behandelt de "algebraïsche blokcodes", dat wil zeggen blokcodes waarbij elk blok data onafhankelijk van elkaar gecodeerd wordt (wat niet het geval is bij Turbocodes).

Werking

Bij gegevenstransmissie over een communicatiekanaal wilt de zender een datastroom zonder fouten versturen naar de ontvanger. Elk communicatiekanaal heeft echter last van onvolmaaktheden (door bijvoorbeeld ruis), waardoor de transmissie niet foutloos verloopt. Bij een blokcode wordt de datastroom opgesplitst in informatieblokken of boodschappen (Eng. message) van lengte $k$ . Elke boodschap wordt vervolgens onafhankelijk omgezet (gecodeerd) naar een codewoord, een blok van lengte $n$ . Bij deze omzetting wordt extra informatie toegevoegd aan elk informatieblok; door de toegevoegde informatie zo te kiezen kan men fouten detecteren of corrigeren. Een eenvoudig voorbeeld is het toevoegen van pariteitsbits aan elk blok.

Bij de ontvanger gebeurt het omgekeerde: de ontvangen codewoorden (die mogelijk corrupt zijn) worden zo goed mogelijk gedecodeerd, teneinde de originele data terug te vinden.

Formele beschrijving en parameters

Een blokcode is wiskundig gezien een injectie:

C:\Sigma ^{k}\to \Sigma ^{n}.

Hierbij is $\Sigma$ een eindige, niet-lege verzameling en zijn $k$ en $n$ gehele getallen. Hieronder worden de parameters in detail uitgelegd.

Het alfabet Σ

De datastroom die codering moet ondergaan wordt gemodelleerd als een tekenreeks van tekens uit een alfabet $\Sigma$ . De grootte van het alfabet $|\Sigma |$ wordt vaak genoteerd als $q$ . Als $q=2$ , dan spreekt men van een binaire blokcode. In veel toepassingen is het wenselijk dat $q$ een macht van een priemgetal is, waardoor $\Sigma$ kan beschouwd worden als het eindige veld / lichaam $\mathbb {F} _{q}$ .

De boodschaplengte k

Elke boodschap $m$ is een element van $\Sigma ^{k}$ , dat wil zeggen een tekenreeks bestaande uit symbolen uit $\Sigma$ van lengte $k$ . De $k$ wordt dan ook de informatielengte, boodschaplengte of dimensie van de blokcode genoemd.

De bloklengte n

De bloklengte $n$ is het aantal symbolen in een codewoord. De elementen $c$ van $\Sigma ^{n}$ zijn dus tekenreeksen van lengte $n$ en komen overeen met een blok dat ontvangen kan worden door de ontvanger. Derhalve worden ze ook wel ontvangen woorden genoemd. Het resultaat van de codering van een boodschap $m$ is het codewoord $c$ van die boodschap. Meer wiskundig: $c=C(m)$ .

Het datadebiet R

Het datadebiet (Eng. rate) van een blokcode wordt gedefinieerd als de verhouding tussen de boodschaplengte en de bloklengte: $R=k/n$ .

Een hoog debiet betekent dat een groot deel van het codewoord bestaat uit de boodschap. In deze zin meet het debiet de transmissiesnelheid, en geeft $1-R$ de overhead aan die optreedt doordat de resulterende codewoorden langer zijn dan de boodschap. Uit de informatietheorie volgt dat het debiet nooit groter kan zijn dan $1$ , aangezien data in het algemene geval niet verliesloos gecomprimeerd kan worden. Dit volgt ook uit het feit dat $C$ een injectie is.

De afstand d en het gewicht w

De (minimum)afstand $d$ van een blokcode is het minimaal aantal posities die verschillend zijn tussen elke twee codewoorden, en de relatieve afstand $\delta$ is de breuk $d/n$ . Stel $\Delta (c_{1},c_{2})$ de Hammingafstand tussen de twee codewoorden $c_{1},c_{2}\in \Sigma ^{n}$ . De minimumafstand $d$ van de code $C$ wordt dan gegeven door:

d:=\min _{m_{1},m_{2}\in \Sigma ^{k} \atop m_{1}\neq m_{2}}\Delta [C(m_{1}),C(m_{2})]

Omdat elke code injectief moet zijn, zal elk codewoord minstens in één positie verschillen van alle andere codewoorden, dus $d\geq 1$ . Het gewicht $w$ van een codewoord is het aantal posities die geen nul zijn. Het minimumgewicht $w_{\min }$ is het kleinste gewicht van alle codewoorden, of nog het gewicht van het codewoord met het minst aantal nullen. Voor lineaire blokcodes geldt dat de minimumafstand gelijk is aan het minimumgewicht:

\min _{m_{1},m_{2}\in \Sigma ^{k} \atop m_{1}\neq m_{2}}\Delta [C(m_{1}),C(m_{2})]=\min _{m_{1},m_{2}\in \Sigma ^{k} \atop m_{1}\neq m_{2}}\Delta [\mathbf {0} ,C(m_{1})+C(m_{2})]=\min _{m\in \Sigma ^{k} \atop m\neq \mathbf {0} }w[C(m)]=w_{\min }

Een grotere afstand laat meer foutdetectie en -correctie toe. Beschouw bijvoorbeeld enkel fouten die symbolen van de codewoorden wijzigen, maar er nooit wissen of toevoegen (de codewoorden blijven dus altijd even lang). Dan is het aantal fouten gelijk aan het aantal posities waarin het verzonden en het ontvangen codewoord verschillen. Een code met afstand $d$ staat toe om $d-1$ fouten te detecteren, aangezien $d-1$ posities wijzigen nooit leidt tot een ander codewoord. Als er bovendien niet meer dan $(d-1)/2$ fouten optreden tijdens transmissie, kan de ontvanger het codewoord uniek decoderen. Dit omdat voor elk ontvangen woord er op afstand $(d-1)/2$ hoogstens één codewoord is. Als er meer fouten optreden, kan de ontvanger het ontvangen woord niet uniek decoderen, aangezien er dan meerdere codewoorden kunnen overeenkomen.

Notatie

De notatie $(n,k,d)_{q}$ beschrijft een blokcode over een alfabet $\Sigma$ van grootte $q$ , met een bloklengte $n$ , boodschaplengte $m$ en afstand $d$ . Als de blokcode lineair is, kunnen blokhaken gebruikt worden om dit aan te geven: $[n,k,d]_{q}$ . Zowel de $q$ als de $d$ worden nogal eens weggelaten: de $q$ indien het gaat om een binaire code (dus $q=2$ ) en de $d$ als de afstand niet belangrijk, niet gekend of moeilijk te bepalen is.

Voorbeelden

De meeste foutcorrigerende codes zijn blokcodes.

De eerste foutcorrigerende code was de (7,4)-Hammingcode, ontwikkeld door Richard Hamming in 1950. Deze code transformeert een informatieblok van 4 bits in een codewoord van 7 bits door 3 pariteitsbits toe te voegen. Dit is ook een lineaire code, met afstand 3. In de notatie van hierboven zouden we de (7,4)-Hammingcode dus noteren als een $[7,4,3]_{2}$ -code.

Reed-Solomoncodes zijn een reeks $[n,k,d]_{q}$ -codes, waarbij $d=n-k+1$ en $q$ een priemmacht is.
Rankcodes zijn een reeks $[n,k,d]_{q}$ -codes met $d\leq n-k+1$ .
Hadamardcodes zijn een reeks $[n,k,d]_{2}$ -codes, met $n=2^{k-1}$ en $d=2^{k-2}$ .

Foutdetectie en -correctie

Een codewoord $c\in \Sigma ^{n}$ kan beschouwd worden als een punt in een $n$ -dimensionale ruimte $\Sigma ^{n}$ , waarbij de code $C$ een deelverzameling van $\Sigma ^{n}$ is. Een code $C$ met afstand $d$ betekent dat $\forall c\in C$ geldt dat de Hammingbal gecentreerd op het punt $c$ met straal $d-1$ leeg is. De Hammingbal betekent hier de verzameling van $n$ -dimensionale woorden wier Hammingafstand tot $c$ maximaal $d-1$ is. Gelijkaardig heeft een code $C$ met afstand $d$ volgende eigenschappen:

$C$ kan $d-1$ fouten detecteren. Omdat een codewoord $c$ het enige codewoord is in de Hammingbal gecentreerd op zichzelf met straal $d-1$ is, kan een foutpatroon met $d-1$ fouten of minder nooit een codewoord omzetten in een ander codewoord. Als de ontvanger een ontvangen woord krijgt dat niet overeenkomt met een codewoord van $C$ , worden de fouten gedetecteerd (maar er zijn geen garanties over correctie van fouten, m.a.w. de ontvanger weet dat het ontvangen woord fout is, maar weet niet wat het verstuurde codewoord is).
$C$ kan $\textstyle \left\lfloor {{d-1} \over 2}\right\rfloor$ fouten corrigeren. Omdat een codewoord $c$ het enige codewoord is in de Hammingbal gecentreerd op zichzelf met straal $d-1$ is, kunnen de Hammingballen gecentreerd op twee andere codewoorden met straal $\textstyle \left\lfloor {{d-1} \over 2}\right\rfloor$ nooit overlappen met elkaar. Een fout kan dan gecorrigeerd worden door het dichtstbijzijnde codewoord voor het ontvangen woord $y$ te zoeken, zolang het aantal fouten minder dan $\textstyle \left\lfloor {{d-1} \over 2}\right\rfloor$ is: er is dan maar één codewoord in de Hammingbal gecentreerd op $y$ met straal $\textstyle \left\lfloor {{d-1} \over 2}\right\rfloor$ .
Om te decoderen bij meer dan $(d-1)/2$ fouten, kan met gebruik maken van list decoding of maximum likelihood decoding.
$C$ kan $d-1$ ontbrekende symbolen corrigeren. Hierbij moet opgemerkt worden dat de positie van het verdwenen symbool gekend dient te zijn.

Bibliografie

(en) van Lint, Jack H., Introduction to Coding Theory, 3e editie. Springer-Verlag. DOI:10.1007/978-3-642-58575-3 (1999), p. 33. ISBN 978-3-540-64133-9.
(en) MacWilliams, Florence J.; Sloane, Neil J. A., The Theory of Error-Correcting Codes. North Holland (1893), p. 35. ISBN 9780444851932.
(en) Berrou, Claude, Codes and Turbo Codes. Springer-Verlag. DOI:10.1007/978-2-8178-0039-4 (2010), “Block codes”, pp. 109-166. ISBN 9782817800387.

Bronnen, noten en/of referenties

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Block code op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.