Contextvrije grammatica

Een contextvrije grammatica is een formele grammatica waarbij alle productieregels de volgende vorm hebben:

V w {\displaystyle V\rightarrow w}

waarbij V een niet-terminaal symbool is en w een string, die mogelijk leeg is, met terminale en niet-terminale symbolen. Dit soort formele grammatica's worden contextvrij genoemd omdat de manieren waarop een niet-terminaal symbool kan worden herschreven onafhankelijk zijn van de context waarin het zich bevindt. Contextvrije grammatica's genereren contextvrije talen.

Contextvrije grammatica's worden veel gebruikt bij het beschrijven en ontwerpen van programmeertalen en compilers, waarbij vaak de notatietechnieken Backus-Naur form of EBNF worden gebruikt. Ze worden ook gebruikt voor het analyseren van de zinsbouw (syntaxis) van natuurlijke talen.[1]

Formele definitie

Een contextvrije grammatica G is een vier-tupel ( V , Σ , R , S ) {\displaystyle (V,\Sigma ,R,S\,)} met de eigenschappen

  • V {\displaystyle V} is een eindige verzameling variabelen
  • Σ {\displaystyle \Sigma } is het alfabet van de taal, een eindige verzameling symbolen
  • V Σ = {\displaystyle V\cap \Sigma =\emptyset } , d.w.z. dat hetzelfde symbool niet zowel in V {\displaystyle V} als Σ {\displaystyle \Sigma } mag liggen
  • S V {\displaystyle S\in V}
  • R {\displaystyle R} is een eindige deelverzameling van V × ( V Σ ) {\displaystyle V\times (V\cup \Sigma )^{*}}

Daarin is ( V Σ ) {\displaystyle (V\cup \Sigma )^{*}} de Kleene-ster van V Σ , {\displaystyle V\cup \Sigma ,} dat wil zeggen, de eindige rijtjes die uit elementen van V Σ {\displaystyle V\cup \Sigma } bestaan.

De elementen van V {\displaystyle V} worden de niet-terminale symbolen of variabelen genoemd. Dit zijn de hulpsymbolen die gebruikt worden bij het genereren van een zin. De elementen van Σ {\displaystyle \Sigma } worden de terminale symbolen genoemd, het zijn de symbolen die voorkomen in een zin van de taal. Er geldt dat V Σ = . {\displaystyle V\cap \Sigma =\emptyset .} Het symbool S {\displaystyle S} heet het startsymbool. De elementen van R {\displaystyle R} worden productieregels genoemd en meestal geschreven in de vorm A w {\displaystyle A\to w} , waarbij A V {\displaystyle A\in V} en w ( V Σ ) {\displaystyle w\in (V\cup \Sigma )^{*}} . De grammatica G {\displaystyle G} produceert via de productieregels uit R {\displaystyle R} de formele taal L ( G ) {\displaystyle L(G)} van woorden bestaande uit de letters, symbolen uit het alfabet Σ {\displaystyle \Sigma } .

Volgens de definitie geldt voor een productieregel A w {\displaystyle A\to w} , dat A {\displaystyle A} een niet-terminaal symbool is, dus niet omgeven door andere symbolen. Toepassing van de regel, waardoor A {\displaystyle A} door w {\displaystyle w} wordt vervangen, is dus onafhankelijk van de context.

Voorbeeld

Een eenvoudige contextvrije grammatica met twee productieregels is ( { S } , { a , b } , R , S ) , {\displaystyle (\{S\},\{a,b\},R,S),} met als productieregels R {\displaystyle R} :

S a S b {\displaystyle S\to aSb}
S a b {\displaystyle S\to ab}

Het enige niet-terminale symbool is S {\displaystyle S} , dit is hierdoor ook het startsymbool, en de terminale symbolen zijn a {\displaystyle a} en b {\displaystyle b} . Via de afleiding

S a S b a a S b b a a a b b b {\displaystyle S\to aSb\to aaSbb\to aaabbb}

kan bijvoorbeeld het woord a a a b b b {\displaystyle aaabbb} uit deze grammatica worden afgeleid. In het algemeen genereert de grammatica de niet-reguliere taal { a n b n : n 1 } {\displaystyle \{a^{n}b^{n}:n\geq 1\}} , dat wil zeggen alle tekenreeksen die uit een of meer a {\displaystyle a} 's gevolgd door precies evenveel b {\displaystyle b} 's bestaan.

Bronnen, noten en/of referenties
  1. De generalized phrase structure grammar is een taalkundig model om zowel de syntaxis als de semantiek van natuurlijke talen te beschrijven. Een van de principes van het model is dat de syntaxis van een natuurlijke taal in vereenvoudigde vorm aan de hand van een contextvrije grammatica kan worden beschreven.