Reguliere taal

De reguliere talen vormen een klasse van formele talen. Reguliere talen hebben een relatief eenvoudige structuur, waardoor ze zeer geschikt zijn om door computerprogramma's verwerkt te worden. Daarom hebben ze vele toepassingen in de informatica, onder andere in tekstbewerkingsprogramma's (reguliere expressies), in de compilerbouw (in het bijzonder bij de lexicale analyse) en bij modelverificatie.

Definitie

Een alfabet Σ {\displaystyle \Sigma } is een verzameling van letters. De verzameling van reguliere talen over het alfabet Σ {\displaystyle \Sigma } is recursief gedefinieerd:

  • De lege taal {\displaystyle \varnothing } is een reguliere taal.
  • De taal die slechts uit de lege string bestaat, { ϵ } {\displaystyle \{\epsilon \}} , is een reguliere taal.
  • Voor alle a Σ {\displaystyle a\in \Sigma } is de singletontaal { a } {\displaystyle \{a\}} een reguliere taal.
  • Als A {\displaystyle A} en B {\displaystyle B} reguliere talen zijn, dan zijn ook A B {\displaystyle A\cup B} (vereniging), A B {\displaystyle A\circ B} (concatenatie) en A {\displaystyle A*} (Kleene-ster) reguliere talen.
  • Geen andere talen over Σ {\displaystyle \Sigma } zijn regulier.

Alternatief kan een reguliere taal ook gedefinieerd worden als een formele taal die een van de volgende equivalente eigenschappen vervult:

  • ze wordt geaccepteerd door een deterministische eindige automaat;
  • ze wordt geaccepteerd door een non-deterministische eindige automaat;
  • ze wordt geaccepteerd door een alternerende eindige automaat;
  • ze wordt beschreven door een reguliere expressie;
  • ze wordt gegenereerd door een reguliere grammatica;
  • ze wordt gegenereerd door een prefixgrammatica;
  • ze wordt geaccepteerd door een read-only-turingmachine;
  • ze wordt gedefinieerd in monadische logica van de tweede orde.

Alle eindige talen zijn regulier. Andere voorbeelden zijn de taal die bestaat uit alle strings over het alfabet { a , b } {\displaystyle \{a,b\}} met een even aantal a {\displaystyle a} 's, of de taal van de vorm: een aantal a {\displaystyle a} 's gevolgd door een aantal b {\displaystyle b} 's.

Afsluiteigenschappen

De reguliere talen zijn gesloten onder de volgende bewerkingen, dit betekent: als K {\displaystyle K} en L {\displaystyle L} reguliere talen zijn, dan zijn de volgende talen ook regulier:

  • de booleaanse operaties: de vereniging K L {\displaystyle K\cup L} , doorsnede K L {\displaystyle K\cap L} , en het complement K ¯ {\displaystyle {\bar {K}}} van K {\displaystyle K} , en daardoor ook het verschil K L {\displaystyle K-L} ,
  • de reguliere operaties: concatenatie K L {\displaystyle K\circ L} en Kleene-ster K {\displaystyle K^{*}} van K {\displaystyle K} en L {\displaystyle L} ,
  • het beeld ϕ ( L ) {\displaystyle \phi (L)} van L {\displaystyle L} onder een homomorfisme,
  • het omgekeerde (of spiegelbeeld) L R {\displaystyle L^{R}} van L {\displaystyle L} ,
  • H A L F ( L ) {\displaystyle \mathrm {HALF} (L)} , de verzameling van strings die bestaan uit de eerste helft van de strings in L {\displaystyle L} .

Beslisbare eigenschappen

Een van de redenen dat reguliere talen vaak gebruikt worden, is dat veel beslissingsproblemen met betrekking tot reguliere talen beslisbaar zijn. Ten eerste is het beslisbaar of een willekeurig woord tot de taal behoort.

Of een reguliere taal L {\displaystyle L} leeg is ( L = {\displaystyle L=\varnothing } ) kan bepaald worden door vast te stellen of er in de DFA van de taal minstens een pad van een begin- naar een eindtoestand is; als dat niet het geval is, is de taal leeg. Dit kan met een padzoekalgoritme worden bepaald. Aangezien de reguliere talen afgesloten zijn onder booleanse operaties (zie boven), volgt hier ook uit dat de volgende beslissingsproblemen beslisbaar zijn:

  • Deelverzameling: gegeven reguliere talen L 1 {\displaystyle L_{1}} en L 2 {\displaystyle L_{2}} , beslis of L 1 L 2 {\displaystyle L_{1}\subseteq L_{2}} (dit geldt als L 1 L 2 {\displaystyle L_{1}-L_{2}} leeg is)
  • Equivalentie: gegeven reguliere talen L 1 {\displaystyle L_{1}} en L 2 {\displaystyle L_{2}} , beslis of L 1 = L 2 {\displaystyle L_{1}=L_{2}} (dit geldt als L 1 L 2 {\displaystyle L_{1}\subseteq L_{2}} en L 2 L 1 {\displaystyle L_{2}\subseteq L_{1}} )
  • Universaliteit: gegeven een reguliere taal L {\displaystyle L} , beslis of L = Σ {\displaystyle L=\Sigma ^{*}} (dit geldt als het complement van L {\displaystyle L} leeg is)

Beslissen of een taal regulier is

In de Chomskyhiërarchie kan men zien dat elke reguliere taal contextvrij is. Het omgekeerde is echter niet het geval: bijvoorbeeld de taal die bestaat uit alle strings met hetzelfde aantal a {\displaystyle a} 's en b {\displaystyle b} 's is contextvrij, maar niet regulier. Om te bewijzen dat een taal niet regulier is gebruikt men de stelling van Myhill-Nerode of de pompstelling.

Referenties

  • (en) John E. Hopcroft, Rajeev Motwani, Jeffrey D. Ullman (2007). Introduction to Automata Theory, Languages and Computation, Third Edition. Addison-Wesley.
  • (en) Michael Sipser (1997). Introduction to the Theory of Computation. PWS Publishing. ISBN 0-534-94728-X. Chapter 1: Regular Languages