Splinternuut: 'n Klyntji-korpus, gratis vir navorsers

Splinternuut: 'n Klyntji-korpus, gratis vir navorsers

Spoegplak van verskeie Ons Klyntji-zines oor die jare

Dié projek wys hoe lewendig en veelsydig Afrikaans in die 2020's is

Navorsers van die Sentrum vir Tekstegnologie (CTexT) verbonde aan die Noordwes-Universiteit (NWU) het oor die afgelope paar maande gewerskaf aan die saamstel van ’n Klyntji-korpus. Net minder as vyf miljoen woorde is ingevoer en die finale korpus bestaan uit sowat 700 000 woorde afkomstig van Klyntji.com van die laaste 10 jaar. (Inhoud uit Ons Klyntji-zines sal in ’n volgende fase van die projek ingesluit word.) Die korpus is pas vrygestel en is vrylik toeganklik vir navorsers om na hartelus te gebruik.

CTexT is ’n navorsing- en ontwikkelingsentrum op die NWU se Potchefstroomkampus. CTexT doen navorsing in taaltegnologie en ontwikkel taaltegnologieprodukte vir die Suid-Afrikaanse tale. (Die CTexT-span was ook destyds betrokke by die bou van ons woordspeletjie, Watse.)

Die Klyntji-korpus kan hier gevind word. (Kliek aan die bokant van die blad op “Corpus Info” en scroll dan af na “NWU/Klyntji Corpus 1.0”. As jy in die korpus wil soek, kliek op “COCO@NWU Regular” aan die bokant van die blad en dan op “Advanced”. Hier kan jy enige woord in die teksveld intik en filter om die soektog tot die Klyntji-korpus te beperk.)

Gerhard van Huyssteen, professor in Afrikaanse taalkunde en taaltegnologie aan die NWU wat ook by CTexT betrokke is, deel meer oor die proses en bevindinge. In Gerhard se woorde: “Dit is vir ons nerds baie exciting; vir ander mense BAIE boring!”


KLYNTJI: Gerhard, kan jy meer vertel oor die proses wat dit behels om ’n korpus saam te stel?

GERHARD: ’n Korpus is basies ’n groot versameling tekste wat dien as ’n soort “vingerafdruk” van hoe mense ’n taal gebruik – in hierdie geval, hoe mense Afrikaans en sy variëteite gebruik. Dis ’n bietjie soos om ’n groot fotoboek van taal te bou: Elke teks is ’n foto van taal in aksie, en saam wys dit vir ons patrone, variasie en verandering.

By die Noordwes-Universiteit werk ’n span rekenaarlinguiste en programmeerders saam aan hierdie proses. Eerstens word die rou data (in hierdie geval, Klyntji-artikels) afgelaai deur ’n sogenaamde “webcrawler” – ’n program wat die webwerf deurgaan en al die artikels in hul oorspronklike HTML-formaat aflaai. Daarna word die skoonmaakwerk gedoen: Ons verwyder duplikate, navigasiemenu’s of enige ander ruis wat nie deel van die eintlike teks is nie.

Sodra die tekste netjies en bruikbaar is, voeg ons metadata by – dinge soos die titel, outeur, publikasiedatum en die URL. Hierdie inligting maak dit later makliker vir navorsers om te filter en te soek. Dan volg kwaliteitbeheer: ’n Linguis kyk alles deur om seker te maak die data is korrek, volledig en behoorlik verwerk.

Laastens word die korpus op die COCO@NWU-platform (Corpus Collective at North-West University) beskikbaar gestel, waar enigeen dit kan deursoek of gebruik vir navorsing. Dis dus ’n spanpoging waar taal, tegnologie en aandag aan detail saamwerk om ’n stukkie van die Afrikaanse taallandskap vas te vang.

KLYNTJI: Kan jy meer vertel oor die parameters wat julle gestel het vir die Klyntji-korpus? En hoe en waarom?

GERHARD: Elke korpus het sekere “reëls” of parameters wat bepaal watter data ingesluit word en hoe dit verwerk word. Vir die Klyntji-korpus was die groot uitdaging dat die data eers van die webwerf af ge-“crawl” moes word. Anders as met koerantdata of PDF’s, is webinhoud nie altyd netjies gestruktureer nie – dis vol kode, skakels en formatering.

Ons het dus eers die webstruktuur van Klyntji fyn ontleed. Gelukkig is die webwerf baie konsekwent opgebou: Elke artikel het ’n duidelike afdeling vir titel, outeur, datum en inhoud. Ons het toe besluit om slegs die hoofteks van artikels te onttrek. Met ’n selfgemaakte programmetjie wat weet watter dele om te vat en watter nie, kon ons seker maak dat slegs die werklike artikels in die korpus beland.

Verder het ons besluit om artikels van 2014 tot 2025 in te sluit, sodat die korpus ’n dekade van Klyntji-taalgebruik dek. Dit gee navorsers ’n geleentheid om te sien hoe die taal en styl oor tyd verander het – byvoorbeeld, hoe nuwe woorde of temas saam met sosiale en kulturele veranderinge verskyn.

Ons het ook seker gemaak dat elke teks aan ’n spesifieke datum en afdeling (soos “Kuns”, “Musiek”, of “Leefstyl”) gekoppel is. Só kan iemand later byvoorbeeld kyk hoe kunstenaars oor tyd oor identiteit of politiek skryf, en hoe daardie taal ontwikkel het.

KLYNTJI: Enige interessante bevindinge?

GERHARD: Die Klyntji-korpus is nog splinternuut, so die diepgaande ontledings lê nog voor. Maar selfs in die vroeë stadiums is daar reeds fassinerende patrone wat mens kan raaksien. Een van die eerste dinge wat uitstaan, is die groot verskeidenheid stemme en style. Dis iets wat jy nie sommer in ander korpora (soos nuusberigte of amptelike dokumente) kry nie.

Byvoorbeeld, jy sal dalk woorde soos storie, vibe, lekker, mos en cool dikwels saam sien voorkom – ’n mengsel van informele registers en kulturele klanke. Die korpus bied dus ’n unieke kykie in hedendaagse Afrikaanse uitdrukkings wat in populêre kultuur leef, maar selde in akademiese tekste voorkom.

Nog iets wat interessant is, is hoe Klyntji-skrywers oor tyd temas soos identiteit, politiek, kuns en taal self bespreek. Navorsers sal kan sien hoe mense oor “Afrikaansheid” of “variëteite” praat, en hoe dit dalk van 2014 tot nou verander het.

En natuurlik kan enige gebruiker self gaan speel: Op die COCO-platform kan jy byvoorbeeld soek na die woord taal, Afrikaans, of ons en sien hoe dit gebruik word in Klyntji teenoor ander korpora. Dis soos ’n venster op hoe mense in die kreatiewe wêreld van Afrikaans dink en praat.

KLYNTJI: Enige uitdagings wat julle ervaar het?

GERHARD: Elke nuwe korpus bring sy eie hoofbrekens. Met Klyntji was die grootste uitdaging om die data skoon en konsekwent te kry. HTML (die taal waarin webblaaie geskryf is) lyk op die oog af mooi, maar vir ’n rekenaar is dit vol ruis – etikette, skakels, menu’s, selfs onsigbare elemente wat niks met die teks te doen het nie.

Ons moes dus sorg dat die ontledingsprogram presies weet watter deel van elke bladsy die eintlike artikel is. ’n Klein fout in die kode, en jy onttrek dalk die hele bladsy se navigasiemenu saam met die artikel! Verder het die webwerf effens verander oor die jare – ’n artikel uit 2015 het soms ’n ietwat ander uitleg as een uit 2023 – so ons moes verskillende strukture herken en hanteer.

Nog ’n uitdaging was die verskeidenheid van taalvorme. Engelse inskrywings en Kaaps-Afrikaans kom dikwels voor — vir ’n korpustaalkundige is dit goud werd, maar vir ’n rekenaar wat probeer bepaal “watter taal is dit?”, kan dit verwarrend wees. Ons moes dus sorg dat niks waardevols per ongeluk uitgegooi word nie.

Uiteindelik het die harde werk geloon: Die finale korpus is skoon, volledig en verteenwoordigend – juis danksy al die fynspeelwerk agter die skerms.

KLYNTJI: Enige kommentaar oor die belang van hierdie projek – waarom ’n Klyntji-korpus, en watter navorsingsmoontlikhede skep dit?

GERHARD: Klyntji is ’n unieke platform in die Afrikaanse mediawêreld – dit vang die stemme van jong, kreatiewe en kritiese mense vas, dikwels in taalvorme wat buite sogenaamde Standaardafrikaans val. ’n Korpus van Klyntji gee vir navorsers dus toegang tot ’n dimensie van Afrikaans wat selde sistematies bestudeer word.

By die NWU se COCO@NWU-projek probeer ons juis om die volle spektrum van Afrikaans vas te vang: van amptelike dokumente en nuus, tot die taal van musiek, kuns en kultuur. Klyntji vul ’n belangrike gaping – dit bring die taal van jong kunstenaars, aktiviste en kultuurliefhebbers saam om die tafel.

Met hierdie korpus kan navorsers byvoorbeeld ondersoek hoe Afrikaanse kreatiewe skrywers oor identiteit, gender of politiek praat; hoe Engelse woorde geïntegreer word; of hoe sekere uitdrukkings oor tyd verander. Dit kan selfs gebruik word vir masjienleer – om rekenaars beter te leer verstaan hoe Afrikaans “buite die handboek” klink.

Kortom: Die Klyntji-korpus help ons nie net om Afrikaans beter te verstaan nie, maar ook om te sien hoe lewendig en veelsydig die taal in die 2020’s werklik is.

Klyntji is ’n unieke platform in die Afrikaanse mediawêreld – dit vang die stemme van jong, kreatiewe en kritiese mense vas, dikwels in taalvorme wat buite sogenaamde Standaardafrikaans val. ’n Korpus van Klyntji gee vir navorsers dus toegang tot ’n dimensie van Afrikaans wat selde sistematies bestudeer word.
— Gerhard van Huyssteen
Deel hierdie storie


Eerste en oudste Afrikaanse tydskrif, sedert 1896

Ons bou aan ’n moderne beeld van hoe Afrikaanswees lyk, lees en klink. Het jy van Splinternuut: 'n Klyntji-korpus, gratis vir navorsers gehou? Dan ondersteun ons. Vriende van Klyntji word op hierdie bladsy gelys.


 Eenmalig R
 Maandeliks R

Klyntji verklaar 'n klimaat en ekologiese noodtoestand