Big data processer

2025/2026

Modulets indhold, forløb og pædagogik

 

Læringsmål

Viden

  • Dataforberedelse, såsom datakvalitet, datarensning, outlier detektion, datagenerering og udvidelse, datatransformation og data wrangling
     
  • Dataintegration, såsom skema matching, skema mapping, skemaintegration, global og lokal som view, wrappers/mediatorer, avanceret ETL, ændringsdetektering og -styring og metadata og masterdatastyring.
     
  • DataOps, såsom dataflowspecifikation, test og styring, versionering, implementering, robusthed/modstandsdygtighed, dataovervågning og -kontrol, kontinuerlig integration, test og distribution og performance tuning på en distribueret infrastruktur.
     
  • Begreberne ovenfor er illustreret ved avancerede realistiske use cases, typisk baseret på åbne data.

Færdigheder

  • Skal være i stand til at integrere data fra flere datakilder fra separate udbydere i en integreret og konsistent repræsentation
     
  • Skal være i stand til at rense og forberede realistiske Big Data -sæt med relevante værktøjer, samtidig med at styre volumen, hastighed, variation og sandhed
     
  • Skal kunne anvende DataOps ved hjælp af bedste praksis om realistiske datastrømme, der kører på en distribueret infrastruktur. ntegrere data fra flere datakilder fra separate udbydere i en integreret og konsekvent repræsentation

Kompetencer

  • Skal være i stand til at vælge relevante teknikker til dataintegration, dataforberedelse og DataOps til et givet realistisk Big Data -scenario.
  • Skal være i stand til at forstå og begrunde resultatet af Big Data -processer.

Undervisningsform

Undervisningen tilrettelægges i henhold til de generelle undervisningsformer for uddannelsen, jf. § 17.

Omfang og forventet arbejdsindsats

Det forventes at den studerende bruger 30 timer per ECTS, hvilket for denne aktivitet betyder 150 timer.

Eksamen

Prøver

Prøvens navnBig data processer
Prøveform
Skriftlig eller mundtlig
ECTS5
Bedømmelsesform7-trins-skala
CensurIntern prøve
VurderingskriterierVurderingskriterierne er angivet i Universitetets eksamensordning

Yderligere informationer

Kontakt: Studienævn for datalogi via cs-sn@cs.aau.dk eller 9940 8854

 

Fakta om modulet

Engelsk titelBig Data Processes
ModulkodeDSNDVK103
ModultypeKursus
Varighed1 semester
SemesterForår
ECTS5
UndervisningssprogDansk
TompladsJa
UndervisningsstedCampus Aalborg
Modulansvarlig

Organisation

UddannelsesejerCand.scient. i datavidenskab og machine learning
StudienævnStudienævn for Datalogi
InstitutInstitut for Datalogi
FakultetDet Teknisk Fakultet for IT og Design