Naturlig språkbehandling, 7,5 hp
Natural Language Processing, 7.5 credits
Kurskod: DS6005
Akademin för informationsteknologi
Nivå: Grundnivå
Välj kursplan
Fastställd av: Forsknings- och utbildningsnämnden, 2025-11-10 och gäller studenter antagna vårterminen 2026.
Huvudområde med fördjupning
Data science, Grundnivå, har minst 60 hp kurs/er på grundnivå som förkunskapskrav. (G2F)
Behörighetskrav
Kurserna Principer och tekniker för data science 11 hp, Programmering för data science 7,5 hp, Matematik för maskininlärning 7,5 hp, Matematisk statistik 7,5 hp och Tillämpat maskinlärande 7,5 hp. Engelska 6 eller Engelska nivå 2. Undantag ges för kravet på svenska, för dig med utländska betyg.
Kursens inplacering i utbildningssystemet
Kursen ingår i programmet Tillämpad artificiell intelligens (AI).
Mål
Denna kurs syftar till att studenten utvecklar grundläggande en grundläggande förståelse för Natural Language Processing (NLP) koncept och tekniker. Efter kursen ska studenten utvecckla förståelse för viktiga NLP-principer och utmaningar, lära sig och implementera beräkningstekniker för språkbehandling, tillämpa maskininlärning och neurala modeller på NLP-uppgifter, skaffa praktisk erfarenhet av NLP-tillämpningar samt förbättra sina problemlösningsfärdigheter genom praktiska projekt.
Efter avslutad kurs ska studenten kunna:
Kunskap och förståelse
- beskriva NLP-principerna på hög nivå och dess vanliga utmaningar
- förklara olika metoder för att representera text och språklig information, såsom tokenisering, vektorisering (t.ex. ordinbäddningar) och språkmodeller
- beskriva väsentliga beräkningstekniker och algoritmer som används inom NLP
- förklara rollen av maskininlärning inom NLP, inklusive övervakade, oövervakade och djupinlärningsmetoder
Färdighet och förmåga
- förbearbeta och rensa textdata
- implementera och tillämpa språkmodeller
- tillämpa maskininlärning på NLP-uppgifter
- designa och bygga NLP-applikationer
- lösa komplexa språkbehandlingsproblem
Värderingsförmåga och förhållningssätt
- utvärdera NLP-system och förstå deras styrkor och begränsningar
- bedöma för- och nackdelar med NLP-tekniker samt deras utmaningar i olika tillämpningar
Innehåll
- Introduktion till NLP: Översikt över NLP, dess historia, nyckelutmaningar och applikationer.
- Introduktion av traditionella begrepp inom NLP, såsom regelbaserade metoder, grammatik och semantik.
- Introduktion av probabilistiska metoder (t.ex. N-gram, Naiv Bayes, Hidden Markov Model).
- Översikt över textrepresentationer och maskininlärningstekniker för NLP.
- Presentation av oövervakade metoder, såsom ämnesmodeller och sentimentanalys.
- Introduktion av neurala språkmodeller (CNN, RNN, sekvens-till-sekvens, transformatorer).
Undervisningsspråk
Undervisning
Undervisningen består av föreläsningar, datorlaborationer, seminarier och projekthandledning.
Betygsskala
Examinationsformer
Examinationen består av regelbundna handledda laborationer, seminariearbete och ett praktiskt projekt.
Slutbetyget för kursen baseras på det praktiska projektet; dock måste laborations- och seminariedelarna vara slutförda för att bli godkänd på kursen.
2501: Laborationer, 2,5 hp
Tvågradig skala (UG): Underkänd (U), Godkänd (G)
2601: Projekt, 4 hp
Fyrgradig skala, sifferbetyg (TH): Underkänd (U), Godkänd (3), Väl godkänd (4), Mycket väl godkänd (5)
2602: Seminarium, 1 hp
Tvågradig skala (UG): Underkänd (U), Godkänd (G)
Undantag från angiven examinationsform
Om särskilda skäl finns får examinator göra undantag från angiven examinationsform och medge att en student examineras på annat sätt. Särskilda skäl kan till exempel vara beslut om riktat pedagogiskt stöd.
Kursvärdering
I kursen ingår kursvärdering. Denna är vägledande för utveckling och planering av kursen. Kursvärderingen dokumenteras och redovisas för studenterna.
Kurslitteratur och övriga läromedel
Litteraturlista 2025-01-20 – Tills vidare
Beslutad av: Forsknings- och utbildningsnämnden, 2024-11-11.
Daniel Jurafsky and James Martin, Speech and Language Processing, senaste upplagan
https://web.stanford.edu/~jurafsky/slp3/