Skip to content

Latest commit

 

History

History
61 lines (39 loc) · 2.86 KB

README.md

File metadata and controls

61 lines (39 loc) · 2.86 KB

Valodu tehnoloģiju pamati (DatZ1373)

LU Datorikas fakultātes Bakalaura studiju programmas kurss

Praktiskie darbi

Rīkkopas valodas resursu priekšapstrādei

  1. Teksta izgūšana: TextExtraction.ipynb
  2. Teksta priekšapstrāde: TextPreprocessing.ipynb

Galīgie automāti un pārveidotāji

  1. Morfoloģiskā analīze un sintēze: HFST.ipynb
  2. Teksta izvēršana un savēršana: Thrax.ipynb, Pynini.ipynb

Gramatiskā analīze

  1. Latviešu valodas morfoloģiskais analizators un sintezators: TezaursAPI.ipynb
  2. Rīkkopas universālo atkarību parsēšanai: ParsingUD.ipynb

Statistiskie valodas modeļi

  1. N-grammu modeļi: NGram.ipynb
  2. Word2vec apmācība un lietojums: Word2vec.ipynb
  3. Teksta klasificēšana: LangID.ipynb, NaiveBayes.ipynb

Neironu valodas modeļi

  1. Teksta klasificēšana: fastText.ipynb (1-layer, linear) → BERT.ipynb (deep, non-linear)
  2. Modeļi un demonstrācijas Hugging Face platformā:
  1. Vārdšķiru un morfoloģiskā marķēšana (Part of Speech (POS) Tagging): POS_tagging.ipynb
  2. Nosaukto entitāšu marķēšana (Named entity recognition): NER.ipynb
  1. Introduction: slides
  2. Hands-on session: notebook (draft)
  3. Initial results: corpus (vers. 0.1)

Ievads datorlingvistikā (SDSKM018)

LU HZF magistra studiju programmas kurss

  1. Teksta korpusa izveide: notebook

  2. Teksta korpusa marķēšana: notebook korpuss

Autori

prof. Inguna Skadiņa
asoc. prof. Normunds Grūzītis
asistents Viesturs Jūlijs Lasmanis

Atbalsts

Kursa izstrādi finansē Eiropas Savienības Atveseļošanas un noturības mehānisma investīcija un valsts budžets projekta “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002) ietvaros.