Morfologické značkování složených slovesných tvarů v korpusu

Title: Morfologické značkování složených slovesných tvarů v korpusu
Variant title:
  • Morphological tagging of tne compound forms in corpus
Source document: Sborník prací Filozofické fakulty brněnské univerzity. A, Řada jazykovědná. 1999, vol. 48, iss. A47, pp. [33]-50
Extent
[33]-50
  • ISSN
    0231-7567
Type: Article
Language
Summary language
License: Not specified license
 

Notice: These citations are automatically created and might not follow citation rules properly.

Abstract(s)
V našem článku se budeme zabývat dvěma okruhy problémů. V první části se dotkneme otázek souvisejících s obtížemi, jež přináší formalizace pravidel postavení jednotlivých komponent českých složených slovesných tvarů. Pokusíme se formulovat pravidla pro automatickou analýzu složených slovesných tvarů v české větě. Ve druhé části ukážeme na základě analýzy materiálu subkorpusu ČNK. ČNK - Český národní korpus se buduje od roku 1993 za podpory GAČR. Od roku 1996 je práce na něm koncentrována na samostatném pracovišti ÚČNK na FF UK v Praze. V současné době zahrnuje cca 100 000 000 slovních tvarů. DESAM je anotovaným subkorpusem ČNK a zahrnuje cca 1 milion označkovaných slovních tvarů. DESAM sleduje, jak se jednotlivé slovosledné typy uplatňují v textech. Na závěr srovnáme frekvenční zastoupení jednotlivých tvarů a jejich variant a ukážeme, jaký mají tato fakta význam pro automatické morfologické značkování složených slovesných tvarů.