NKJP - O korpusie

O Korpusie

Wprowadzenie

Niniejsza strona zawiera Narodowy Korpus Języka Polskiego (NKJP) w wersji zindeksowanej w wielowarstwowej wyszukiwarce MTAS. Oficjalna strona korpusu znajduje się pod adresem nkjp.pl. NKJP został oryginalnie zindeksowany i udostępniony równolegle w dwóch wyszukiwarkach: Poliqarp i Pelcra różniących się od siebie dostępnymi funkcjami. Ta strona jest zatem trzecią formą udostępnienia tego korpusu do przeszukiwania przez indywidualnych użytkowników, a jej cechą wyróżniającą jest utworzenie w nim dwóch dodatkowych warstw znakowania — obok istniejącej w Poliqarpie warstwy morfosyntaktycznej również warstwy zależności składniowych i warstwy jednostek nazewniczych. Za jej przygotowanie odpowiadają: Marcin Woliński, Witold Kieraś, Bartłomiej Nitoń i Zbigniew Gawłowicz.

Do oznakowania i zindeksowania NKJP użyto następujących narzędzi:

analizator morfologiczny Morfeusz stworzony w oparciu o dane lingwistyczne Słownika gramatycznego języka polskiego,
tager Concraft,
Liner 2 wykorzystany do rozpoznawania nazw własnych,
COMBO,
wyszukiwarka korpusowa MTAS.

Wynik pracy opisano w artykule:

Kieraś, W., Woliński, M., Nitoń, B. (2021). Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego. Język Polski, CI(2), 59–70.

Wymienione narzędzia zostały opisane w poniższych artykułach, do których odsyłamy użytkowników zainteresowanych szczegółami technicznymi:

Kieraś, W., Woliński M. (2017) Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego. Język Polski, XCVII(1):75–83.
Waszczuk J., Kieraś W., Woliński M. (2018) Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields. In: Sojka P., Horák A., Kopeček I., Pala K. (eds) Text, Speech, and Dialogue. TSD 2018. Lecture Notes in Computer Science, vol 11107. Springer, Cham
Marcińczuk, M., Kocoń, J., Gawor, M. (2018) Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches In: Ogrodniczuk, Maciej; Kobyliński, Łukasz (Eds.): Proceedings of the PolEval 2018 Workshop, pp. 63-73, Institute of Computer Science, Polish Academy of Science, Warszawa.
Rybak, P., Wróblewska, A. (2018) Semi-supervised neural system for tagging, parsing and lematization. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 45–54. Association for Computational Linguistics.
Brouwer, M., Brugman, H., Kemps-Snijders, M. (2017) MTAS: A Solr/Lucene based multi tier annotation search solution. Selected papers from the CLARIN Annual Conference 2016. Linköping Electronic Conference Proceedings 136: 19–37.
Kieraś, W., Kobyliński, Ł. (2021). Korpusomat – stan obecny i przyszłość projektu. Język Polski, CI(2), 49–58.