O Korpusie
Wprowadzenie
Niniejsza strona zawiera Narodowy Korpus Języka Polskiego (NKJP) w wersji zindeksowanej w wielowarstwowej wyszukiwarce MTAS. Oficjalna strona korpusu znajduje się pod adresem nkjp.pl. NKJP został oryginalnie zindeksowany i udostępniony równolegle w dwóch wyszukiwarkach: Poliqarp i Pelcra różniących się od siebie dostępnymi funkcjami. Ta strona jest zatem trzecią formą udostępnienia tego korpusu do przeszukiwania przez indywidualnych użytkowników, a jej cechą wyróżniającą jest utworzenie w nim dwóch dodatkowych warstw znakowania — obok istniejącej w Poliqarpie warstwy morfosyntaktycznej również warstwy zależności składniowych i warstwy jednostek nazewniczych. Za jej przygotowanie odpowiadają: Marcin Woliński, Witold Kieraś, Bartłomiej Nitoń i Zbigniew Gawłowicz.
Do oznakowania i zindeksowania NKJP użyto następujących narzędzi:
- analizator morfologiczny Morfeusz stworzony w oparciu o dane lingwistyczne Słownika gramatycznego języka polskiego,
- tager Concraft,
- Liner 2 wykorzystany do rozpoznawania nazw własnych,
- COMBO,
- wyszukiwarka korpusowa MTAS.
Wynik pracy opisano w artykule:
- Kieraś, W., Woliński, M., Nitoń, B. (2021). Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego. Język Polski, CI(2), 59–70.
Wymienione narzędzia zostały opisane w poniższych artykułach, do których odsyłamy użytkowników zainteresowanych szczegółami technicznymi:
- Kieraś, W., Woliński M. (2017) Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego. Język Polski, XCVII(1):75–83.
- Waszczuk J., Kieraś W., Woliński M. (2018) Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields. In: Sojka P., Horák A., Kopeček I., Pala K. (eds) Text, Speech, and Dialogue. TSD 2018. Lecture Notes in Computer Science, vol 11107. Springer, Cham
- Marcińczuk, M., Kocoń, J., Gawor, M. (2018) Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches In: Ogrodniczuk, Maciej; Kobyliński, Łukasz (Eds.): Proceedings of the PolEval 2018 Workshop, pp. 63-73, Institute of Computer Science, Polish Academy of Science, Warszawa.
- Rybak, P., Wróblewska, A. (2018) Semi-supervised neural system for tagging, parsing and lematization. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 45–54. Association for Computational Linguistics.
- Brouwer, M., Brugman, H., Kemps-Snijders, M. (2017) MTAS: A Solr/Lucene based multi tier annotation search solution. Selected papers from the CLARIN Annual Conference 2016. Linköping Electronic Conference Proceedings 136: 19–37.
- Kieraś, W., Kobyliński, Ł. (2021). Korpusomat – stan obecny i przyszłość projektu. Język Polski, CI(2), 49–58.