W dniach 24-25 czerwca 2021 r. uczestniczyliśmy w konferencji on-line “CLARIN-PL-Biz – technologie językowe dla nauki i biznesu II”. Wśród jej prelegentów znaleźli się zarówno naukowcy, jak i przedsiębiorcy, którzy skorzystali z infrastruktury CLARIN-PL. Literacka Technologie jest członkiem konsorcjum „CLARIN – wspólne zasoby językowe i infrastruktura technologiczna”.
W czwartek miała miejsce część naukowa wydarzenia, a w piątek – część dotycząca komercyjnych zastosowań infrastruktury CLARIN.
Podczas pierwszego dnia zaprezentowano m.in.:
- Korpus Czterech Wieszczów – projekt, którego celem jest stworzenie nowoczesnego zasobu zawierającego pełną twórczość wieszczów epoki romantyzmu,
- nowe narzędzia do przetwarzania tekstów, m.in. Punctuator – narzędzie do wprowadzania interpunkcji oraz nowego klasyfikatora tematycznego tekstów,
- parser zależnościowy COMBO – system wstępnego przetwarzania języka, który przeprowadza m.in. analizę morfologiczną, tagowanie, lematyzację,
- aplikację Korpusomat, która umożliwia tworzenie korpusów językowych na podstawie własnych zasobów tekstowych użytkowników.
Drugiego dnia wśród podejmowanych zagadnień znalazły się, m.in.:
- rozpoznawanie mowy i jego ocena,
- anonimizator – narzędzie do automatycznej anonimizacji tekstów,
- biznesowe zastosowania wordnetów i ontologii,
- wydobywanie informacji z tekstów oraz klasyfikacja kwalifikacji,
- Chronopress – eksploracja diachronicznych korpusów prasowych.