CLARIN – Literacka Sp. z o.o.

Literacka Technologie jest partnerem biznesowym projektu „CLARIN – wspólne zasoby językowe i infrastruktura technologiczna”. Liderem projektu jest Politechnika Wrocławska. CLARIN współfinansowany jest z Programu Operacyjnego Inteligentny Rozwój 2014-2020 (Priorytet IV: Zwiększenie potencjału naukowo-badawczego, Działanie 4.2: Rozwój nowoczesnej infrastruktury).

Budżet projektu: 136,1 mln zł.
Wysokość dofinansowania: 105 mln zł.
Wkład przedsiębiorców: 19,8 mln zł.

CLARIN (Common Language Resources & Technology Infrastructure) to ogólnoeuropejska infrastruktura naukowa, która umożliwia badaczom z dziedziny nauk humanistycznych i społecznych wygodną pracę z bardzo dużymi zbiorami tekstów. Konsorcjum CLARIN ERIC tworzą 22 państwa. Polska znajduje się wśród 8 członków założycieli CLARIN.

CLARIN-PL to konsorcjum, które realizuje polski wkład w budowę i utrzymanie europejskiego CLARIN ERIC. Konsorcjum w Polsce tworzy 5 jednostek naukowych na czele z Politechniką Wrocławską (inne to: Instytut Podstaw Informatyki Polskiej Akademii Nauk, Instytut Slawistyki Polskiej Akademii Nauk, Uniwersytet Łódzki, Uniwersytet Wrocławski) oraz 22 przedsiębiorców, w tym Literacka Technologie, które użyczają swoich zasobów oraz oprogramowania. CLARIN-PL-Biz działa więc zarówno na rzecz nauki i naukowców, jak i gospodarki i przedsiębiorców, a jego celem jest wykorzystanie wypracowanej infrastruktury technologicznej w biznesie.

CLARIN-PL dysponuje bazami danych opisujących język naturalny oraz jego użycie. Konsorcjum tworzy programy komputerowe do analizy tekstu i mowy na różnych poziomach opisu języka naturalnego oraz aplikacje badawcze wspierające badania w obszarach nauk humanistycznych i społecznych. Beneficjentami działań konsorcjum są wszystkie jednostki naukowe i naukowcy w Polsce. Wypracowane narzędzia są ogólnodostępne i każdy bezpłatnie może z nich korzystać.

Celem działań CLARIN-PL-Biz skierowanych do biznesu jest włączenie się w rozwój sztucznej inteligencji poprzez dostarczenie zasobów i narzędzi. CLARIN-PL-Biz pracuje nad stworzeniem architektury informatycznej przeznaczonej do konstrukcji skutecznych i wydajnych systemów eksploracji wielkich danych językowych (tekstów i mowy) oraz danych multimodalnych. Efektem prac w pierwszym etapie będzie utworzenie systemu umożliwiającego gromadzenie i trwałe przechowywanie danych językowych, a następnie dostosowanie narzędzi językowych do standardów komercyjnych przez rozszerzenie zakresu ich funkcjonalności. CLARIN-PL-Biz zbuduje podstawowe zasoby językowe dla języka polskiego połączone z zasobami dla języka angielskiego oraz wypracuje narzędzia do analizy polaryzacji wydźwięku i emocji. W kolejnych etapach powstaną środowisko informatyczne do tworzenia systemów dialogowych oraz narzędzia do wydobywania informacji z danych tekstowych. Celem jest także zaprojektowanie metod i przygotowanie narzędzi bazujących na semantycznej analizie tekstu oraz elementach analizy dyskursu i pragmatyki na potrzeby procesu wydobywania wiedzy z danych. CLARIN-PL-Biz dąży do opracowania ogólnego, bazowego systemu do odpowiadania na pytania w języku polskim.

60% wypracowanej przez CLARIN-PL-Biz wiedzy będzie ogólnodostępne i bezpłatne. Dla biznesu na zasadach komercyjnych konsorcjum zaoferuje superkomputer ukierunkowany na wieloskalową inżynierię języka naturalnego i sztuczną inteligencję. Koszt pracy nad superkomputerem szacuje się na poziomie około 40 mln zł. Wśród usług świadczonych dla przedsiębiorców znajdzie się gromadzenie i trwałe przechowywanie wielkich danych językowych (tekst, mowa, dane multimodalne, powiązane zasoby numeryczno-symboliczne). Możliwe będzie także wydobywanie informacji i wiedzy z wielkich danych językowych, generowanie odpowiedzi na pytania na podstawie korpusu tekstów oraz automatyczne rozumowanie w oparciu o dane językowe. CLARIN-PL-Biz zaoferuje semantyczne indeksowanie i przeszukiwanie danych oraz odda do dyspozycji środowisko informatyczne do tworzenia systemów dialogowych o różnej modalności (w tym generowanie tekstu i mowy oraz rozpoznawanie mowy).