Jak wyglądają nasze obecne sukcesy w pracach nad #nlp i #machinelearning na potrzeby rynku książki? Właśnie tak Wynik wspólnych prac specjalistów od języka i literatury oraz data scientistów Literackiej i Ermlab, to udostępnienie polskiego modelu RoBERTa, czyli techniki uczenia maszynowego do wstępnego szkolenia w zakresie NLP.

W czym tkwi istota algorytmu BERT i jego polskiego, wypracowanego przez nas modelu RoBERTa? To, opracowany przez Google, przełomowy algorytm służący do przetwarzania języka naturalnego, który na etapie kolejnych zadań potrafi, m.in., oznaczyć role semantyczne, klasyfikację tekstu, a także ujednoznacznić słowa polisemiczne (wieloznaczeniowe) występujące w tekście. Analiza języka poprzez uczenie maszynowe z wykorzystaniem technologii opartej na sztucznej inteligencji służy temu, co jeszcze kilka lat temu wydawało się zupełną abstrakcją – poszukiwaniami „kodu bestsellera”, czyli kompleksową, wielopoziomową analizą tekstu pod kątem jego jakości, stylu, kategoryzacji formy pisarskiej i wielu innych cech sprawiających, że dane dzieło odznacza się czymś zdecydowanie więcej, niż tylko solidnym warsztatem, i przez co dana książka z chęcią kupowana jest przez czytelników.

Algorytm RoBERTa „uczył się” naszego pięknego i skomplikowanego języka w oparciu o przetwarzanie danych z polskiej Wikipedii oraz korzystając ze zgromadzonej uprzednio wielkiej ilości dzieł literackich. Łącznie, w procesie ‚treningu’, RoBERTa przewertował ponad 2 miliardy słów (!), składających się łącznie z 15 miliardów znaków.

Krzysztof Sopyla, głównodowodzący projektem od strony technicznej, tak opisuje działania i wnioski płynące z prac nad modelem RoBERTa:

Głównym założeniem prac było zbadanie wpływu jakości tekstu oraz ilości potrzebnych kroków w procesie pretreningu.
Wnioski:
– dobry tekst ma znaczenie, teksty z literatury oraz heurystycznie oczyszczony Oscar poprawiły wyniki
– nie trzeba robić dużej ilości kroków w pretreningu, aby otrzymać dobry model, szczególnie gdy dalej będziemy robić finetuning

Ponadto udostępniamy także oczyszczoną wersję zbioru oscar oraz całe notebooki z kodem do treningu i przygotowania zbiorów.

Modele dostępne https://lnkd.in/eZCzYJw

Wyniki na KLEJ https://lnkd.in/euYpHjg


0 Komentarzy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *