plenLiteracka Sp. z o.o.    |   Olsztyn, Wilczyńskiego 25e/216
+48 883 00 88 22

Analiza NER czyli o czytaniu tekstu za pomocą sztucznej inteligencji

NER (z ang. Named Entity Recognition) czyli rozpoznawanie / wyodrębnianie nazwanych jednostek, to popularna technika wykorzystywana do identyfikowania i segmentowania nazwanych jednostek oraz klasyfikowania lub kategoryzowania ich w ramach różnych predefiniowanych klas tj. osoby, czas, obiekty, zawody, stany emocjonalne i wiele innych. Co dają NER-y wydawcom? W minutę dostarczają wiedzę na temat treści książki, dzięki wykorzystaniu NER wydawca, zanim przeczyta książkę, dowie się gdzie i kiedy dzieje się akcja utworu, jakie wydarzenia pojawiają się w tekście, jacy bohaterowie występują i czym się zajmują (np. młody bloger Kajtek będący wilkołakiem), a nawet w jakim stanie emocjonalnym są postacie. 

Jak pisaliśmy w tym artykule NER-y są rezultatem wykorzystania algorytmów sztucznej inteligencji.

Przykład wyodrębnienia NER-ów w tekście:

Mariusz (person) czuł się szczęśliwy (emostate), gdy na stole (product) w niedzielę (date-period) pojawiały się pulpety (food). Po obfitym obiedzie (event) udawał się na spacer (event) po Olsztynie (gpe). Brał ze sobą psa Arnolda (person-animal) i książkę (product)  „Pani Zosi spacerki po Olsztynie” (art), siadał na brzegu (loc) Łyny (gpe) niedaleko zamku (object) i planował wycieczkę (event). Kątem oka obserwował rozbawionych (emostate) gości (person-type) Browaru Warmia (brand). Wspominał wieczory (date-period), które spędził tu w 2020 roku (date) z Niemcami (norp) z Bawarii (gpe).  Myślami wracał do tych letnich tygodni (date-period) spędzonych z nimi w podróży (event) po Warmii (gpe). 

W przykładzie powyżej mamy do czynienia z kilkoma różnymi jednostkami NER:

  • PERSON – nazwani bohaterowie książki, 
  • PERSON-TYPE – oznaczający typ człowieka / ludzi, wydzielony z wcześniejszego PERSON, 
  • NORP – oznaczający narodowość lub nazwaną grupę, która ma swoje zwyczaje, kulturę, wartości, 
  • OBJECT – zamknięta przestrzeń, w której mogą przebywać bohaterowie, 
  • GPE – oznaczający miejsca możliwe do geolokalizacji, które można odszukać na mapie świata, 
  • LOC – otwarta przestrzeń, nieokreślona, w której mogą przebywać bohaterowie (poza lokalizacją geograficzną), 
  • ART – tytuły książek, filmów, nazwy zespołów muzycznych, tytuły dzieł plastycznych etc., 
  • EVENT – oznaczający zdarzenia – np. bitwy, wojny, wydarzenia sportowe i kulturalne, festiwale, wybory etc., 
  • PRODUCT – oznaczający rzeczy, przedmioty, produkty, towary wytworzone przez człowieka, 
  • DATE-PERIOD – oznaczający przedział czasu lub porę, 
  • PERSON-ANIMAL – oznaczający zwierzęta (prawdziwe lub fikcyjne), 
  • FOOD – oznaczający żywność – nazwy potraw lub produktów spożywczych, które można zjeść, 
  • EMOSTATE – oznaczający stany emocjonalne i uczucia, np. radość, smutek, depresja, zmęczenie, 
  • BRAND – identyfikacja producenta, marki, firmy, instytucji, organizacji etc.

Jak możemy praktycznie wykorzystać analizę NER w wydawnictwie? Poniżej kilka przykładów: 

1. Najczęściej występujące słowa w danej kategorii
Kiedy spojrzymy na analizę NER powieści Mai Lunde „Historia pszczół” na szczycie GPE (kategorii słów określających lokacje, do których można przypisać konkretne współrzędne geograficzne) mamy miejsca związane z Anglią, Chinami i Stanami Zjednoczonymi.
A jednak spojrzenie na LOCi (kategorie słów określające przestrzeń, do której nie można dopisać konkretnych współrzędnych geograficznych) zwraca uwagę, że pośród najczęściej występujących pojawiają się takie słowa jak: las, łąka i pole na równi z miastem i ulicą. To daje ciekawy obraz przestrzeni, w jakiej rozgrywa się akcja książki. Ci, którzy znają „Historię pszczół” wiedzą, że to opowieść o mocnym wydźwięku ekologicznym, rysująca mroczną wizję świata ponoszącego konsekwencje działań ludzi.

2. Geografia książki 
Gdzie toczy się akcja książki Agnieszki Pietrzyk „Zostań w domu”? Podpowiada nam sztuczna inteligencja, wymieniając wśród najczęstszych słów-lokalizacji ELBLĄG. Pojawia się ono w książce 31 razy. Taka informacja może pozwolić wydawcy określić region, którego czytelnicy będą szczególnie zainteresowani przeczytaniem książki. 

3. Gdzie rozgrywa się akcja książki?
W powieści „Dżozef” Jakuba Małeckiego najczęściej występującymi zawodami są: lekarz, doktor, pielęgniarka, pacjent. Już na podstawie tylko tych kilku wyrazów jesteśmy w stanie przewidzieć, gdzie dzieje się akcja powieści.

Sam się przekonaj, jak duże znaczenie ma analiza tekstu przez algorytmy sztucznej inteligencji. Na podstawie najczęściej występujących w danej kategorii słów możemy naprawdę bardzo wiele powiedzieć o książce, nawet jeśli jeszcze jej nie przeczytaliśmy.
Co powiesz o utworze, w którym najczęściej występującymi zawodami / aktywnościami są: ksiądz, biskup, król, rabin, chłop, cesarz, dziekan, uczony, kupiec, przeor, arcybiskup, pielgrzym, nuncjusz, talmudysta, sułtan, tłumacz, hrabia, służący, posłaniec? 
Pobaw się z nami i spośród poniższych odpowiedzi wybierz wszystkie te, które pasują do najczęściej występujących w książce aktywności. Poprawne odpowiedzi znajdziesz na końcu tego artykułu*. 
A) Religia jest istotnym wątkiem fabuły.
B ) Bohaterowie powieści przybyli z przyszłości.
C) Kobiety odgrywają w utworze kluczową rolę.
D) Akcja dzieje się w czasach, kiedy społeczeństwo było podzielone na stany.
E) Handel odgrywa znaczącą rolę w życiu bohaterów.

Co nam dają NER-y?  Zastosowania kategorii słów w tekście jest bardzo wiele. Mogą na przykład zostać wykorzystane do tagowania tytułów w księgarni internetowej, ułatwiając pracę marketingową.

Magdalena Koperska, szefowa Wydawnictwa ANAGRAM, zapytana co jej zdaniem mogłoby zainteresować czytelników, jeśli chodzi o wyniki analizy utworu dokonanej przez sztuczną inteligencję, odpowiedziała: – Bardzo ciekawie wygląda analiza NER. Zaintrygowała mnie Mapa Książki pozycji wydanej nakładem naszego wydawnictwa – „Hotel Wielkie Prusy” Bohdana Kołomijczuka w tłumaczeniu Ryszarda Kupidury. NER-y bardzo wiele powiedziały o książce i nawet jeśli jeszcze jej nie przeczytaliśmy, to jesteśmy w stanie na ich podstawie wyobrazić sobie gdzie i kiedy dzieje się akcja utworu, jakie wydarzenia dominują w tekście czy jacy są główni bohaterowie. To bardzo ciekawe. 

NER-y ułatwiają wydawcom pracę, pozwalając na wstępne oszacowanie, o czym jest nadesłana przez autora propozycja wydawnicza. Analizę NER tekstu oferujemy w ramach stworzonego przez Literacką systemu BookScout.ai. Zgłoś się do nas, aby móc korzystać z możliwości, jakie daje technologia nowoczesnym wydawcom. 

PRZEJDŹ DO BOOKSCOUT.AI >> KLIK

*Właściwe odpowiedzi: A, D, E.

Related Posts

Leave a Reply