NER (z ang. Named Entity Recognition) czyli rozpoznawanie / wyodrębnianie nazwanych jednostek, to popularna technika wykorzystywana do identyfikowania i segmentowania nazwanych jednostek oraz klasyfikowania lub kategoryzowania ich w ramach różnych predefiniowanych klas tj. osoby, czas, obiekty, zawody, stany emocjonalne i wiele innych. Co dają NER-y wydawcom? W minutę dostarczają wiedzę na temat treści książki, dzięki wykorzystaniu NER wydawca, zanim przeczyta książkę, dowie się gdzie i kiedy dzieje się akcja utworu, jakie wydarzenia pojawiają się w tekście, jacy bohaterowie występują i czym się zajmują (np. młody bloger Kajtek będący wilkołakiem), a nawet w jakim stanie emocjonalnym są postacie.
Jak pisaliśmy w tym artykule NER-y są rezultatem wykorzystania algorytmów sztucznej inteligencji.
Przykład wyodrębnienia NER-ów w tekście:
Mariusz (person) czuł się szczęśliwy (emostate), gdy na stole (product) w niedzielę (date-period) pojawiały się pulpety (food). Po obfitym obiedzie (event) udawał się na spacer (event) po Olsztynie (gpe). Brał ze sobą psa Arnolda (person-animal) i książkę (product) „Pani Zosi spacerki po Olsztynie” (art), siadał na brzegu (loc) Łyny (gpe) niedaleko zamku (object) i planował wycieczkę (event). Kątem oka obserwował rozbawionych (emostate) gości (person-type) Browaru Warmia (brand). Wspominał wieczory (date-period), które spędził tu w 2020 roku (date) z Niemcami (norp) z Bawarii (gpe). Myślami wracał do tych letnich tygodni (date-period) spędzonych z nimi w podróży (event) po Warmii (gpe).
W przykładzie powyżej mamy do czynienia z kilkoma różnymi jednostkami NER:
- PERSON – nazwani bohaterowie książki,
- PERSON-TYPE – oznaczający typ człowieka / ludzi, wydzielony z wcześniejszego PERSON,
- NORP – oznaczający narodowość lub nazwaną grupę, która ma swoje zwyczaje, kulturę, wartości,
- OBJECT – zamknięta przestrzeń, w której mogą przebywać bohaterowie,
- GPE – oznaczający miejsca możliwe do geolokalizacji, które można odszukać na mapie świata,
- LOC – otwarta przestrzeń, nieokreślona, w której mogą przebywać bohaterowie (poza lokalizacją geograficzną),
- ART – tytuły książek, filmów, nazwy zespołów muzycznych, tytuły dzieł plastycznych etc.,
- EVENT – oznaczający zdarzenia – np. bitwy, wojny, wydarzenia sportowe i kulturalne, festiwale, wybory etc.,
- PRODUCT – oznaczający rzeczy, przedmioty, produkty, towary wytworzone przez człowieka,
- DATE-PERIOD – oznaczający przedział czasu lub porę,
- PERSON-ANIMAL – oznaczający zwierzęta (prawdziwe lub fikcyjne),
- FOOD – oznaczający żywność – nazwy potraw lub produktów spożywczych, które można zjeść,
- EMOSTATE – oznaczający stany emocjonalne i uczucia, np. radość, smutek, depresja, zmęczenie,
- BRAND – identyfikacja producenta, marki, firmy, instytucji, organizacji etc.
Jak możemy praktycznie wykorzystać analizę NER w wydawnictwie? Poniżej kilka przykładów:
1. Najczęściej występujące słowa w danej kategorii
Kiedy spojrzymy na analizę NER powieści Mai Lunde „Historia pszczół” na szczycie GPE (kategorii słów określających lokacje, do których można przypisać konkretne współrzędne geograficzne) mamy miejsca związane z Anglią, Chinami i Stanami Zjednoczonymi.
A jednak spojrzenie na LOCi (kategorie słów określające przestrzeń, do której nie można dopisać konkretnych współrzędnych geograficznych) zwraca uwagę, że pośród najczęściej występujących pojawiają się takie słowa jak: las, łąka i pole na równi z miastem i ulicą. To daje ciekawy obraz przestrzeni, w jakiej rozgrywa się akcja książki. Ci, którzy znają „Historię pszczół” wiedzą, że to opowieść o mocnym wydźwięku ekologicznym, rysująca mroczną wizję świata ponoszącego konsekwencje działań ludzi.
2. Geografia książki
Gdzie toczy się akcja książki Agnieszki Pietrzyk „Zostań w domu”? Podpowiada nam sztuczna inteligencja, wymieniając wśród najczęstszych słów-lokalizacji ELBLĄG. Pojawia się ono w książce 31 razy. Taka informacja może pozwolić wydawcy określić region, którego czytelnicy będą szczególnie zainteresowani przeczytaniem książki.
3. Gdzie rozgrywa się akcja książki?
W powieści „Dżozef” Jakuba Małeckiego najczęściej występującymi zawodami są: lekarz, doktor, pielęgniarka, pacjent. Już na podstawie tylko tych kilku wyrazów jesteśmy w stanie przewidzieć, gdzie dzieje się akcja powieści.
Sam się przekonaj, jak duże znaczenie ma analiza tekstu przez algorytmy sztucznej inteligencji. Na podstawie najczęściej występujących w danej kategorii słów możemy naprawdę bardzo wiele powiedzieć o książce, nawet jeśli jeszcze jej nie przeczytaliśmy.
Co powiesz o utworze, w którym najczęściej występującymi zawodami / aktywnościami są: ksiądz, biskup, król, rabin, chłop, cesarz, dziekan, uczony, kupiec, przeor, arcybiskup, pielgrzym, nuncjusz, talmudysta, sułtan, tłumacz, hrabia, służący, posłaniec?
Pobaw się z nami i spośród poniższych odpowiedzi wybierz wszystkie te, które pasują do najczęściej występujących w książce aktywności. Poprawne odpowiedzi znajdziesz na końcu tego artykułu*.
A) Religia jest istotnym wątkiem fabuły.
B ) Bohaterowie powieści przybyli z przyszłości.
C) Kobiety odgrywają w utworze kluczową rolę.
D) Akcja dzieje się w czasach, kiedy społeczeństwo było podzielone na stany.
E) Handel odgrywa znaczącą rolę w życiu bohaterów.
Co nam dają NER-y? Zastosowania kategorii słów w tekście jest bardzo wiele. Mogą na przykład zostać wykorzystane do tagowania tytułów w księgarni internetowej, ułatwiając pracę marketingową.
Magdalena Koperska, szefowa Wydawnictwa ANAGRAM, zapytana co jej zdaniem mogłoby zainteresować czytelników, jeśli chodzi o wyniki analizy utworu dokonanej przez sztuczną inteligencję, odpowiedziała: – Bardzo ciekawie wygląda analiza NER. Zaintrygowała mnie Mapa Książki pozycji wydanej nakładem naszego wydawnictwa – „Hotel Wielkie Prusy” Bohdana Kołomijczuka w tłumaczeniu Ryszarda Kupidury. NER-y bardzo wiele powiedziały o książce i nawet jeśli jeszcze jej nie przeczytaliśmy, to jesteśmy w stanie na ich podstawie wyobrazić sobie gdzie i kiedy dzieje się akcja utworu, jakie wydarzenia dominują w tekście czy jacy są główni bohaterowie. To bardzo ciekawe.
NER-y ułatwiają wydawcom pracę, pozwalając na wstępne oszacowanie, o czym jest nadesłana przez autora propozycja wydawnicza. Analizę NER tekstu oferujemy w ramach stworzonego przez Literacką systemu BookScout.ai. Zgłoś się do nas, aby móc korzystać z możliwości, jakie daje technologia nowoczesnym wydawcom.
PRZEJDŹ DO BOOKSCOUT.AI >> KLIK
*Właściwe odpowiedzi: A, D, E.