Realizacja zlecenia w projekcie pod tytułem „Technologia kontekstowego rozumienia języka pisanego na potrzeby poprawy błędów oraz automatycznej oceny zrozumiałości tekstu” to jeden z ważniejszych obszarów naszego działania, dzięki realizacji którego wyciągnęliśmy wiele wniosków niezbędnych w naszych dalszych badaniach.
W oparciu o analizę tekstów literackich i nieliterackich pod kątem kryteriów projektowych Literacka Sp. z o.o. zebrała materiał źródłowy. Kluczowym był dobór tekstów z obszarów: literatura polska i powszechna, teksty prasowe (wizerunkowe, branżowe, lifestyle’owe, popularnonaukowe), artykuły naukowe, podręczniki szkolne, teksty użytkowe, teksty prawne, urzędowe i prawno-urzędowe, Wikipedia.
Wyzwanie wiążące się z analizą polegało na wymogu, by teksty były zróżnicowane tematycznie. Absolutnie niedopuszczalna była sytuacja, by w bazie znalazło się kilka tekstów poruszających ten sam temat lub opisujących to samo wydarzenie. Teksty musiały również charakteryzować się różnym stopniem trudności wg indeksu FOG (indeks czytelności, który ma na celu określenie stopnia przystępności tekstu). Jednocześnie, przy wszystkich tych założeniach, baza musiała być podzielona proporcjonalnie.
Przygotowany materiał źródłowy został poddany tokenizacji, by na jego podstawie można było przygotować spełniający wymogi projektu „test cloze”, według zasady, że zaimplementowane do tekstów luki nie powinny w znaczący sposób zakłócać porządku przyczynowo-skutkowego tekstu oraz powinny być możliwe do uzupełnienia przez użytkownika. Przygotowany został również wykaz metodologicznych założeń implementacji luk do tekstów (spisu tokenów niepodmienialnych, oraz wykaz reguł blokujących zamianę tekstu na luki).