BulTreeBank WordNet (BTB-WN)

BulTreeBank WordNet (BTB-WN) е мрежа от думи (wordnet) за български език – лексикален ресурс с характеристики на тълковен и синонимен речник, обогатен с енциклопедично знание. BTB-WN е езиковото ядро, необходимо за изграждането на Българската мрежа от знания, разработвана в рамките на проекта CLaDA-BG и със съдействието на „Център за върхови постижения по Информатика и информационни и комуникационни технологии“. Работата в рамките на ЦВП е насочена към разширяване на мрежата от думи, а оттам и на мрежата от знания, със специфични за дадени области понятия (химия, физика и други). В този смисъл ще има приложения при системи за изкуствен интелект в различни области. Мрежата от знания, специфични за България, ще се използва за автоматична обработка на различни данни и извличане на знания от текст. BTB-WN представя значения на думи, организирани в синонимни гнезда, като синонимите и остарели, диалектни, разговорни и други форми на думите са членове на едно синонимно гнездо с дефиниция, а между тях са установени семантични релации (например синонимия, антонимия, хиперонимия, равенство с английско понятие и други).
Новият подход, който се прилага в BTB-WN, е групирането в едно синонимно гнездо на свързани думи с близко значение и кодирането на техните смислови нюанси в синонимното гнездо като модификация на основното значение (например в синонимното гнездо на „маса“ присъства и умалителната форма „масичка“, а нейното специфично значение за умалителност е допълнително отбелязано). Графика (1) представя някои от семантичните релации на синонимното гнездо „маса“: то има надпонятие (hyr) “мебел”, а на по-горно ниво – “обзавеждане”; има английски еквивалент (eqt) „table”; има подпонятия (hyo) „писалище“ и „софра“; има мероним (mep) „крак“ и конкретен обект, принадлежащ на даденото понятие (iho) – “Кръглата маса“.