Научен проект # 4 | Проект "BG05M2OP001-1.001-0003

Основен изпълнител: ИИКТ-БАН

ЕЗИКОВИ ТЕХНОЛОГИИ И ТЕХНОЛОГИИ, БАЗИРАНИ НА СЪДЪРЖАНИЕ, ЗА ПРИЛОЖЕНИЯ НАД ГОЛЕМИ ДАННИ

В настоящия момент езиковите технологии, технологиите, базирани на съдържание, и Големите данни стават все по-взаимосвързани – езиковите технологии предоставят средствата за превод, взаимодействие и анализ; технологиите, базирани на съдържание, предоставят средствата за аналитика, които подпомагат извличането на смисъл и закономерности от Големи масиви данни, а средствата за визуализация представят извлечените закономерности по начин, разбираем за хора-потребители. Езиковите технологии и технологиите, базирани на съдържание, покриват множество различни изследователски групи и дисциплини, включващи обработка на естествен език, машинен превод, обработка на реч, достъп и обработка на мултимедийна информация, аналитика на данни и др. Общата характеристика на текущото състояние на изследванията в тези области е опит за интеграция на разработените досега специфични модели в една нова, универсална и мощна архитектура за машинно самообучение, базирана върху дълбочинни невронни мрежи, които позволяват ефективна, лесно адаптивна и целенасочена обработка на Големи данни. Друга характерна особеност на съвременното навлизане на ИКТ във всички сфери на живота, почти възприета като стандарт в развитите страни, е масовото използване на мултимедийни интерфейси с локализиран достъп на роден език и гласова връзка, на различни изчислителни платформи. Големите данни се превръщат във водеща област за научни изследвания и технологично развитие поради свободния достъп до огромни масиви от данни, представени по много различни начини. Натрупването на големи данни заедно с бързото нарастване на достъпните изчислителни ресурси поставят нови предизвикателства към езиковите технологии и технологиите, базирани върху съдържание, които имат за цел създаване на иновативни многоезикови продукти и услуги за обработка на данни и съдържание.

1. Езикови технологии и технологии, базирани върху съдържание, за машинен превод

Ще бъдат създадени ново поколение системи за машинен превод на основата на дълбок анализ на естествения език (чрез семантично-базиран синтактичен анализ) и техники на дълбоко самообучение за фазата на трансфер (с използване на невронни мрежи и подходи, базирани върху графи). Новата теоретична рамка ще донесе нови предизвикателства за интеграция на съществуващи езикови технологии. Крайната цел на тази разработка е извличане и структуриране на знание, описано на естествен език, и представянето му на потребителя като съдържание в подходящ формат. Ще бъде създаден адекватен механизъм за абстракция над множество от факти, с цел да се осигурят планиращи модули, работещи на независимо от системата ниво на знанията, за реализиране на генерация на естествен език над големи, интелигентни и отворени свързани данни. Освен това в тази задача ще се разработят семантично-базирани многоезикови модули за разбиране и генерация на естествен език, произвеждащи съдържание във формат на големи интелигенти данни. Предложените иновативни прототипи ще бъдат ориентирани към преводачи в публични институции, създатели на документи (юридически документи, патенти, банкова информация и т.н.). Всички прототипи ще бъдат тествани основно и на български език (заедно с други езици).

2. Езикови технологии и технологии, базирани на съдържание, за мултимодално и лесно взаимодействие между човек и компютър

Едно от научните направления по тази тема е свързано със създаването на нови интелигентни технологии, активирани чрез гласова връзка, включително разпознаване на реч с интерпретация на значението с цел подобряване точността на резултатите и създаване на нови приложения като персонален гласов асистент, интерактивна система за гласов диалог, транскрибиране, разпознаване на емоции и т.н. В това направление ще бъдат изследвани унифицирани модели на закономерностите и връзките между мултимодалните сигнали, характерни за процеса на човешката комуникация, като например взаимодействие между мозъчната активност, емоционалното състояние, лицевото изражение и произвежданата реч. От приложна гледна точка фокусът ще бъде върху създаване на алгоритми за точно и ефективно разбиране на реч, както и за естествен и обогатен синтез на реч, включващ типичната прозодия относно емоционалния контекст на българския език и други езици. Дейностите предвиждат създаване на нови методи за моделиране на езика и речта на базата на машинното самообучение с разширение или алтернативи на статистическите модели и моделите на дълбокото самообучение; разработка на алгоритми за приближено търсене и методи за ефективни представяния на моделите за езикова комуникация. Създадените технологии за обработка на реч ще позволят усъвършенстване на оригиналните приложения с гласов интерфейс от български и европейски фирми, които разработват продукти за креативната индустрия.

Друго направление в рамките на тази тема е създаването на иновативни приложения, ориентирани към нуждите на културните институции, които поддържат ресурси от цифровизирано културно съдържание. Изпълнението на тази задача ще бъде подпомагано от новите възможности на лабораторията за 3D дигитализация и съответните нови методи, алгоритми и технологии за реконструкция, сегментация и обработка на изображения. Целта е да се разработят съвременни услуги за автоматично търсене на изображения, класификация и клъстеризация чрез интегриране на методи за обработка на изображения, извличане на данни и подходи на дълбоко самообучение с уеб технологии.

3. Езикови технологии и технологии, базирани на съдържание, за по-добро образование и по-качествена аналитика на данни

Езиковите технологии и технологиите, базирани на съдържание, са мощни средства за подобряване на формалното и неформалното обучение, както и на преподаването в професионални, образователни и други малко развлекателни контексти. Технологиите, базирани върху съдържание, подпомагат разработката на модерни приложения за автоматично откриване на знания и намиране на зависимости. Изследванията ще включват създаване на нови алгоритми за анализ на свободен текст и неструктурирани данни, свързани с аналитиката на големи данни; автоматична анотация на изображения с многоезикови ключови думи; автоматичен анализ и вторично използване на електронни пациентски записи на български език, както и моделиране на потребителите и откриване на шаблони в поведението им чрез образователна аналитика. В тези изследвания ще бъдат интегрирани: обработката на естествен език, машинното самообучение, семантичните технологии, извличането на данни и др. в контекста на големите данни и съвременните изчисления