Научен проект # 1 | Проект "BG05M2OP001-1.001-0003

Основен изпълнител: ИИКТ-БАН

ИНОВАТИВНИ ПРЕСМЯТАНИЯ И BIG DATA: АЛГОРИТМИ, СРЕДСТВА, УСЛУГИ

Използването на екстремно паралелни компютърни системи за научни пресмятания придобива все по-голямо значение в световен мащаб (справка: годишните доклади на ТОП500). Общата производителност на всички топ 500 системи в света е нараснала до 300 PFLOPS като 35 % от производителността се дължи на системите с акселератори/ко-процесори. В последните 5 години се забелязва нарастване на броя изследователи, използващи екстремно паралелни компютърни системи за решаването на огромни изчислителни задачи и обработка на големи количества данни. Много от популярните пакети за научни изчисления имат варианти за работа върху ко-процесори. В същото време, програмирането върху системите с акселератори е много сложно, достъпните библиотеки не са оптимизирани и показват редица недостатъци. В този смисъл, необходимо е разработване на нови алгоритми, които са ефективни за такъв тип хетерогенна среда, както извършване на изследвания на тяхната скалируемост и ефективност.

Лавинообразното нарастване на обема на научните данни, събирани с използване на огромни мрежи от сензори или от апарати, работещи с висока разделителна способност, както и в резултат от мащабни симулации, налага необходимостта от нови методи и протоколи за съхранение и индексиране, както и от интегриран подход за осигуряването на тяхната обработка. Като стандарт в индустрията се използват облачните технологии и средства за разпределена обработка (Grid/Cloud), но те са предимно ориентирани към метода разделяй и владей. Напоследък се наблюдава тенденция към излизане от рамките на MapReduce/Hadoop, особено за целите на обработка в реално време. Идеята за интегриране на методи и технологии от областите на високопроизводителните пресмятания (HPC) и разпределената обработка (Grid/Cloud/BigData) все повече се разпространява и възприема отначало в суперкомпютърните центрове на водещите Европейски научни институции.

Този научен проект включва разработване на нови подходи в областта на високопроизводителните, Грид и облачните изчисления, както и нови методи за обработка на големи обеми от данни, като акцентът е върху подобряване на производителността, скалируемостта и енергийната ефективност. Тези изследвания са немислими без предвидената в проекта инфраструктура, проектирана специално да предоставя на изследователите разнообразни компютърни и информационни услуги. Основавайки се на доказания опит и постигнати предварителни резултати от научния екип на проекта, както и на съществуващите сътрудничества с водещи европейски научни групи, проектът има за цел разработването на нови методи и алгоритми, които да позволяват ефективно използване на настоящото и бъдещото оборудване и решават важни фундаментални и приложни задачи.

I. Разработване и изследване на нови многонивови методи и алгоритми, устойчиви на грешки, с приложение в биоинформатиката, физиката и инженерните пресмятания

Ще бъдат разработени и изследвани нови многонивови изчислителни алгоритми, включително комбинации от стохастични (Монте Карло) и детерминистични подходи. Тези алгоритми ще бъдат конструирани по такъв начин, че да използват напълно различни нива на паралелност, йерархичните структури на паметта, както и хетерогенни процесори на разположение в екстремно паралелни изчислителни платформи. Новите алгоритми ще бъдат проектирани да бъдат устойчиви на грешки. Те ще бъдат приложени за ефективно решаване на задачи с научен и социален импакт. Биомедицинските приложения ще бъдат разглеждани като приоритетни, поради присъщата им йерархична, мулти-скалируема и мулти-физична природа.

II. Алгоритми и средства за осигуряване на висока скалируемост, паралелна и енергийната ефективност върху хибридни системи с изчислителни ускорители

Компютърните Топ системи с висока производителност все повече зависят от използването на изчислителни ускорители (например, GPGPUs или Intel MIC) като основен източник на тяхната изчислителна мощност, създавайки по този начин предизвикателство за традиционните методи, алгоритми и програмни кодове, които са пригодени към хомогенни CPU-базирани системи. Нашата цел е разработването на нови алгоритми и инструменти, специално оптимизирани за хетерогенни високо-производителни системи с изчислителни ускорители, които да улеснят разработването на приложения с висока степен на скалируемост и паралелна ефективност, като се отчита и разхода на енергия. Те ще бъдат приложени в разпределени среди като грид и облак.

III. Методи и услуги за генериране и ефективна обработка на големи обеми от данни върху високопроизводителни изчислителни клъстери

Ще бъдат разработени нови методи и ефективни, числено устойчиви и добре обусловени робастни стратегии с цел да се подобри извличането на знания от не-съвършени и нестандартни масиви от данни. Предизвикателствата на ефективна работа с Big Data мотивират разработването на нови алгоритми, които се възползват от спецификата на конкретните задачи, като опазване на националното наследство, извличане на знания, анализи на данни, както и подпомагане вземането на решения. В този контекст, е планираната активна работа с лабораторията за 3D дигитализация. Ще бъдат решавани и специфични задачи, свързани с обработването на големи обеми от данни, генерирани от съвременните информационни технологии и високотехнологично оборудване като компютърна томография, 3D сканиране, 3D реконструкция, прототипиране и визуализация. Ще бъдат разработени и реализирани програмно нови методи и скалируеми алгоритми за реконструкция, обезшумяване и сегментация на изображения. Специален акцент в тази задача ще бъде поставен и върху методите и софтуерните инструменти за обработка на големи облаци от точки, полигонални модели и текстури с висока резолюция. Типични области на приложения са материалознанието, биомедицината, индустрията и културно-историческото наследство. Специално внимание ще бъде обърнато върху възпроизводимостта на резултатите, произтичащи от тези сложни процеси, както и възможността за проследяване и цитиране на силно динамични данни в съответствие с препоръките на Research Data Alliance (RDA).