За проекта

През последните години водещи учени, изследователи и анализатори в световен мащаб определят големите данни (Big Data) като революция в научните изследвания и една от най-перспективните тенденции в областта на ИТ, която даде тласък на интензивното развитие на методите и технологиите за тяхната обработка и доведе до появата на новата парадигма за научни изследвания „Data-Intensive Scientific Discovery“ (DISD).

Проектът обхваща теоретични изследвания и експериментални дейности с цел създаването на иновативен интелигентен метод и средства за адаптивно извличане на in silico знания и вземане на решения, базирани на анализ на потоци големи данни за научни изследвания, получени в резултат на компютърно моделиране и симулационни експерименти, който се основава на машинно обучение и процедури за генериране на правила съобразени с таргета на научното изследване. Главното предимство на метода е автоматичното генериране на хипотезите и опциите за решения, като верификацията и валидирането се осъществяват посредством еталонни множества данни и експертизата на учени от таргетната научна област.

В резултат ще бъдат създадени възможности на изследователите от широк спектър научни области да приложат новата парадигма за научни изследвания „DISD“, което от своя страна ще стимулира научните открития и иновациите. Средствата за прилагане на метода са скалируема работна рамка и научна платформа за достъп на изследователите до базата in silico знания и софтуерните инструменти за прилагане на метода в техните изследвания,  както и възможности за споделяне на знания, опит, добри практики, трансфер на знания и технологии.  Методът ще бъде приложен за научни изследвания в областите на молекулярната биология и медицинската генетика за два конкретни казуса:

(1) Идентифициране на регулаторни генетични елементи в секвенирани геноми, които да бъдат приложени за идентифициране и картиране на неизвестни гени.

(2) Прогнозиране на типа и злокачествеността на рак на гърдата въз основа на информацията за мутациите в асоциираните с него гени, нивото на експресия и свързаната епигенетична информация. Движещата сила, която стои зад проекта, e интердисциплинарен екип, съчетаващ експертиза в информационните науки и технологии, инженерната основа и техническата реализация на софтуерните методи и средства, както и утвърдени учени в областта на молекулярната биология и медицинската генетика.