Aktivitātes WP1 ietvaros:
Jau iegūto neiezīmēto proteomikas datu analīzes rezultātu papildināšanai un validācijai ar jau izstrādātajām metodēm veikta NCI-60 datu kopas analīze 42 šūnu kultūrām, par kurām ir pieejami gan MS, gan RNA-seq dati. Tā kā pieejamie NCI-60 proteomikas dati ir salīdzinoši nepilnīgi un iegūti vairākos eksperimentos, kuru rezultāti nav skaitliski tieši salīdzināmi, tika izstrādātas vairākas heiristikas pieejamo datu kopu normalizācijai. Gan ar dziļās mašīnmācīšanās tīkliem, gan ar regresijas metodēm iegūtie prognozēšanas rezultāti ir līdzīgi, kā uz jau izanalizētajām Pandey/Uhlen 12 audu tipu kopām, un apstiprina šo metožu noderību. Uzsākti eksperimenti proteīnu koncentrāciju prognozēšanai ar dziļās mašīnmācīšanās neironu tīkliem balstoties uz proteīnu KEGG anotācijām un kombinētām KEGG un GO anotācijām.
Projekta rezultāti tika prezentēti vienā no prestižākajām bioinformātikas konferencēm RECOMB 2018 (Parīzē, 2018. gada aprīlī).
COREAD/Genetech datu kopu analīzei izstrādātas vairākas uz grafu klasterizāciju balstītas metodes. Sagatavots raksts, kas pieņemts publicēšanai Springer izdevumā “Communications in Computer and Information Science”.
Aktivitātes WP2 ietvaros:
Turpināti pētījumi par hromatīna interakciju analīzi no HiC datiem izmantojot šo datu reprezentāciju grafu formā. Izstrādātas vairākas (ap 20) grafus raksturojošas metrikas un to vērtības izanalizētas datiem par individuāliem šūnu tipiem un individuālam hromosomām. Izvēlētās metrikas ļauj samērā labi identificēt, gan konkrētām hromosomām, gan konkrētiem audu tipiem specifiskus interakciju paternus.
Aktivitātes WP3 ietvaros:
Pamatā pabeigta to S.cerevisiae ortologo gēnu pāru kopas sagatavošana, par kuru rašanos genoma dublicēšanas procesa rezultātā ir pieejamas ticamas uz bioloģiskiem apsvērumiem balstītas hipotēzes. Datu kopa satur 547 gēnu pārus (apmēram 17% no S.cerevisiae gēniem). Uzsākta gan šīs ortologu kopas, gan pilna S.cerevisiae genoma analīze izmantojot dažādas metrikas homoloģijas noteikšanai, lai izvēlētos no tām atbilstošākojau zināmo ortologo gēnu pāru identifikācijai.
Aktivitātes WP4 ietvaros:
Proteīnu kvantitātīvajai prognozēšanai tika papildus izvēlēta NCI-60 datu kopa (pieejami MS un RNA-seq dati par 42 šūnu kultūrām, kas atbilst deviņiem dažādiem vēža tipiem), veikta šīs kopas adaptācija un anotēšana, lai tai varētu pielietot jau izstrādātās proteīnu koncentrāciju prognozēšanas metodes. Veikta projektā izmantotās proteīnu datu bāzes papildināšana ar KEGG anotācijām, kuras norāda proteīnu iesaisti konkrētos šūnās notiekošos bioloģiskajos procesos.
Aktivitātes WP5 ietvaros:
Uzsākta lietotājiem draudzīgu atvērtā koda versiju izstrāde daļai no projekta ietvaros izstrādātajiem programmatūras moduļiem, kas tiks publicēti GitHub datubāzē, un būs pieejami ka papildmateriāls šobrīd gatavotajā publikācijā par WP1 ietvaros veiktajiem pētījumiem.