Lietojumu balstīta datu grafiska un semantiska apstrādes un analīzes tehnoloģija
Ieguldījums Tavā nākotnē |
ESF 1.1.1.2.„Cilvēkresursu piesaiste zinātnei” (otrā kārta)
Projekts „Lietojumu balstīta datu grafiska un semantiska apstrādes un analīzes tehnoloģija"
Noslēgtās vienošanās par projekta īstenošanu nr. 2013/0005/1DP/1.1.1.2.0/13/APIA/VIAA/049
Projekta vispārīgais mērķis: ir veicināt cilvēkresursu piesaisti zinātnei, izveidojot zinātnisku grupu, kuras zinātniskajam un pētnieciskajam darbam tiks piesaistīti jaunie zinātnieki un ārvalstu zinātnieki. Pētījumi tiks veikti informātikas jomā, kas atbilst vienam no valstī noteiktajiem prioritārajiem zinātnes virzieniem – inovatīvie materiāli un tehnoloģijas.
Projekta specifiskais (zinātniskais) mērķis: ir izstrādāt un aprobēt lietojumu balstītu datu grafisku un semantisku apstrādes un analīzes tehnoloģiju, kas nodrošinās pilnu un iteratīvi atkārtojamu datu apstrādes ciklu, datu ar dinamisku semantiku apstrādi, vaicājumu un datu dinamiskās semantikas apvienojumu un vizualizācijas līdzekļu efektīvu izmantošanu. Piedāvātā tehnoloģija būtiski atvieglos darbu, analizējot dažāda veida un satura datu kopas no kopējās datu aprites ekosistēmas.
Projekta galvenās aktivitātes: jaunas zinātniskas grupas izveidošana, atbilstošās datu apstrādes tehnoloģijas izstrāde un aprobācija, lietošanas testa piemēru izstrāde, starptautisku zinātnisku publikāciju sagatavošana.
Tiks sagatavotas 6 publikācijas.
Īstenošanas vieta: Rīga, LU MII.
Sadarbības partneris: Rīgas Tehniskā universitāte.
Projekta izpildes termiņš: No 2013. gada septembra līdz 2015. gada augustam (īstenošanas ilgums – 24 mēneši).
Projekta kopējās attiecināmās izmaksas: 348 812 LVL, no tā ESF finansējums 322 544 LVL, valsts budžeta finsējums 25 218 LVL un LUMII ieguldījums 1 050 LVL.
Projekta zinātniskie vadītāji: vadošais pētnieks Edgars Celms un vadošā pētniece Lelde Lāce.
PROJEKTĀ RISINĀTĀ PROBLĒMA
Mūsdienās datorzinātne ir būtiski pāraugusi vienas zinātnes robežas un sniedz atbalstu citām zinātnes nozarēm, tautsaimniecībai un privātajam sektoram. Datu apstrādes jautājums ir viena no šādām atbalsta jomām. Dotajā brīdī notiek straujš datu apjoma pieaugums, dažādās tautsaimniecības nozarēs [1]. Līdz ar to rodas jautājums par to saprātīgu un ērtu izmantošanu. Virkne pēdējā laika Eiropas Komisijas (EK) iniciatīvu ir veltītas plašam atklāto datu (open data) jautājumu spektram. Piemēram, EK savā Eiropas digitalizācijas programmā [2] ir identificējusi atklāto datu izmantošanu kā vienu no nozīmīgākajiem faktoriem ES vienotās digitālās telpas izveidei. EK iniciētā Eiropas Atklāto datu stratēģija norāda, ka Eiropas publiskajā sektorā ir liels daudzums datu, kuru potenciāls netiek pilnībā izmantots. Tā kā arī Latvija arvien ciešāk integrējas vienotājā Eiropas Savienības informatīvajā telpā, tad arī Latvijas tautsaimniecībai ir sagaidāms publiski pieejamo datu apjoma „eksplozīvs” pieaugums.
Lai pilnībā realizētu atvērto datu potenciālu, rodas likumsakarīga nepieciešamība pēc tehnoloģijām, kas lietotājiem palīdz atrast, pārveidot un atkal izmantot šo informāciju. Liela apjoma datu apstrādē šobrīd pasaulē notiek paradigmu maiņa. Datu apstrāde, analīze un pārvaldīšana vairs nepaliek tikai IT speciālistu rokās, bet tām ir radies plašāks lietotāju loks. Lietotāji ir apguvuši dažādas prasmes (semantikas noteikšana, jautājumu uzdošana) un ir gatavi iesaistīties datu apstrādē un analīzē, lai iegūtu atbildes uz sev interesējošiem jautājumiem.
Lai atrastu un padarītu saprotamas kopējās datu aprites ekosistēmas dažāda satura datu kopas ir nepieciešams risināt virkni netriviālu uzdevumu:
- dažādu (interesējošo) datu avotu atrašana, to metadatu semantiska saprašana,
- dažādu datu kopu integrēšana vienotā datu ekosistēmā,
- datu „attīrīšana”, atlasot no datiem tikai būtisko informācijas daļu,
- datu „bagātināšana”, datu papildināšana ar tālākai apstrādei un analīzei nepieciešamo semantisko informāciju,
- datu tekstuāla, grafiska un semantiska vizualizācija,
- vaicājumu uzdošana, balstoties uz datu semantisko informāciju.
Šobrīd pieejamās tehnoloģijas un rīki nodrošina risinājumus tikai atsevišķām datu analīzes uzdevumu daļām. Teorētiski ir iespējams izveidot rīku komplektu pilnai datu apstrādei un analīzei, tomēr pieejamās tehnoloģijas un rīki praktiski nav savstarpēji integrēti. Lai veiktu pāreju no viena datu apstrādes uzdevuma pie nākamā ir nepieciešams liels resursu patēriņš. Pamatā rīki tiek galā ar datu semantisko atpazīšanu, bet pienācīgi netiek risinātas datu semantiskās mainības problēmas. Piemēram, eksistē rīki darbam ar iepriekš nezināmas struktūras datiem, to saprašanai un attīrīšanai, kā arī to ierobežotai transformēšanai – GoogleRefine [3], DataWrangler [4]; rīki, kuri nodrošina dažāda veida semantiskus vaicājumus un to rezultātu vizualizāciju, par iepriekš nezināmām datu kopām – Freebase Parallax [5], Facet Graphs [6] un virkne citu rīku dažādiem specifiskiem datu analīzes uzdevumiem. Kopumā ar esošajām tehnoloģijām un rīkiem veikti datu apstrādes procesi ir unikāli risinājuma varianti, kurus nav iespējams ērti pielietot uz tiem pašiem vai līdzīgiem datiem vai datu avotiem atkārtoti.
Projektā piedāvātā tehnoloģija risinās galvenās šīs jomas problēmas – pilna apstrādes cikla nodrošināšana, datu ar dinamisku semantiku apstrāde, kā arī vizualizācijas padziļināts lietojums datu apstrādē.
- [1] Márta Nagy-Rothengass. „Data value chain in europe.” In Proceedings of the 9th ESWC'12, Springer-Verlag, Berlin, Heidelberg, 6-6., LNCS v7295.
- [2] European Commission. „Digital Agenda: Turning government data into gold”,
- http://europa.eu/rapid/press-release_IP-11-1524_en.htm
- [3] GoogleRefine, http://code.google.com/p/google-refine/
- [4] DataWrangler, http://vis.stanford.edu/wrangler/
- [5] Freebase Parallax, http://www.freebase.com/labs/parallax/
- [6] Facet Graphs, http://www.vis.uni-stuttgart.de/~heimpp/assets/files/Publikationen/id/eswc10-heimErtlZiegler.pdf
PIEDĀVĀTAIS RISINĀJUMS
- [1] http://graf.lumii.lv
- [2] http://syslab.lumii.lv/index.php/projects/erafprojects/procesuprojekts
- [3] http://owlgred.lumii.lv
- [4] http://syslab.lumii.lv/index.php/projects/erafprojects/tikluprojekts
- [5] http://mola.mii.lu.lv
- [6] http://viziquer.lumii.lv
- [7] http://syslab.lumii.lv/index.php/projects/erafprojects/semantikasprojekts
- [8] http://bioinf.mii.lu.lv
- [9] Digital Agenda for Europe http://europa.eu/rapid/press-release_IP-11-1524_en.htm
25.09.2015
Kopsavilkums par projektā “Lietojumu balstīta datu grafiska un semantiska apstrādes un analīzes tehnoloģija” (2013/0005/1DP/1.1.1.2.0/13/APIA/VIAA/049) veiktajiem pētījumiem.
Projekta mērķis bija izveidot jaunu zinātnisku grupu, kura projekta ietvaros izstrādās un aprobēs uz lietojumiem balstītu datu grafisku un semantisku apstrādes un analīzes tehnoloģiju. Galvenās projekta aktivitātes bija jaunas zinātniskas grupas izveidošana, tehnoloģijas izstrāde un aprobācija un starptautisku zinātnisku publikāciju sagatavošana.
Projekta mērķi ir pilnībā sasniegti. Tika īstenota cilvēkresursu piesaiste zinātnei, izveidojot zinātnisku grupu ar kopējo PLE 6,92 (plānotais PLE 6,89). Projekta īstenošanas gaitā tika izstrādāta jauna tehnoloģija un sagatavotas 14 publikācijas (plānotas bija sešas). Projekta laikā visi projektā iesaistītie doktoranti ir sekmīgi aizstāvējuši savus promocijas darbus (Sergejs Kozlovičs, Renārs Liepiņš un Artūrs Sproģis).
Projekta realizācija un aktivitāšu rezultātu apraksts
Projektā darbs tika organizēts pa aktivitātēm, katras aktivitātes vadītājs regulāri (parasti reizi nedēļā) darba apspriedēs kopā ar aktivitātes dalībniekiem analizēja darbu progresu un plānoja turpmākos darbus projektā. Zemāk ir dots galveno projekta pētījumu rezultātu un nodevumu uzskaitījums pa atbilstošajām aktivitātēm:
• Aktivitātes 2.1 ietvaros tika veikts esošās situācijas apskats. Lai noskaidrotu potenciālo projekta virzību un tā vietu pārējā pasaulē, tika veikta nepieciešama esošo rīku un tehnoloģiju analīze. Aktivitātes galvenie rezultāti tika aprakstīti divos nodevumos – “Pārskats par esošajām tehnoloģijām un rīkiem” un “Datu apstrādes un analīzes esošās situācijas analīzes apkopojums”.
• Aktivitātes 2.2 ietvaros tika izstrādāts potenciāli aprobējamo lietojumu saraksts, kas pārklāj visas solītās jomas – tīklveida dati, atvērtie dati un bioinformātikas dati. Veidojot aprobējamo lietojumu sarakstu iezīmējās arī prasības izstrādājamajai tehnoloģijai, kas tika ņemtas vērā 2.3. aktivitātes darbībā. Aktivitātes galvenie rezultāti tika aprakstīti nodevumā – „Tehnoloģijas lietošanas testa piemēru apraksts”.
• Aktivitāte 2.3. bija veltīta tehnoloģijas izstrādei, kuras gaitā tika izstrādātā tehnoloģijas arhitektūra un izmantošanas metodoloģija. Izstrādājot tehnoloģiju tika ņemti vērā 2.2. aktivitātē izstrādātie potenciālie lietojumi un to realizācijai nepieciešamās prasības pret Datu galaktikas funkcionalitāti. Aktivitātes galvenie rezultāti tika aprakstīti divos nodevumos – “Tehnoloģijas datu apstrādes un analīzes ietvara arhitektūras apraksts” un “Tehnoloģijas izmantošanas metodoloģija”.
• Aktivitāte 2.4. bija veltīta tehnoloģijas progammistiskā atbalsta izstrādei. Šī aktivitāte ņēmā vērā 2.3. aktivitātē izstrādātos tehnoloģijas arhitektūras līmeņa un izpildes līmeņa principus. Kā aktivitātes rezultāts tika izstrādāts tehnoloģijas prototips, kas ļāva veikt koncepcijas aprobāciju. Aktivitātes galvenie rezultāti tika ietverti nodevumā – “Tehnoloģijas atbalsta programmatūras komplekts ar aprakstu”.
• Aktivitātes 2.5. ietvaros tika aprobēti datu analīzes lietojumi. Aprobācijas lietojumi tika izstrādāti, lai pārliecinātos par piedāvātās tehnoloģijas iespējām. Kā galvenais uzdevums tikai izvirzīts, pārbaudīt, vai ir iespējams realizēt konkrēta gala lietotāja vēlmes. Aktivitātes galvenie rezultāti tika aprakstīti nodevumā – “Tehnoloģijas aprobācijas rezultātu analīze”.
• Projektā tika sagatavots arī izstrādātās tehnoloģijas apraksts. Nodevums “Jauna tehnoloģija – problēmapgabalu lietojumu balstīta datu apstrādes un analīzes ietvaru izveides tehnoloģija” un tas apkopo 2.3., 2.4. un 2.5. aktivitātēs sasniegtos rezultātus.
Visas projektā paredzētās aktivitātes tika realizētas plānotajā laikā un visi plānotie projekta nodevumi tika sagatavoti un iesniegti paredzētajā laika grafikā. Projektā veiktie darbi ir realizēti pilnā apjomā un augstā kvalitātē saskaņā ar projekta iesniegumā plānoto.
Projektā sagatavotie zinātniskie raksti un to atbilstība projekta plānotajiem rezultātiem.
Projekta laikā (aktivitāte 2.6) bija plānots sagatavot vismaz sešus zinātniskus rakstus (skatīt zemāk projekta iesnieguma sadaļu 2.9.2). Rakstus bija plānots sagatavot sekojošās kategorijās:
• Divi raksti žurnālos, kuri netiek indeksēti SCOPUS – projekta 2.9.2. sadaļas 1. un 2. zinātniskais raksts ar statusu pieņemts.
• Divi raksti konferences rakstu krājumos ar atbilstošo prezentāciju konferencē – projekta iesnieguma 2.9.2. sadaļas, 3. un 4. zinātniskais raksts ar statusu publicēts.
• Divi raksti žurnālos, kuriem citēšanas indekss sasniedz vismaz 50 % no nozares vidējā citēšanas indeksa – projekta iesnieguma 2.9.2. sadaļas, 4. un 5. zinātniskais raksts ar statusu iesniegts.
Projekta iesnieguma brīdī plānotās publikāciju tēmas projekta realizācijas laikā tika precizētas balstoties uz pētījumos iegūtajiem konkrētajiem rezultātiem. Tomēr ir jāpiezīmē, ka sagatavoto zinātnisko rakstu tēmas izrādījās ļoti tuvu plānotajām.
Protams, ka arī uz projekta iesnieguma brīdi nebija iespējams iepriekš garantēt, ka kāds konkrēts izdevums noteikti pieņems konkrētu publikāciju. Tomēr arī šeit ir jāuzsver, ka lielā mērā plānotās konferences un izdevumi sakrita ar plānotajiem.
Jāpiezīmē, ka visi plānotie rezultāti tika pilnībā sasniegti. Plānoto sešu zinātnisku rakstu vietā tika sagatavoti 14 raksti
Infomācija atjaunota: 25-sep-2015