Naujas KTU modelis padeda autonominėms sistemoms geriau suprasti aplinką

Kas būtų, jei tokios technologijos kaip savaeigiai automobiliai, dronai ar išmaniosios navigacijos sistemos galėtų suprasti pasaulį taip pat gerai, kaip mes – ne tik matyti formas, bet ir atpažinti, ką mato? Žmonės akimirksniu supranta, ar mato pėsčiąjį, laukiantį prie perėjos, ar dviratį, paliktą ant šaligatvio, ar per kiemą bėgantį šunį. Tačiau duomenimis paremtoms sistemoms tokio lygio gebėjimas – sudėtingas iššūkis.

Be tokio supratimo autonominėms sistemoms sudėtinga patikimai ir saugiai veikti realiame pasaulyje, todėl šį iššūkį šiandien padeda spręsti 3D taškų debesų analizė.

„Įsivaizduokite, kad atliekate milijonus tikslių lazerinių fizinės erdvės, pavyzdžiui, gatvės, miško, ar viso miesto, matavimų ir sujungiate juos, kad sukurtumėte detalų trimatį žemėlapį, sudarytą iš atskirų taškų. Tai yra vadinama 3D taškų debesimi. Šios technologijos padeda kompiuteriams suprasti objektų formas žemėlapyje ir interpretuoti jų kontekstą aplinkoje“, – aiškina Kauno technologijos universiteto (KTU) profesorius Rytis Maskeliūnas.

Nuo pėsčiųjų aptikimo iki ištisų miestų žemėlapių sudarymo

Nors dauguma žmonių apie tai retai susimąsto, ankstyvos šios technologijos formos jau naudojamos kasdieniame gyvenime. „Vidutinis žmogus nuolatos susiduria su 3D duomenimis ir panašiomis technologijomis, kurios aprašytos mūsų tyrime, net to nesuvokdamas“, – sako KTU Informatikos fakulteto tyrėjas dr. Sarmad Maqsood.

Šiuolaikinės transporto priemonės naudoja tokias sistemas automatiniam avariniam stabdymui ar adaptyviai kruizo kontrolei. Jos leidžia atskirti pėsčiuosius, transporto priemones bei kelio ribas. Tačiau sudėtingomis ar prasto matomumo sąlygomis patikimumas vis dar išlieka problema.

3D taškų debesų duomenys taip pat vis dažniau naudojami kuriant išsamius miestų skaitmeninius modelius. Šie modeliai padeda planuoti miestus, stebėti infrastruktūrą ir analizuoti aplinką, sudarydami vadinamųjų skaitmeninių dvynių pagrindą – virtualias realių objektų kopijas, kurios nuolat atnaujinamos ir naudojamos pokyčiams stebėti.

Tačiau, pasak S. Maqsood, įdiegti šią technologiją nėra lengva. „Kompiuteriai susiduria su dideliais sunkumais analizuodami 3D taškų debesis, nes duomenys netolygūs, nestruktūruoti ir labai didelės apimties“, – aiškina jis. Tyrėjas pažymi, kad duomenys būna nevienodi, arti esantys objektai užfiksuojami tankiai, o tolimesni – rečiau. Be to, svarbūs objektai, tokie kaip pėstieji, pasitaiko daug rečiau nei tokios dominuojančios klasės kaip keliai ar pastatai.

Šie iššūkiai – ne tik techniniai, bet ir praktiniai. Milijonų taškų apdorojimas realiu laiku reikalauja didelių skaičiavimo resursų, o tikslumas – kritiškai svarbus saugumo požiūriu. Triukšmas, uždengimai ir būtinybė suderinti greitį su tikslumu sukelia didžiausią iššūkį siekiant patikimos 3D analizės.

Todėl, KTU mokslininkai sukūrė naują modelį, kuris sujungia kelis 3D duomenų analizės metodus į vieną, efektyvesnę sistemą. Vietoj to, kad būtų analizuojamos tik vietinės detalės ar bendras vaizdas, modelis apjungia abu šiuos aspektus vienu metu, leidžiant sistemai patikimiau interpretuoti sudėtingas aplinkas. Modelis sujungia pažangią transformatoriais pagrįstą analizę, kuri leidžia suprasti ryšius visoje aplinkoje, o ne tik atskirose jos dalyse. Taip pat įdiegti mechanizmai, kurie išryškina svarbias, bet rečiau pasitaikančias detales.

Sprendimas, veikiantis net ir su nepilnais duomenimis

„Įsivaizduokite, kad turite didelę, netvarkingą 3D dėlionę, sudarytą iš milijonų taškų, kurią reikia surūšiuoti į prasmingus objektus – tokius, kaip keliai, medžiai ir pėstieji. Mūsų modelis veikia kaip labai intelektualus ir efektyvus galvosūkių sprendėjas“, – sako R. Maskeliūnas. Analizuodama visos aplinkos ryšius ir išskirdama svarbius elementus, sistema geriau aptinka mažus ar iš dalies matomus objektus, kurių ankstesni metodai galėjo nepastebėti.

Tai tampa ypač svarbu realiose situacijose. Pavyzdžiui, savaeigis automobilis, artėjantis prie sankryžos sutemus, gali užfiksuoti tik kelis duomenų taškus apie iš dalies uždengtą pėsčiąjį. „Užuot praleidęs šią informaciją, modelis ją interpretuoja kontekste. Susieja retus signalus su aplinkiniais elementais, tokiais kaip stulpas ar pėsčiųjų perėja ir nustato asmens buvimą net tada, kai duomenys yra neišsamūs. Šis gebėjimas suprasti kontekstą iš nepilnos informacijos gali reikšmingai pagerinti autonominių sistemų saugumą“, – dalijasi Maskeliūnas.

Modelis taip pat pasižymi efektyvumu, sudėtingas scenas jis apdoroja per kiek ilgiau nei dvi sekundes, išlaikydamas aukštą tikslumą. „Svarbus pasiekimas yra ne tik tikslumas, bet ir efektyvi, vieninga sistema“, – priduria S. Maqsood, pabrėždamas, kad sistema leidžia suspausti ir perduoti didelius 3D duomenų kiekius neprarandant svarbios informacijos, todėl duomenys gali būti efektyviai apdorojami beveik realiu laiku.

Ateityje šios technologijos gali būti taikomos daug plačiau. Nuo pristatymo dronų, veikiančių sudėtingose aplinkose, iki robotų, dalyvaujančių paieškos ir gelbėjimo operacijose. Patikimas 3D aplinkos supratimas tampa vis svarbesnis. Net ir mažiau akivaizdžios sritys galėtų pasinaudoti šia technologija, pavyzdžiui, archeologija, kur iš ribotų duomenų reikia atkurti prasmingas struktūras, arba kriminalistika, kur svarbios net subtilios erdvinės detalės. Ši technologija taip pat galėtų padėti kurti pažangias papildytos realybės sistemas, kur skaitmeninis turinys sklandžiai integruojamas į sudėtingas fizines aplinkas.

Platesniu mastu šie pasiekimai gali iš esmės pakeisti tai, kaip suprantame ir valdome savo aplinką. Tai, kas kadaise atrodė kaip mokslinė fantastika, pamažu tampa realybe – mašinos ne tik mokosi matyti pasaulį, bet ir jį suprasti.

Straipsnį „Hybrid attention-based PTv3-SE model for efficient point cloud segmentation“ galima rasti čia.