Nedostatok kvalitných trénovacích dát už nemusí byť problém. Nie je to prekážka dokonca ani v odvetviach, ktoré pracujú s citlivými údajmi klientov z bankového, poisťovacieho či lízingového sektora. Legislatívne obmedzenia síce bránia použitiu reálnych dokumentov, v ITAPS sme však v spolupráci so Slovenskou technickou univerzitou vyvinuli riešenie.
Náš nástroj umožňuje rýchlo a bezpečne vytvárať realistické učebné dáta aj pri projektoch, kde nemožno pracovať so skutočnými údajmi. Potrebné podklady vznikajú v bezpečnom a kontrolovanom prostredí bez nutnosti sprístupňovať citlivé položky. Manažéri tak získavajú možnosť spustiť AI projekt v kratšom čase, bez právnych prekážok a s vysokou kvalitou vstupov. Modely sa učia na dátach, ktoré zodpovedajú reálnym situáciám, čo zvyšuje presnosť výsledkov a znižuje počet úprav počas nasadenia. Celý vývojový proces je vďaka tomu rýchlejší, efektívnejší a jednoduchší na riadenie.
Pri príprave testovacích datasetov využívame augmentáciu dát. V tomto kontexte to znamená rozširovanie existujúceho datasetu pomocou úprav, ktoré odzrkadľujú vstupné dáta klientov. Takto možno z relatívne malého množstva vstupných informácií vytvoriť rozsiahlejší a pestrejší súbor dokumentov.
Modely umelej inteligencie sú navyše vďaka augmentácii trénované na rôznorodejších vstupoch a schopné lepšie riešiť všeobecné problémy. V prípade dokumentov ide napríklad o simuláciu rôznych spôsobov vyplnenia formulárov, rozdiely v textoch, formátoch dátumov, či o pridávanie chýb, ktoré sa z dôvodu ľudskej chyby môžu vyskytovať pri skenovaní dokumentov.
Vyvinutá aplikácia pracuje s prázdnymi šablónami dokumentov, ako sú zmluvy, faktúry a iné dokumenty. Na obrázku vidno ukážku takto vygenerovaných syntetických technických preukazov, ktoré slúžia ako vstupné údaje pre modely umelej inteligencie.



Takto vytvorené syntetické dáta umožňujú bezpečné a kontrolované testovanie modelov umelej inteligencie bez rizika práce s pravými dôvernými informáciami o klientoch. Znižuje sa tým potreba anonymizácie reálnych dát.
V používateľskom rozhraní aplikácie sa zobrazujú vytvorené projekty augmentácie vrátane veľkosti generovaného datasetu, použitých typov údajov a aplikovaných augmentácií. Používateľ tu môže projekty spravovať, upravovať, stiahnuť výsledný dataset alebo projekt vymazať.

Celá aplikácia je navrhnutá tak, aby bola flexibilná, dala sa ľahko nasadiť a bezpečne prevádzkovať v rámci ITAPS infraštruktúry. Využíva moderný prístup kontajnerizácie, vďaka čomu sa dá systém jednoducho spúšťať, spravovať a škálovať podľa potreby jednotlivých projektov.
Celé riešenie funguje oddelene od produkčných klientskych systémov a pracuje výhradne so syntetickými dátami. Tie sa tvoria na mieru podľa typu projektu. Klient tak nemusí poskytovať žiadne reálne dokumenty ani citlivé údaje, pretože všetko prebieha bezpečne a pod kontrolou v rámci našich vlastných systémov. Vďaka tejto architektúre vieme riešenie rýchlo zapojiť do akéhokoľvek AI projektu bez potreby zásahov do IT infraštruktúry klienta.
K samotnému systému sa dá pristupovať cez zabezpečené webové rozhranie alebo API, čo umožňuje jeho jednoduché využitie v rôznych dátových a vývojových projektoch. Architektúru aplikácie znázorňuje nasledujúci diagram:

Do budúcna sa ponúka aj možnosť rozšírenia riešenia o pokročilejšie generatívne modely, ktoré by umožnili vytvárať ešte realistickejšie a pestrejšie datasety bez nutnosti manuálne pripravovať šablóny a pravidlá pre vkladanie údajov. Takéto modely by dokázali automaticky generovať nové dokumenty, ktoré svojou štruktúrou a obsahom prirodzene pripomínajú reálne dáta. Príprava trénovacích datasetov by sa tým ešte viac zjednodušila, a to aj pri zložitejších typoch dokumentov.