NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el. mag. BOŠTJAN KOS, MBA

Size: px
Start display at page:

Download "NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el. mag. BOŠTJAN KOS, MBA"

Transcription

1 NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el. mag. BOŠTJAN KOS, MBA

2 Izzivi pri gradnji analitičnih rešitev Naraščanje števila podatkovnih virov Naraščanje raznovrstnosti podatkov (strukturirani, nestrukturirani, slike, IoT, zvok, video, RFID, vremenski podatki, podatki iz socialnih omrežij, itd.) Naraščanje raznovrstnosti ter lokacij podatkovnih virov (On-premise, Cloud, Hybrid, SaaS, DBaaS, itd.) Naraščanje količine podatkov Naraščanje števila rešitev, ki skrbijo za dostop do podatkov v različnih virih. Naraščanje kompleksnosti integracije podatkov iz različnih virov Naraščanje raznovrstnosti časovnih dostopov do podatkov ter njihovega prenosa (batch, real-time, stream, itd.) Manjšanje časovnega okna za integracijo podatkov

3 Izzivi pri gradnji analitičnih rešitev Naraščanje števila različnih podatkovnih shramb v podjetjih (ERP, CRM, DWH, Lake, Dokumentni sistemi) Nezavedanje ter nepoznavanje podatkovnih shramb ter njihovih vsebin Sledenje ter uvajanje državnih, mednarodnih in industrijskih regulativ (npr. Basel, Solvency, GDPR, itd.) Zahteva po obveznem skrbništvu nad celotnim procesom pridobivanja, obdelave ter posredovanja podatkov Prehod iz reaktivnega analitičnega sistema, kjer so uporabniki zahtevali podatke in poročila od IT, v proaktivni analitični sistem Zahteva po infuziji analitike v vse poslovne procese

4 Izzivi pri gradnji analitičnih rešitev Naraščanje števila uporabnikov Naraščanje zahtevnosti uporabnikov Naraščanje kompleksnost poročil Prehod iz masovnih v individualna poročila Naraščanje števila končnih aplikacij Dostava informacij na različne naprave Zahteva po napredni analitiki Zahteva po prediktivni analitiki Zahteva po peskovnikih ter Big Zahteva po podatkovni znanosti Zahteva po umetni inteligenci ter t.i. chatbot-ov Kljub vsemu naštetemu uporabniki zahtevajo čedalje boljšo odzivnost

5 Trije ključni stebri sodobne analitične arhitekture 3. Poslovna analitika in podatkovna znanost (Razumevanje trenutnih in prihodnjih trendov, sprememb ter napovedi) 1. Hibridno upravljanje s podatki (Zapišite enkrat, dostopajte kjerkoli z enotnim dostopom) AI Machine Learning Analytics 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti ter skladnosti) AI lestev Informacijska arhitektura (IA) je osnova za umetno inteligenco (AI) -> Ni AI brez IA <-

6 1. Hibridno upravljanje s podatki Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.: Operativne baze podatkov Dokumentni sistemi Podatkovno skladišče Strukturirani podatki Hramba zgodovinskih podatkov Visoke performanse Podatkovno jezero Nestrukturirani podatki Ponor za podatke s področja IoT Stroškovno učinkovit distribuiran sistem za hrambo in obdelavo velikih količin podatkov # Object store and cache Enterprise content store Landing zone, exploration, history, logs and archive Analytical Lake Storage Sand boxes bases, Deep analytics, modeling, marts, and warehousing Access Self-service virtualization federation Open APIs

7 1. Hibridno upravljanje s podatki Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.: Analitični peskovniki Omogočajo raziskovanje po podatkih in pridobivanje novega vpogleda v podatke Okolje, ki omogoča ponovljivo uporabo transformacij in poizvedb Okolje, kjer uporabniki lahko dostopajo do velike količine surovih podatkov Okolje za razvoj analitičnega modela # Object store and cache Enterprise content store Landing zone, exploration, history, logs and archive Analytical Lake Storage Sand boxes bases, Deep analytics, modeling, marts, and warehousing Access Self-service virtualization federation Open APIs

8 1. Hibridno upravljanje s podatki Naslavlja potrebo po razširjenem obsegu in povečani hitrosti izvajanja analitičnih obdelav Implementacija v privatnem ali javnem oblaku ter zagotavljanje kompatibilnosti aplikacij med njima Čedalje pogostejše zahteve po HA in DR postavitvah zaradi vključenosti analitičnih sistemov v operativne procese Virtualizacija zakriva kompleksnost ter poenostavlja dostop do podatkov, saj omogoča dostopanje do več repozitorijev istočasno preko ene SQL poizvedbe Obvezna visoka stopnja integracije s platformo za analitiko ter podatkovno integracijo # Object store and cache Enterprise content store Landing zone, exploration, history, logs and archive Analytical Lake Storage Sand boxes bases, Deep analytics, modeling, marts, and warehousing Access Self-service virtualization federation Open APIs

9 2. Skrbništvo nad podatki in integracija podatkov Načrtovanje integracije podatkov je odvisno od vrste podatkov, pogostosti zajema podatkov ter izvora in ponora podatkov Več vrst integracije podatkov: ETL/ELT postopki (batch) Replikacija podatkov v realnem času (Change Capture) Obdelava podatkov v času prenosa podatkov (Streaming) Za mesto obdelave podatkov so vse pogosteje izkoriščajo viri na repozitorijih podatkov (npr. hadoop, analitični pospeševalniki, itd.) Podpora za pregled izvornih sistemov ( Profiling), podpora za zagotavljanje kakovosti podatkov ( Quality) Ingestion & Integration Extract, transform and load Change capture Streaming Document capture lifecycle management Master and entity Reference Information Management & Governance catalog models quality

10 2. Skrbništvo nad podatki in integracija podatkov Zaupanje v pomen podatkov je ključno za pravilno rabo podatkov v poslovnih analizah Zaupanje v podatke povečujemo z vzpostavitvijo: Centraliziranega sistema upravljanja Skupnega poslovnega besednjaka Podatkovne sledi Skrbnikov podatkov Predstavlja podlago za nadaljnje projekte integracije in upravljanja podatkov: Upravljanje glavnih podatkov (Master Management) Upravljanje z življenjskim ciklom podatkov ( Lifecycle) Inicative s področja varnosti in zasebnosti (GDPR, maskiranje) Ingestion & Integration Extract, transform and load Change capture Streaming Document capture lifecycle management Master and entity Reference Information Management & Governance catalog models quality

11 3. Poslovna analitika in podatkovna znanost Optimizacija poslovnih odločitev Kaj moramo narediti? Priprava načrtov, proračuna in napovedi Kakšen je naš načrt? Poročanje in analiza podatkov za nazaj Kaj se je zgodilo? Discovery & Exploration science Actionable Insight Visualization and storyboarding Reporting, analysis and content analytics Federated search Enhanced Applications Customer experience New business models Decision management Financial performance Razvoj, uvedba in upravljanje prediktivnih modelov Kaj se bo zgodilo? Zakaj se je zgodilo? Pridobivanje globjega vpogleda za razumevanje vplivov na poslovanje Predictive analytics and modeling Insight as a service Cognitive Risk Fraud and operations IT economics

12 3. Poslovna analitika in podatkovna znanost Kakšen je naš načrt? Planiranje - Priprava načrtov, proračuna in napovedi Discovery & Exploration science Federated search Priprava natančnejših načrtov, proračuna in napovedi Zahteva po: Agilnosti Odzivnosti na spremembe Učinkovitosti pri iskanju trendov, modeliranju scenarijev in izvajanju kaj-če analiz Avtomatizaciji postopkov Sodelovanju, saj postopek planiranja zajema več oddelkov, podjetij, Actionable Insight Visualization and storyboarding Reporting, analysis and content analytics Decision management Predictive analytics and modeling Insight as a service Cognitive Enhanced Applications Customer experience New business models Financial performance Risk Fraud and operations IT economics

13 3. Poslovna analitika in podatkovna znanost Kaj se je zgodilo? Zakaj se je zgodilo? Poročanje - Poročanje in analiza podatkov za nazaj Analiza - Pridobivanje globjega vpogleda za razumevanje vplivov na poslovanje Discovery & Exploration science Actionable Insight Federated search Enhanced Applications Delitev na: Operativno poslovno poročanje Samostojno izvajanje analiz Potreba po celovitem upravljanju obeh načinov analiz za zaupanje v rezultate le-teh Potreba po interaktivnosti in enostavnosti uporabe Visualization and storyboarding Reporting, analysis and content analytics Decision management Predictive analytics and modeling Insight as a service Cognitive Customer experience New business models Financial performance Risk Fraud and operations IT economics

14 3. Poslovna analitika in podatkovna znanost Kaj se bo zgodilo? Napovedovanje - Razvoj, uvedba in upravljanje prediktivnih modelov Discovery & Exploration science Federated search Uporaba statističnih metod in metod strojnega učenja Ključne lastnosti platforme za podatkovno analitiko: Raznolikost orodij na enem mestu, ki naslavljajo različne tipe uporabnikov Upravljanje z analitičnimi sredstvi, modeli in podatki Sodelovanje med analitiki Povezovanje s skupnostjo podatkovnih znanstvenikov Uvedba modelov v procese organizacije Izvajanje obdelav na mestu, kjer so podatki Peskovniki Virtualiziran dostop do podatkov Actionable Insight Visualization and storyboarding Reporting, analysis and content analytics Decision management Predictive analytics and modeling Insight as a service Cognitive Enhanced Applications Customer experience New business models Financial performance Risk Fraud and operations IT economics

15 3. Poslovna analitika in podatkovna znanost Kaj moramo narediti? Optimizacija Optimizacija poslovnih odločitev Discovery & Exploration science Federated search Podaja odgovor na vprašanje kakšne odločitve naj sprejmemo, da bodo najbolj optimalne Ključno je prepletanje z rešitvami za podatkovno znanost, npr. Integracija s planiranjem Integracija z napovedovanjem Ena platforma za podatkovno znanost in optimizacijo odločitev Actionable Insight Visualization and storyboarding Reporting, analysis and content analytics Decision management Predictive analytics and modeling Insight as a service Cognitive Enhanced Applications Customer experience New business models Financial performance Risk Fraud and operations IT economics

16 acquisition & application access Sodobna analitična arhitektura New sources Machine & sensor Ingestion & Integration Analytical Lake Storage Access Discovery & Exploration science Federated search Image & video Enterprise content Social Internet sets Weather Commercial sets Traditional sources Extract, transform and load Change capture Document capture # Object store and cache Enterprise content store Landing zone, exploration, history, logs and archive Sand boxes bases, Deep analytics, modeling, marts, and warehousing Self-service virtualization federation Open APIs Actionable Insight Visualization and storyboarding Reporting, analysis and content analytics Decision management Predictive analytics and modeling Enhanced Applications Customer experience New business models Financial performance Risk Third-party Insight as a service Fraud and operations Transactional Application Real-time ingestion Analytics In-Motion Streaming analytics Complex event processing enrichment Cognitive IT economics System of record In-memory processing Analytics Operating System Simple programming paradigm lifecycle management Master and entity Reference Information Management & Governance Security catalog models quality masking and redaction encryption protection Security intelligence Platform Traditional Managed service PaaS SaaS Hybrid

17 acquisition & application access Sodobna analitična arhitektura IBM rešitve New sources Machine & sensor Ingestion & Integration Analytical Lake Storage Access Discovery & Exploration science Experience Watson Explorer Image & video Enterprise content Social Internet sets Weather Commercial sets Traditional sources Stage, IDAA Loader, Works Change capture & Replication Cap # Cleversafe, REDIS Box, Content Manager, Filenet Hortonworks Sand boxes IBM Integrated Analytics System, IBM Db2 Analytics Accelerator, Db2 Warehouse, Db2 Big SQL Fluid Query, Services Director Federation Server Open APIs Actionable Insight Watson Analytics Cognos Analytics Watson Content Analytics SPSS Decision management SPSS Enhanced Applications Customer experience New business models Financial performance Risk Third-party Weather Insight Twitter Insight Fraud and operations Transactional Application Real-time ingestion Analytics In-Motion Streams Complex event processing enrichment Watson APIs IT economics System of record Spark Analytics Operating System Optim, StoredIQ Master Management Reference Mgmt. Optim Privacy Information Management & Governance Guardium Encryption Security Platform Guardium Activity Monitoring Governance Catalog QRadar models Traditional Managed service PaaS SaaS Hybrid Information Server

18 Primer iz prakse poslovne zahteve Zajemanje, shranjevanje in analiziranje strukturiranih podatkov iz relacijskih baz (rešitve: Stage, Db2 Warehouse Local, Cognos Analytics, Science Experience), Zajemanje, shranjevanje in analiziranje nestrukturiranih podatkov (dokumenti tipa.doc,.pdf,.txt, ipd.). Dokumenti lahko prispejo elektronsko ali po pošti (skeniranje in OCR), (rešitve: Cap, FileNet, Hortonworks, BigSQL, Watson Explorer) Iskanje informacij po spletnih straneh (crawling) in shranjevanje informacij v najbolj stroškovno učinkovit repozitorij (rešitve: Watson Explorer + Hortonworks) Strukturirani podatki naj bodo shranjeni v relacijski bazi (rešitve: Db2 Warehouse Local) Dokumenti naj bodo shranjeni v dokumentnem sistemu (rešitve: FileNet) Nad vsemi podatki v podjetju mora biti vzpostavljeno iskanje ter sistem obogatenje podatkov (Watson Explorer, Science Experience). Zahteva se vzpostavitev t.i. Chat Bot-a (Watson Assistant, Watson Services and Watson APIs)

19 acquisition & application access Primer iz prakse mapiranje na arhitekturo New sources Machine & sensor Ingestion & Integration Analytical Lake Storage Access Discovery & Exploration science Experience Watson Explorer Image & video Enterprise content Social Internet sets Weather Commercial sets Traditional sources Third-party Transactional Application Stage Change capture & Replication Cap Real-time ingestion # Cleversafe, REDIS Content Manager, Filenet Hortonworks Sand boxes IBM Integrated Analytics System, IBM Db2 Analytics Accelerator, Db2 Db2 Warehouse Analytics In-Motion Big SQL Fluid Query, Services Director Federation Server Open APIs Streams Complex event processing enrichment Actionable Insight Watson Analytics Cognos Analytics SPSS Decision management SPSS Weather Insight Twitter Insight Watson APIs Enhanced Applications Customer experience New business models Financial performance Risk Fraud and operations IT economics System of record Spark Analytics Operating System Optim, StoredIQ Master Management Reference Mgmt. Optim Privacy Information Management & Governance Guardium Encryption Security Platform Guardium Activity Monitoring Governance Catalog QRadar models Traditional Managed service PaaS SaaS Hybrid Information Server

20 Primer iz prakse sodobna analitična arhitektura Sources Websites Flat Files RDBMS Unstructured Crawler SEARCH IBM Watson Explorer Integration 1 ETL CAPTURE 2 OCR 9 IBM Stage IBM cap Lake Hortonworks Platform Big Platform IBM Db2 Warehouse Enterprise Warehouse IBM Filenet Document Management System Discovery IBM Science Experience Analysis Exploration Science Platform 8 Reporting ENTERPRISE SEARCH PREDICTIVE MODELING MACHINE LEARNING DEPLOYMENT Document Search IBM Watson Explorer IBM Cognos Analytics IBM Content Navigator Explorers Scientists Business Users Knowledge Workers 10 IBM Watson Assistant IBM Watson Services Chatbot & Cognitive Services AI Machine Learning Analytics

21 mag. Boštjan Kos, MBA Direktor tehnične prodaje, Analytics Technical Leader, Central and Eastern Europe E: M: LinkedIn:

22