Síla návrhu: Jak datový katalog zmocňuje analytiky

Odnést: Hostitel Rebecca Jozwiak diskutuje o výhodách katalogů dat s Dezem Blanchfieldem, Robinem Bloorem a Davidem Crawfordem.

Chcete-li si prohlédnout toto video, musíte se zaregistrovat do této události. Chcete-li zobrazit video, zaregistrujte se.

Rebecca Jozwiak: Dámy a pánové, Zdravíme vás a vítáme vás v Hot Technologies roku 2016. Dnes jsme obdrželi „Síla návrhu: Jak katalog dat zmocňuje analytiky.“ Jsem vaše hostitelka Rebecca Jozwiak a dnes vyplňuji našeho obvyklého hostitele Eric Kavanagha, zatímco on cestuje po světě, takže děkujeme, že jste se k nám připojili. Tento rok je horký, není to jen horké v Texasu, kde jsem, ale je horké všude. Objevuje se exploze nejrůznějších nových technologií. Weve dostal IoT, streamování dat, cloudové přijetí, Hadoop pokračuje v dospělosti a je adoptován. Máme automatizaci, strojové učení a vše je samozřejmě podtrženo údaji. A podniky se stávají stále více a více dat ze dne. A samozřejmě to má vést k poznání a objevování a, jak víte, k lepším rozhodnutím. Abychom však mohli data co nejlépe využít, musí se k nim snadno dostat. Pokud ji necháte zamknutou nebo pohřbenou nebo v mozku několika lidí v rámci podniku, nebude to pro společnost jako celek příliš dobré.

A tak jsem přemýšlel o katalogizaci dat a přemýšlení o průběhu knihoven, kde už dávno jste tam šli, pokud jste potřebovali něco najít, pokud jste potřebovali prozkoumat nějaké téma nebo vyhledat nějaké informace, šli jste do knihovny , a samozřejmě jste šli do katalogu karet nebo do krabí dámy, která tam pracovala. Ale bylo také zábavné se toulat po okolí, pokud jste se jen chtěli podívat, a určitě byste mohli jen objevit něco elegantního, můžete zjistit některá zajímavá fakta, o kterých jste nevěděli, ale pokud jste opravdu potřebovali něco najít, a věděli jste, co jste hledali, potřebovali jste katalog karet a podnikovým ekvivalentem je samozřejmě datový katalog, který může našim uživatelům pomoci osvětlit všechna data, aby naši uživatelé mohli obohacovat, objevovat, sdílet, konzumovat a opravdu lidem pomáhat získat k datům rychleji a snadněji.

Takže dnes jsme dostali Dez Blanchfielda, našeho vlastního vědce v oblasti dat, a máme doktora Robina Bloora, našeho vlastního hlavního analytika, který dostal Davida Crawforda z Alation, který bude mluvit o příběhu své společnosti o katalogizaci dat, ale nejdřív půjdeme vést s Dezem. Dezi, předávám ti míč a podlaha je tvoje.

Dez Blanchfield: Děkuji vám, děkuji, že jste mě dnes dostali. To je věc, o kterou se nesmírně zajímám, protože téměř v každé organizaci, se kterou se setkávám ve své každodenní práci, narazím na stejný problém, o kterém jsme se velmi krátce bavili v předváděčce, a to je to, že většina organizací, které podnikají déle než několik let, má v organizaci uloženo velké množství dat, různé formáty a ve skutečnosti mám klienty, kteří mají datové sady, které se vracejí zpět do Lotus Notes, databází, které jsou stále spuštěny v některých případy, jako jsou jejich pseudo internety, a oni se všichni potýkají s touto výzvou, aby skutečně zjistili, kde jsou jejich data, a jak k nim získat přístup, kdo jim poskytne přístup, kdy k nim má přístup a jak spravovat katalog a jak se dostat na místo, kde každý může: A) být si vědom toho, co tam je a co je v něm, a B), jak k němu získat přístup a používat jej. A jednou z největších výzev je samozřejmě nalezení, druhou velkou výzvou je vědět, co tam je a jak k němu přistupovat.

Možná dobře vím, že mám desítky databází, ale vlastně nevím, co je tam nebo jak zjistit, co tam je, a tak neustále, když objevujeme data v pre-show, máte tendenci chodit kolem kanceláře a klást otázky a křičet přes krychlové zdi a zkoušet a přijít na to, často moje zkušenost je, že můžete dokonce zjistit, že jste putovali pryč k recepci, recepci a ptali se, jestli někdo ví, kdo jste ' budu mluvit. Poměrně často to není vždycky lid IT, protože neví o datové sadě, protože ji někdo právě vytvořil, a mohlo by to být něco jednoduchého jako - docela často najdeme projekt nějakého druhu, který stojí v IT prostředí a projektový manažer použil tabulku všech věcí a získal obrovské množství cenných informací o majetku a koncích a jménech. Pokud tento projekt neznáte a neznáte toho člověka, tyto informace prostě nemůžete najít. Je to prostě není k dispozici, a musíte se chytit, že původní soubor.

Existuje fráze, která byla zakázána s ohledem na data, a já s tím nemusím nutně souhlasit, ale myslím, že je to roztomilý malý únik a to je to, že určité množství lidí si myslí, že data jsou nový olej, a jsem si jist, že Pokryju to v jistém aspektu, později dnes. Všiml jsem si však, jistě, že součástí této transformace je, že organizace podniků, které se naučily hodnotit svá data, získaly oproti svým konkurentům významnou výhodu.

Asi před pěti nebo šesti lety byl IBM zajímavý dokument, který prozkoumal asi 4 000 společností zde v Austrálii a vzali všechny informace, všechny údaje o výkonu, všechna finanční data a dali je dohromady do vroucího hrnce a poté poslali ji na australskou ekonomickou školu a ve skutečnosti zde začali běžný trend, a to je to, že společnosti, které využívají technologii, vždy získaly takovou konkurenční výhodu oproti svým vrstevníkům a konkurentům samy o sobě, že jejich konkurenti téměř nikdy dohoní, a myslím, že to je nyní hodně v případě dat, která jsme viděli, co lidé nazývají digitální transformací, kde organizace, které jasně zjistily, jak najít data, která mají, zpřístupňují tato data a zpřístupňují je v některých velmi snadno spotřebovatelných móda pro organizaci, aniž by vždy věděla, proč ji organizace může potřebovat, a získat významnou výhodu nad konkurencí.

Na tomto snímku mám několik příkladů, které můžete vidět. Moje jediná sestava je, že rozsáhlé narušení téměř v každém průmyslovém odvětví je podle mého názoru poháněno údaji, a pokud současné trendy mají co jít, můj názor je, že jsme se opravdu dostali začalo, protože když se dlouhodobé značky konečně probudí, co to znamená a vstoupí do hry, vstoupí do hry za velkoobchod. Když začnou někteří hlavní prodejci, kteří mají data, začít na data používat nějakou historickou analýzu, pokud vůbec vědí, že existuje, pak někteří z online hráčů dostanou trochu buzení.

Ale s mnoha z většiny těchto značek mám na mysli, že máme Ubera, který je největší taxislužbou na světě. Nevlastní žádné taxíky, takže co z nich dělá kouzla, jaké jsou jejich údaje? Airbnb, největší poskytovatel ubytování, máme WeChat, největší telefonní společnost na světě, ale nemají žádnou skutečnou infrastrukturu a žádné telefony, žádné telefonní linky. Alibaba, největší prodejce na této planetě, ale žádný z nich nevlastní. , největší mediální společnost ve slově. Myslím, že v poslední době měli nyní 1,4 miliardy aktivních uživatelů dat, což je ohromující číslo. Není to nikde poblíž - myslím, že někdo tvrdil, že tam každý den skutečně existuje čtvrtina planety, a přesto zde je poskytovatel obsahu, který obsah vlastně nevytváří, všechna data, která slouží, nejsou jimi vytvořena, jsou vytvářena jejich předplatitelé a všichni známe tento model.

SocietyOne, o kterém jste nebo možná neslyšeli, je to místní značka, myslím si, že v několika zemích je to banka, která skutečně poskytuje půjčky typu peer-to-peer, takže jinými slovy, nemá peníze. Vše, co dělá, je to, že řídí transakce a data jsou umístěna pod nimi. Netflix, jsme s tím všichni velmi dobře obeznámeni. Je zde zajímavá obšívka. Když bylo Netflix legálně použitelné v Austrálii, když to bylo oficiálně oznámeno, nemuseli jste k tomu používat VPN, mnoho lidí po celém světě má tendenci - pokud se k němu nemůžete dostat ve vaší místní oblasti - když Netfix byl spuštěn v Austrálii, zvýšil mezinárodní šířku pásma na našich internetových odkazech o 40 procent, takže téměř přes noc zdvojnásobil využití internetu v Austrálii, a to pouze jednou aplikací, jednou aplikací hostovanou v cloudu, která nedělá nic jiného než hrát s daty. Je to jen ohromující statistika.

A samozřejmě, že jsme všichni dobře obeznámeni s Apple a Google, ale jedná se o největší softwarové firmy na planetě, ale tyto aplikace vlastně nepíšou. Co je konzistentní se všemi těmito organizacemi? Jsou to data a oni se tam nedostali, protože nevěděli, kde jsou jejich data, a nevěděli, jak je katalogizovat.

Nyní zjišťujeme, že je celá tato nová třída aktiv označována jako data a společnosti se jí probouzí. Nemají však vždy nástroje a know-how a proto mapovat všechna tato data, katalogizovat všechna tato data a zpřístupnit je, ale zjistili jsme, že společnosti s téměř žádnými fyzickými aktivy v rekordním čase získaly vysokou tržní hodnotu. prostřednictvím této nové třídy datových aktiv. Jak jsem řekl, někteří ze starých hráčů se nyní probudí a určitě to vyvedou ven.

Jsem velkým fanouškem, že vezmu lid na trochu cesty, takže v osmnácti stovkách, pozdních osmnácti stovkách, a ty se s tím na americkém trhu více než obeznámíš, ukázalo se, že to povede ke sčítání lidu každý rok je asi myslím, že je v tom okamžiku řídili každých deset let, ale pokud se chystáte každý rok sčítání lidu, mohlo by to trvat až osm nebo devět let, než bude analýza dat skutečně probíhat. Ukázalo se, že tato sada dat pak zůstala v krabicích na místech v papíru a téměř nikdo ji nemohl najít. Prostě stále čerpali tyto zprávy, ale ke skutečným datům bylo velmi těžké se dostat, máme podobnou situaci s jiným světově významným okamžikem, kolem 40. let 20. století, s druhou světovou válkou, a tato věc je, že Bletchley Park Bombe hláskoval BOMBE , a byl to obrovský analytický nástroj, který procházel malými čísly, procházel malými datovými soubory a hledal v něm signály, a používal se jako pomůcka při rozbíjení kódů přes Enigma.

Tato věc byla opět v podstatě zařízením navrženým, ne příliš katalogizovat, ale označovat a mapovat data a umožnit pořizovat vzory a najít je uvnitř datových sad, v tomto případě rozbít kódy, najít klíče a fráze a najít pravidelně v souborech dat, a tak jsme prošli touto cestou hledání věcí v datech a vedli k katalogizaci dat.

A pak přišly tyto věci, tyto masivní levné regály strojů, jen stroje na skladě. A udělali jsme několik velmi zajímavých věcí a jednou z věcí, které jsme s nimi udělali, je, že jsme vytvořili klastry s velmi nízkými náklady, které by mohly začít indexovat planetu, a velmi skvěle tyto velké značky, které přicházejí a odcházejí, ale pravděpodobně je Google nejběžnějším domovem značka, o které jsme všichni slyšeli - stalo se skutečným slovesem a víte, že jste úspěšní, když se z vaší značky stane sloveso. Ale to, co nás Google naučil, aniž by si to uvědomil, možná v obchodním světě, je to, že dokázali indexovat celou planetu na určitou úroveň a katalogizovat data, která byla po celém světě, a zpřístupnit je velmi snadno, pohodlný formulář v malém malém jednořádkovém vzorci, webová stránka s téměř ničím na něm, a zadáte svůj dotaz, jde a najde to, protože již prolezli planetu, indexovali ji a snadno ji zpřístupnili.

A to, co jsme si všimli, bylo: „Dobře, tak to děláme v organizacích - proč? Proč je to, že máme organizaci, která dokáže mapovat celou planetu a indexovat ji, procházet a indexovat ji a zpřístupnit ji, můžeme ji vyhledat a poté kliknout na věc a najít ji, jak to, že havent to udělal interně? “Takže existuje spousta těchto malých stojanů strojů po celém světě, které to nyní dělají pro intranety a hledají věci, ale stále se pořád jen potýkají s myšlenkou překročit tradiční webovou stránku, nebo souborový server.

Namísto toho, abychom nyní vstupovali do této další generace datového katalogu mnoha způsoby, není objevování přístupu k datům prostřednictvím poznámek post-it a konverzací vodních chladičů skutečně vhodnou metodou pro vyhledávání a katalogizaci dat a ve skutečnosti si nemyslím, že to někdy bylo . Už nemůžeme vést tuto celou výzvu k lidem, kteří pouze předávají poznámky, zveřejňují poznámky a chatují o tom. Nyní jsme dobře a skutečně mimo oblast, kde tento přístup genové generace ke katalogizaci dat přichází a odchází. Musíme to objmout. Pokud by to byl snadný problém, už bychom ho vyřešili mnoha způsoby dříve, ale domnívám se, že to není snadný problém, jen indexování a volání dat je pouze jeho součástí, protože jsme věděli, co je v datech, a vytvářeli metadata. kolem toho, co objevíme, a poté je zpřístupňujeme ve snadné a spotřební formě, zejména pro samoobsluhy a analýzy. Je to stále vyřešen problém, ale mnoho částí puzzle za pět let je dobře a skutečně vyřešeno a dostupné.

Jak víme, katalogizace dat pro lidi je receptem na selhání, protože lidská chyba je jednou z největších nočních můr, se kterými se zabýváme ve zpracování dat, a pravidelně o tomto tématu hovořím, kde podle mého názoru jsou lidé vyplňování papírových formulářů pravděpodobně největší noční můrou zabýváme se velkými daty a analytikou, abychom neustále opravovali věci, které dělají, a to i po jednoduchých věcech, jako jsou data a pole, lidé uvádějící nesprávný formát.

Ale jak jsem řekl, viděli jsme internetové vyhledávače indexovat svět každý den, takže nyní se dostáváme k myšlence, že to lze udělat na souborech obchodních dat v procesu objevování, a nástroje a systémy jsou nyní snadno dostupné, protože se dnes chystáte něco naučit. Trik je tedy podle mého názoru výběrem správných nástrojů, nejlepších nástrojů pro danou práci. A co je ještě důležitější, najděte tu správnou část, která vám pomůže začít touto cestou. A věřím, že o tom dneska uslyšíme, ale než to uděláme, půjdu na svou vysokou školu Robin Bloor a uslyším jeho názor na toto téma. Robine, můžu tě předat?

Robin Bloor: Ano, určitě můžete. Uvidíme, jestli to funguje, ano ano. Dobře, pocházím z jiného směru než Dez, ale nakonec skončím na stejném místě. Jde o připojení k datům, tak jsem si myslel, že bych procházel realitou připojení k datům, skutečně bod po bodu.

Je fakt, že data jsou více roztříštěná, než kdy byla. Objem dat fenomenálně roste, ale ve skutečnosti různé zdroje dat také rostou neuvěřitelnou rychlostí, a proto se data stále více fragmentují. Ale zejména kvůli analytickým aplikacím - ale nejedná se pouze o aplikace - máme opravdu dobrý důvod připojit se ke všem těmto datům, takže jsme uvízli na obtížném místě, uvízli jsme ve světě fragmentovaných dat, a v datech je příležitost, jak tomu říkal Dez, nový olej.

Co se týče dat, tak to bývalo na rotujícím disku, buď v souborových systémech nebo v databázích. Nyní žije v mnohem rozmanitějším prostředí, žije v souborových systémech, ale v současnosti také žije v instancích Hadoop nebo dokonce v případech Spark. Žije ve více druzích databáze. Není to tak dávno, co jsme standardizovali nějakou relační databázi, víte, že za posledních pět let vyšlo okno, protože existuje potřeba databází dokumentů a grafových databází, takže víte, že hra má změněno. Takže to žilo na rotujícím disku, ale nyní žije na SSD. Nejnovější množství SSD - určitě nejnovější jednotka SSD vychází z Samsungu - dvacet gigabajtů, což je obrovské. Nyní to žije v paměti, v tom smyslu, že prvotní kopie dat může být v paměti, spíše než na disku, my jsme zvykli stavět takové systémy; my teď. A žije v cloudu. Což znamená, že může žít v jakékoli z těchto věcí, v cloudu, nemusíte vědět, kde je v cloudu, budete mít pouze jeho adresu.

Hadoop, jen aby se dostal do cíle, zatím selhal jako rozšiřitelný datový sklad. Doufali jsme, že se to stane rozšiřitelným datovým úložištěm a bude to jen jeden souborový systém pro všechno a bude - duhy se objeví na obloze, v podstatě a jednorožci se budou tančit kolem, a nic z toho se nestalo. Což znamená, že jsme skončili s problémem s přenosem dat a občas není nutný přenos dat, ale je to také obtížné. Data mají v dnešní době opravdu gravitaci, jakmile se dostanete do multi-terabajtů dat, sbíráte je a házíte je, způsobuje latence, které se objevují ve vaší síti nebo se objevují na různých místech. Pokud chcete data přenášet, je načasování faktorem. V dnešní době existují téměř vždy určitá omezení, kolik času musíte na jednu věc, na jednu data z jednoho místa na druhé. Bývaly to, co jsme si mysleli jako dávková okna, když byl stroj trochu nečinný, a bez ohledu na to, kolik dat jste měli, mohli byste je prostě hodit a všechno by fungovalo. No, to je pryč, žijeme v mnohem realističtějším světě. Proto je načasování faktorem. Jakmile chcete data přesouvat, takže pokud mají data gravitaci, pravděpodobně je nemůžete přesunout.

Správa dat je faktorem v tom smyslu, že jste vlastně museli spravovat všechna tato data, nemáte to zdarma, a replikace může být nezbytná k tomu, abychom skutečně získali data, aby mohli dělat práci, kterou potřebuje, protože to může nebuďte kdekoli. Nemusí mít dostatečné zdroje k tomu, aby provedl normální zpracování dat. Data se tedy replikují a data se replikují více, než byste si představovali. Myslím, že mi někdo už dávno řekl, že průměrná část dat je replikována nejméně dvakrát a půlkrát. ESB nebo Kafka představují možnost toku dat, ale v dnešní době to vyžaduje architekturu. V dnešní době opravdu potřebujete přemýšlet o tom, co to vlastně znamená házet data. Proto je obvykle výhodnější přístup k datům tam, kde jsou, pokud ovšem můžete získat výkon, který potřebujete, když skutečně jde o data a to závisí na kon. Takže je to stejně obtížná situace. Pokud jde o datové dotazy, bývali jsme schopni myslet z hlediska SQL, vždyť přijde opravdu nyní, víte, různé formy dotazů, SQL ano, ale sousední, také grafové dotazy, Spark je jen jedním z příkladů grafu , protože také musíme hledat, více než kdy předtím, také regexový typ vyhledávání, což je opravdu složité hledání vzorů a skutečné párování vzorů, všechny tyto věci ve skutečnosti probublávají. A všechny z nich jsou užitečné, protože vás dostanou, co hledáte, nebo vás mohou dostat to, co hledáte.

Dotazy nyní pokrývají několik dat, takže to nikdy neudělal, a často je výkon děsivý, pokud to uděláte. To záleží na okolnostech, ale lidé očekávají, že budou moci dotazovat data z více zdrojů dat, takže federace dat jednoho nebo druhého druhu se stává stále aktuálnější. Virtualizace dat, která je v závislosti na výkonu jiným způsobem, je také velmi běžná. Dotazy na data jsou ve skutečnosti součástí procesu, nikoli celého procesu. Stojí za to poukázat na to, že pokud se skutečně díváte na analytický výkon, může skutečná analytika trvat mnohem déle než shromažďování dat, protože to závisí na okolnostech, ale datové dotazy jsou naprosto nezbytné, pokud chcete dělat jakékoli analytika na více zdrojích dat, a to prostě musíte mít schopnosti, které pokrývají.

Takže o katalogech.Katalogy existují z nějakého důvodu, přinejmenším říkáme, že, víte, jeho, máme adresáře a máme schémata v databázích, a máme každý katalog a máme, ať jste kdekoli, najdete jedno místo a pak skutečně zjistíte, že existuje nějaký druh katalogu a sjednocený globální katalog je zjevně dobrý nápad. Ale jen velmi málo společností má takovou věc. Pamatuji si, že v roce dva tisíce - panika roku dva tisíce - si pamatuji, že komunisté nedokázali ani zjistit, kolik spustitelných souborů měli, nevadí, kolik různých datových úložišť měli, a je to pravděpodobně nyní teď vědí, že většina společností aktivně neví v globálním smyslu, jaká data mají. Je zřejmé, že je stále nezbytnější mít skutečně globální katalog, nebo alespoň mít globální obraz o tom, co se děje kvůli růstu zdrojů dat a neustálému růstu aplikací, a to je zvláště nutné pro analytiku, protože také jedním způsobem, a existují zde další problémy, jako je počet řádků a problémy s daty, a je to nezbytné pro bezpečnost, mnoho aspektů správy dat, pokud opravdu nevíte, jaká data máte, myšlenku, že budou vládnout, že je prostě absurdní. Takže v tomto případě jsou všechna data nějakým způsobem katalogizována, je to jen fakt. Otázkou je, zda je katalog soudržný a co vlastně s ním můžete dělat. Takže se vrátím zpět k Rebecce.

Rebecca Jozwiak: Dobře, díky Robin. Až budeme mít Davida Crawforda z Alation, Davida, půjdu dopředu a předám vám míč a vy ho můžete vzít pryč.

David Crawford: Děkuji mnohokrát. Opravdu si cením toho, že mě máte na této show. Myslím, že to začnu, takže si myslím, že mojí úlohou je vzít si tu teorii a zjistit, jak se skutečně používá, a výsledky, které jsme schopni řídit u skutečných zákazníků, a tak můžete vidět pár na snímku, chci mluvit o tom, jaké výsledky budeme moci vidět v analytické možná vylepšení. Abychom tuto diskusi motivovali, budeme mluvit o tom, jak se tam dostali. Mám tedy štěstí, že mohu velmi úzce spolupracovat se spoustou opravdu chytrých lidí, těchto zákazníků, a chci jen poukázat na pár, kteří byli schopni skutečně měřit, a hovořit o tom, jak datový katalog ovlivnil jejich analytiky. Pracovní postup. A abych jen stručně zůstal na frontě, myslím, že jednou z věcí, které vidíme změnit, s datovými katalogy versus předchozími zprostředkovaná řešení a jedním ze způsobů, jak si vztahy skutečně myslí o řešeních, která jsme dali dohromady, je začít od analytiků a pracovat zpět. Řekněme to o tom, jak povolit produktivitu analytiků. Na rozdíl od pouhé shody s předpisy nebo na rozdíl od pouhé inventury děláme nástroj, který zvyšuje produktivitu analytiků.

Takže, když mluvím s datovým vědcem ve společnosti Financial Services Company Square, je tu chlápek, Nicke, který nám vyprávěl o tom, jak jeho, zabral několik hodin, než našel ten správný datový soubor, aby mohl sestavit zprávu, nyní může udělejte to během několika vteřin pomocí vyhledávání podle podílu na trhu, mluvili jsme s jejich CTO, který vytáhl jeho analytiky, kteří používali Square, promiňte, používal Alation, abychom zjistili, jaké jsou jejich, jaké výhody viděli, a oznámili 50 procenta zvýšení produktivity a že jeden z nejlepších světových maloobchodníků, eBay, má přes tisíc lidí, kteří pravidelně provádějí analýzu SQL, a já tam docela úzce spolupracuji s Deb Says, kdo je projektem manažerka v jejich týmu datových nástrojů, a zjistila, že když dotazující přijmou Alation, přijmou katalog, vidí dvojnásobnou rychlost psaní nových dotazů do databáze.

Takže to jsou skutečné výsledky, to jsou lidé, kteří skutečně používají katalog ve své organizaci, a já vás chci seznámit s tím, co je potřeba k nastavení. Jak se katalog zavede ve společnosti a možná nejdůležitější je říct, že se toho hodně stává automaticky, takže Dez mluvil o systémech, učení o systémech a to je přesně to, co dělá moderní datový katalog. Nainstalují tedy Alation do svého datového centra a poté jej připojí k různým zdrojům metadat v jejich datovém prostředí. Trochu se zaměřím na databáze a nástroje BI - z obou těchto budeme extrahovat technická metadata, v podstatě o tom, co existuje. Dobře, tak jaké tabulky? Jaké zprávy? Jaké jsou definice zprávy? Proto extrahují tato technická metadata a automaticky se vytvoří katalogová stránka pro každý objekt uvnitř těchto systémů, a poté také extrahují a navrstvují nahoře tato technická metadata, navrstvují nahoře data použití. To se děje především čtením protokolů dotazů z databáze, což je opravdu zajímavý zdroj informací. Takže kdykoli analytik napíše dotaz, kdykoli nástroj pro vytváření přehledů, ať už je to domácí pěstování nebo mimo regál, zda nástroj pro vytváření přehledů spustí dotaz za účelem aktualizace řídicího panelu, když aplikace spustí dotaz, aby vložila data, na která se má pracovat soubor dat - všechny tyto věci jsou zachyceny v protokolech dotazů databáze. Ať už máte katalog nebo ne, jsou zachyceny v protokolu dotazů s databází. Co může dátový katalog udělat, a zejména to, co může katalog Alations udělat, je přečíst si tyto protokoly, zeptat se na ně uvnitř, a na základě těchto protokolů vytvořit opravdu zajímavý graf využití, a my to uvedeme do hry, abychom informovali budoucí uživatele. údajů o tom, jak je uživatelé v minulosti použili.

Takže všechny tyto znalosti spojujeme do katalogu a jen proto, aby se to stalo skutečností, jedná se o integrace, které jsou již nasazeny u zákazníků, takže jsme viděli Oracle, Teradata, Redshift, Vertica a spoustu dalších relační databáze. Ve světě Hadoop existuje řada SQL na Hadoopu, jakýsi relační, meta obchody na vrcholu systému souborů Hadoop, Impala, Tez, Presto a Hive, také jsme byli svědky úspěchu u soukromých poskytovatelů cloudu Hadoop jako Altiscale a my se také mohli připojit k serverům Tableau, serverům MicroStrategy a indexovat dashboardy tam, stejně jako integrace s nástroji pro mapování dat, jako je Plotly.

Připojujeme se tedy ke všem těmto systémům, připojujeme tyto systémy k zákazníkům, zatahujeme do technických metadat, zatahujeme do dat o použití, a tak trochu automaticky připravujeme datový katalog, ale tímto způsobem centralizovat znalosti, ale pouze centralizovat věci do datového katalogu, samo o sobě neposkytuje ty opravdu skvělé zvýšení produktivity, o kterých jsme hovořili s eBay, Square a podílem na trhu. Abychom toho mohli dosáhnout, musíme skutečně změnit způsob, jakým uvažujeme o poskytování znalostí analytikům. Jednou z otázek, na které se na to připravují, bylo: „Jak katalog skutečně ovlivňuje pracovní postup analytiků?“

To je to, co trávíme celý den přemýšlením, a abych mluvil o této změně v myšlení, o push versus pull modelu, chtěl jsem udělat rychlou analogii s tím, jaký byl svět před a po přečtení na Kindle. Takže je to jen zážitek, který někteří z vás mohou mít, když čtete fyzickou knihu, narazíte na slovo, nejste si jisti, že znáte definici toho slova super dobře, můžete to uhádnout z kon, ne tak pravděpodobné, že jdou vstát z gauče, jít do své knihovny, najít svůj slovník, poprášit ho a převrátit na správné místo v abecedním seznamu slov, aby se ujistil, že ano, měli jste tuto definici v pořádku a víte nuance toho. Takže se to opravdu nestane. Takže si koupíte aplikaci Kindle a začnete tam číst knihy a uvidíte slovo, o kterém si nejste úplně jisti, a dotknete se ho. Najednou, právě na stejné obrazovce, je definice slovníku slovo, se všemi jeho nuancemi, různými příklady použití, a trochu přejedete prstem a získáte článek na toto téma z Wikipedie, znovu přejdete prstem, získáte překladatelský nástroj, který jej dokáže přeložit do jiných jazyků nebo z jiných jazyků, a najednou vaše znalost jazyka je mnohem bohatší, a to se stává jen ohromující početkrát, ve srovnání s tím, kdy jste museli jít a vytáhněte tento zdroj pro sebe.

A tak se chystám argumentovat, že pracovní postup analytika a způsob, jakým se analytik bude zabývat datovou dokumentací, je ve skutečnosti velmi podobný tomu, jak čtenář bude komunikovat se slovníkem, ať už fyzickým, nebo i když Kindle, a tak co my, způsob, jakým jsme skutečně viděli toto zvýšení produktivity, není rozlití katalogu, ale jeho propojení s pracovním tokem analytika, a tak mě požádali, abych provedl demo, a já chci aby se tato prezentace zaměřila na tuto prezentaci. Ale já jen chci sestavit kužel pro demo. Když přemýšlíme o nasměrování znalostí o údajích k uživatelům, když je potřebují, myslíme si, že je to správné místo, místo, kde tráví svůj čas a kde provádějí analýzu, je dotazovací nástroj SQL. Místo, kde můžete psát a spouštět dotazy SQL. A tak jsme jeden vytvořili, a postavili jsme jej, a věc, která se na něm opravdu liší od ostatních nástrojů pro dotazování, je jeho hluboká integrace s katalogem dat.

Náš vyhledávací nástroj se tedy nazývá Alation Compose. Je to webový dotazovací nástroj a já vám to za sekundu ukážu. Webový dotazovací nástroj, který funguje ve všech logách databáze, které jste viděli na předchozím snímku. Zejména se pokusím ukázat způsob, jakým informace o katalogu přicházejí k uživatelům. A to prostřednictvím těchto tří různých způsobů. Dělá to prostřednictvím zásahů, a to je situace, kdy někdo, kdo je guvernérem dat nebo správcem dat, nebo jakýmsi správcem nějakým způsobem, nebo manažerem, může říci: „Chci se do nějakého interuse vložit poznámkou nebo varováním v pracovní postup a ujistěte se, že je doručen uživatelům ve správný čas. “To je zásah a dobře to ukážte.

Inteligentní návrhy je způsob, jak nástroj používá všechny své agregované znalosti katalogu k navrhování objektů a částí dotazu, když jej píšete. Nejdůležitější věcí, které je třeba vědět, je to, že to opravdu využívá protokol dotazů, aby to provedlo, navrhnout věci založené na použití a také najít dokonce i části dříve napsaných dotazů. A dobře to ukázat.

A pak náhledy. Náhledy jsou, když píšete název objektu, vám ukážeme vše, co katalog zná, nebo alespoň nejdůležitější věci, které katalog o tomto objektu ví. Takže vzorky dat, které je dříve používaly, logické jméno a popis tohoto objektu, vás všechny při psaní píšou, aniž byste je museli žádat.

Takže bez dalšího mluvení se dostanu na demo a já jen počkám, až se objeví. To, co vám ukážu, je dotazovací nástroj. Je to vyhrazené rozhraní pro psaní SQL. Je to v určitém smyslu oddělené rozhraní od katalogu. Dez a Robin hovořili o katalogu a já jsem trochu skočil přes rozhraní katalogu přímo do toho, jak se to přivedlo přímo do služeb pracovního postupu.

Jen zde ukazuji místo, kde mohu psát SQL, a dole uvidíte, že se objevují nějaké informace o objektech, které odkazovaly. Takže já jen začnu psát dotaz a já se zastavím, když se dostanu k jednomu z těchto zásahů. Napíšu tedy „select“ a já chci rok. Chci jméno. A já se podívám na nějaké údaje o platech. Jedná se tedy o soubor údajů o vzdělávání. Má informace o vysokých školách a Im při pohledu na průměrný plat fakulty to je v jedné z těchto tabulek.

Takže jsem vlastně napsal slovo „plat“. Není to tak přesně ve jménu sloupce. K návrhům používáme jak logická metadata, tak fyzická metadata. A na co bych chtěl upozornit, je to žluté pole, které se zde objevuje. V tomto sloupci je uvedeno varování. Nehledal jsem to, nebral jsem třídu, jak správně používat tato data. Přišlo mi to a stalo se to varování před dohodou o mlčenlivosti, která souvisí s těmito údaji. Takže existují některá pravidla zveřejňování. Pokud budu dotazovat tato data, budu odebírat data z této tabulky, měl bych být opatrný, jak je zveřejním. Takže zde máte politiku správy. Existuje několik výzev v oblasti dodržování předpisů, které usnadňují dodržování těchto zásad, když o nich vím v době, kdy se dívám na data.

Takže jsem to dostal ke mně, a pak jsem se také podíval na výuku. A tady vidíme náhledy, které vstupují do hry. V tomto sloupci výuky vidím - je tam sloupec výuky v tabulce institucí a vidím jeho profil. Alace jde a táhne ukázková data z tabulek a v tomto případě mi ukazuje něco zajímavého. Ukazuje mi distribuci hodnot a ukazuje mi, že nulová hodnota se ve vzorku objevila 45krát a více než kterákoli jiná hodnota. Mám tedy nějaký smysl, že nám možná chybí některá data.

Pokud jsem pokročilý analytik, může to být již součástí mého pracovního postupu. Zejména pokud jsem obzvláště pečlivý, kde bych dopředu udělal spoustu profilovacích dotazů. Kdykoli se blížím k novému datu, vždy přemýšlím o tom, co je naše pokrytí dat. Ale pokud jsem nový v analýze dat, pokud jsem nový v této datové sadě, mohl bych předpokládat, že pokud existuje sloupec, jeho vyplnění po celou dobu. Nebo bych mohl předpokládat, že pokud není vyplněn, není to nula, jeho null nebo něco takového. Ale v tomto případě máme spoustu nul, a kdybych udělal průměr, pravděpodobně by se mýlili, kdybych jen předpokládal, že tyto nuly jsou ve skutečnosti nula místo chybějících dat.

Ale Alation, tím, že tento náhled do svého pracovního postupu, druh žádá, abyste se podívali na tyto informace a dává i druh začínajícím analytikům šanci vidět, že je něco, co si všimnout zde o těchto datech. Takže máme ten náhled.

Další věc, kterou budu dělat, je pokusit se zjistit, z jakých tabulek tyto informace získat. Takže zde vidíme chytré návrhy. Po celou dobu to fungovalo, ale zejména zde jsem ani nenapsal nic, ale navrhl mi, které tabulky bych pro tento dotaz chtěl použít. A co je nejdůležitější vědět o tom je, že využívá statistiky využití. Takže v prostředí, jako je například eBay, kde máte v jedné databázi stovky tisíc tabulek, je pro jejich výrobu opravdu důležité mít nástroj, který dokáže zasáhnout pšenici z plev a používat tyto statistiky využití. návrhy stojí za něco.

Takže to navrhne tuto tabulku. Když se podívám na náhled, ve skutečnosti zvýrazníme tři sloupce, které jsem již zmínil v dotazu. Takže vím, že to má tři, ale to nemá jméno. Musím získat jméno, takže se budu připojovat. Když se připojím, nyní mám opět tyto náhledy, které mi pomohou najít, kde je tabulka s názvem. Takže vidím, že tohle má pěkně formátované, druh řádně velkých písmen. Zdá se, že má pro každou instituci jeden řádek s názvem, takže to chci chytit a teď potřebuji podmínku připojení.

A tady tedy Alation dělá opět ohlížení zpět do protokolů dotazů, vidět předchozí časy, kdy byly tyto dvě tabulky spojeny, a navrhuje různé způsoby, jak se k nim připojit. Ještě jednou je zde nějaký zásah. Když se podívám na jeden z nich, dostal varování, které mi ukazuje, že by to mělo být použito pouze pro agregovanou analýzu. Pravděpodobně to povede ke špatné věci, pokud se snažíte něco udělat prostřednictvím instituce po instituci. Zatímco tato s OPE ID je schválena jako správný způsob spojení těchto dvou tabulek, pokud chcete data na univerzitní úrovni. Takže to dělám, a to je krátký dotaz, ale já jsem napsal svůj dotaz, aniž bych ve skutečnosti musel nahlédnout do toho, co jsou data. Nikdy jsem se vlastně nedíval na ER diagram tohoto datového souboru, ale o těchto datech vím už dost, protože mi přicházejí příslušné informace.

Jedná se tedy o tři způsoby, jak může katalog prostřednictvím integrovaného dotazovacího nástroje přímo ovlivnit pracovní postup při psaní dotazů. Jednou z dalších výhod integrace dotazovacího nástroje do katalogu je však to, že když dokončím svůj dotaz a uložím jej, mohu vložit název jako „Institucionální výuka a plat na fakultě“ a poté zde mám tlačítko, které umožňuje mi to pouze publikovat do katalogu. Je pro mě velmi snadné nakrmit to zpět. I když to nezveřejňuji, jeho zachycení je součástí protokolu dotazů, ale když je publikuji, ve skutečnosti se stane součástí způsobu, jakým centralizované místo, kde žijí veškeré znalosti o datech.

Takže pokud kliknu na Vyhledat všechny dotazy v Alation, budu přijata - a zde uvidíte další rozhraní katalogu - Im přijata k vyhledávacímu dotazu, který mi ukazuje způsob, jak najít dotazy v celé organizaci. A vidíte, že můj nově publikovaný dotaz je nahoře. A někteří si zde mohou všimnout, jak zachycujeme dotazy, také zachycujeme autory, a tak nějak vytvoříme tento vztah mezi mnou jako autorem a těmito datovými objekty, o kterých nyní vím něco. A já jsem ustanoven jako expert na tento dotaz a na tyto datové objekty. To je opravdu užitečné, když se lidé potřebují dozvědět něco o datech, pak mohou jít najít tu správnou osobu, o které se chtějí dozvědět. A pokud jsem ve skutečnosti nová data, ať už jsem pokročilý analytik - jako pokročilý analytik, mohl bych se na to podívat a vidět spoustu příkladů, které by mě přiměly začít s novou sadou dat. Jako někdo, kdo se nemusí cítit velmi důvtipný s SQL, mohu najít předem připravené dotazy, které jsou zprávy, které mohu využít.

Zde je jeden z Phil Mazanett o průměrných SAT skóre. Klikněte na toto a dostanu jakousi katalogovou stránku pro samotný dotaz. Hovoří o článku, který byl napsán a který odkazuje na tento dotaz, takže je zde nějaká dokumentace, kterou si mohu přečíst, pokud se chci naučit, jak jej používat. A mohu jej otevřít v dotazovacím nástroji kliknutím na tlačítko Vytvořit a mohu ho spustit sám, aniž bych jej upravoval. A ve skutečnosti uvidíte trochu našich lehkých možností vytváření přehledů, kde, když píšete dotaz, můžete upustit od proměnné šablony, jako je tato, a vytváří jednoduchý způsob, jak vytvořit formulář k provedení dotazu na základě pár parametrů.

To je to, co mám pro demo. Budu přepínat zpět na snímky.Jen pro shrnutí jsme ukázali, jak může správce, správce dat, zasáhnout upozorněním na objekty, které se zobrazují v dotazovacím nástroji, jak Alation využívá své znalosti o používání datových objektů k vytváření inteligentních návrhů, jak přináší v profilování a dalších tipech, jak zlepšit pracovní toky analytiků, když se dotýkají konkrétních objektů, a jak se všechny tyto druhy kanálů vracejí do katalogu při psaní nových dotazů.

Zjevně jsem mluvčím jménem společnosti. Budu říkat pěkné věci o katalogech dat. Pokud chcete slyšet přímo od jednoho z našich zákazníků, Kristie Allen v Safeway provozuje tým analytiků a má opravdu skvělý příběh o době, kdy potřebovala opravdu porazit hodiny, aby mohla uskutečnit marketingový experiment, a jak celá její tým použil Alation ke spolupráci a obratu v tomto projektu. Takže můžete sledovat tento bit.ly odkaz a zkontrolovat tento příběh, nebo pokud chcete slyšet něco o tom, jak Alation může přinést datový katalog do vaší organizace, rádi vám sestavíme přizpůsobené demo. Díky moc.

Rebecca Jozwiak: Díky moc, Davide. Jsem si jistý, že Dez a Robin mají pár otázek, než se obrátím k otázkám a odpovědím publika. Dez, chceš jít první?

Dez Blanchfield: Absolutně. Miluji myšlenku tohoto konceptu publikovaných dotazů a jejich propojení zpět se zdrojem autora. Byl jsem dlouholetým šampiónem této myšlenky interního obchodu s aplikacemi a myslím si, že je to opravdu skvělý základ, na kterém lze stavět.

Přišel jsem k nějakému nahlédnutí do některých organizací, které jste viděli dělat, a některé z úspěšných příběhů, které by mohli mít s celou celou cestu nejen využít svůj nástroj a platformu k objevování dat, ale také pak proměnit jejich vnitřní kulturní a behaviorální rysy. Nyní máme tento druh interního obchodu s aplikacemi, kde si jen stáhnete, což je koncept, kde jej nejenže najdou, ale ve skutečnosti mohou začít rozvíjet malé komunity s chovateli těchto znalostí.

David Crawford: Jo, myslím, že jsme byli překvapeni. Věříme v hodnotu sdílení dotazů, a to jak z mé minulosti jako produktového manažera v Adtech, tak od všech zákazníků, se kterými jsme hovořili, ale stále jsem byl překvapen, jak často je jeho jednou z prvních věcí, se kterou zákazníci mluví jako hodnotu, kterou dostanou z Alation.

Dělal jsem nějaké uživatelské testování dotazovacího nástroje u jednoho z našich zákazníků, který se jmenoval Invoice2go, a měli produktového manažera, který byl relativně nový, a řekli - ve skutečnosti mi během uživatelského testu řekl: „Vlastně bych nepsal SQL vůbec kromě toho, že to bylo snadné pomocí Alation. “A samozřejmě, jako PM, tak nějak,„ Co tím myslíš, jak jsme to udělali? “A řekl:„ No, opravdu je to jen proto, že jsem se mohu přihlásit a vidím všechny tyto existující dotazy. “Počínaje prázdnou tabulkou s SQL je neuvěřitelně těžké udělat, ale upravit existující dotaz, kde můžete vidět výsledek, který je vydán, a můžete říct:„ Ach „Potřebuji pouze tento sloupec navíc“ nebo „Potřebuji filtrovat do určitého rozsahu dat“, což je mnohem jednodušší.

Weve viděl některé z těchto pomocných rolí, jako jsou produktoví manažeři, možná lidé v prodejních operacích, kteří se začínají vyzvedávat a kteří se vždy chtěli naučit SQL a začít ho vyzvedávat pomocí tohoto katalogu. Weve také viděl, že mnoho společností se pokusilo udělat nějaký open source. Snažil jsem se tyto věci budovat interně, kde sledují dotazy a zpřístupňují je, a je zde něco opravdu náročného designu, aby byly užitečné. má interní nástroj, který nazývali HiPal, který zachytil všechny dotazy napsané na Úlu, ale zjistíte, že pokud nezatěžujete uživatele správným způsobem, stačí skončit s velmi dlouhým seznamem vybraných příkazů. A jako uživatel, který se snaží zjistit, zda je dotaz pro mě užitečný, nebo je-li jeho nějaký dobrý, pokud se prostě podívám na dlouhý seznam vybraných výroků, bude mi to trvat mnohem déle, než se tam dostanu něco z hodnoty, než začínat od nuly. Pečlivě jsme přemýšleli o tom, jak vytvořit katalog dotazů, který přináší správné věci na frontu a poskytuje jej užitečným způsobem.

Dez Blanchfield: Myslím, že všichni procházíme touto cestou od velmi mladého věku do dospělosti mnoha způsoby. Spousta technologií. Já osobně jsem prošel tou samou pravou věcí, jako když jsem se naučil řezat kód. Prošel jsem časopisy a potom knihami a studoval jsem na určitou úroveň, pak jsem musel jít a vlastně na to získat další školení a vzdělání.

Ale neúmyslně jsem zjistil, že i když jsem šel od výuky sebe a čtení časopisů a čtení knih a sekání dalších programů pro lidi a odchodu do kurzů, stále jsem se nakonec učil tolik z kurzů, jako jsem mluvil jen s ostatními lidé, kteří měli nějaké zkušenosti. A myslím si, že je to zajímavý objev, který nyní, když to přinesete analytice dat, v podstatě viděl stejnou paralelu, že lidské bytosti jsou vždy docela chytré.

Druhou věcí, kterou opravdu chci pochopit, je, na velmi vysoké úrovni, mnoho organizací se zeptat: „Jak dlouho trvá, než se dostaneme k tomuto bodu?“ Jaký je časový bod zvratu, když lidé získají vaši platformu? nainstalovali a začali objevovat typy nástrojů? Jak rychle se lidé prostě dívají, jak se tato věc mění ve skutečně okamžitý „a-ha“ okamžik, kdy si uvědomí, že se ani nestarají o návratnost investic, protože je to tam, ale nyní skutečně mění způsob, jakým podnikají? A objevili ztracené umění a očekávají, že s tím dokážou něco opravdu, opravdu se bavit.

David Crawford: Jo, trochu se toho dotknu. Myslím, že když se nainstalujeme, jedna z hezkých věcí, jedna z věcí, které se lidem líbí o katalogu, který je přímo připojen k datovým systémům, je to, že nezačnete prázdné místo, kde jej musíte vyplnit. stránka. A to je pravda o předchozích datových řešeních, kde byste začínali prázdným nástrojem a musíte začít vytvářet stránku pro vše, co chcete dokumentovat.

Protože dokumentujeme tolik věcí automaticky extrahováním metadat, v zásadě během několika dní po instalaci softwaru, můžete si v nástroji vytvořit obrázek vašeho datového prostředí, což je nejméně 80 procent. A pak si myslím, že jakmile lidé začnou psát dotazy pomocí tohoto nástroje, automaticky se ukládají zpět do katalogu, a tak se začnou také zobrazovat.

Nechci být příliš nadšený, když to uvedu. Myslím, že dva týdny jsou docela dobrý konzervativní odhad na měsíc. Dva týdny až měsíc, konzervativní odhad skutečného obratu a pocitu, že z toho získáváte hodnotu, jako byste začínali sdílet nějaké znalosti a mohli tam chodit a zjistit věci o vašich datech.

Dez Blanchfield: Je to docela úžasné, opravdu, když o tom přemýšlíte. Skutečnost, že některé z velkých datových platforem, které účinně indexujete a katalogizujete, bude někdy trvat až řádně implementovat a nasadit a postavit se.

Poslední otázka, kterou pro vás mám, než jsem ji předal Robin Bloorovi, jsou konektory. Jedna z věcí, která na mě okamžitě vyskočí, je, že jsi zjevně celou tu výzvu vyřešil. Takže existuje pár otázek opravdu rychle. Jeden, jak rychle se konektory implementují? Samozřejmě začnete s největší platformou, jako jsou Oracles a Teradata atd. A DB2. Jak ale pravidelně vidíte nové konektory a jak dlouho to trvá? Představuji si, že pro ně máte standardní rámec. A jak hluboko do nich chodíš? Například Oracles a IBM světa, a dokonce i Tereadata, a pak některé z populárnějších pozdních open-source platforem. Pracují přímo s vámi? Objevujete to sami? Musíte mít vnitřní znalosti na těchto platformách?

Jak to vypadá, jak se vyvíjí konektor a jak hluboko se zapojíte do těchto partnerství, abyste zajistili, že tyto konektory objevují vše, co můžete?

David Crawford: Jo, určitě, je to skvělá otázka. Myslím, že z velké části můžeme konektory vyvinout. Určitě jsme to udělali, když jsme byli mladší startup a neměli jsme zákazníky. Spoje můžeme určitě rozvíjet, aniž bychom potřebovali jakýkoli interní přístup. Nikdy nezískáme žádný zvláštní přístup k datovým systémům, které nejsou veřejně dostupné, a často bez nutnosti jakýchkoli interních informací. Využíváme služeb metadat dostupných samotnými datovými systémy. Často mohou být docela složité a obtížně s nimi pracovat. Znám zejména SQL Server, způsob, jakým spravují protokol dotazů, existuje několik různých konfigurací a je to něco, s čím opravdu musíte pracovat. Musíte pochopit nuance a knoflíky a číselníky na to správně nastavit, a to je něco, co pracujeme se zákazníky na od té doby, co to udělal několikrát předtím.

Ale do jisté míry je to jeho druh veřejných API, která jsou k dispozici, nebo veřejná rozhraní, která jsou k dispozici, která využíváme. Máme partnerství s několika těmito společnostmi, což je většinou důvodem pro certifikaci, aby se cítili pohodlně, když říkáme, že pracujeme, a také nám mohou poskytnout zdroje pro testování, někdy i včasný přístup, možná k platformě, která vyjde, abychom se ujistili, že pracujeme na nových verzích.

Abych změnil nové spojení, řekl bych znovu, snažím se být konzervativní, řekněme šest týdnů až dva měsíce. Záleží na tom, jak je to podobné. Některé Postgreovy práce tak vypadají velmi podobně jako Redshift. Redshift a Vertica sdílejí spoustu detailů. Takže můžeme tyto věci využít. Ale jo, šest týdnů až dva měsíce by bylo fér.

Máme také API, takže - myslíme také na Alaci jako na metadatovou platformu, takže pokud pro nás nejsou k dispozici nic, co bychom mohli oslovit a automaticky popadnout, existují způsoby, jak můžete sami napsat konektor a vložit jej do našeho systému, takže že se vše stále centralizuje do jediného vyhledávače.

Dez Blanchfield: Fantastický. Oceňuji, že. Tak to šli předat Robinovi, protože jsem si jistý, že má také spoustu otázek. Červenka?

Rebecca Jozwiak: Robin může být ztlumený.

Dez Blanchfield: Dostal jsi se na mute.

Robin Bloor: Jo, správně. Promiň, já jsem ztlumil sebe. Když to provedete, jaký je postup? Jsem trochu zvědavý, protože na mnoha místech může být mnoho dat. Jak to tedy funguje?

David Crawford: Ano samozřejmě. Vstoupíme do procesu IT, nejprve se ujistíme, že jsou naše servery zajištěny a zda jsou k dispozici síťová připojení, že jsou otevřené porty, abychom mohli skutečně přistupovat k systémům. Všichni často vědí, se kterými systémy chtějí začít. Znalost uvnitř datového systému, který - a někdy jim vlastně pomůžeme. Pomozte jim jít udělat úvodní pohled do jejich protokolu dotazů, abyste pochopili, kdo používá to, co a kolik uživatelů má v systému. Pomohou také zjistit, kde - často, pokud mají stovky nebo tisíce lidí, kteří by se mohli přihlásit do databází, ve skutečnosti nevědí, kde se přihlašují, takže můžeme z dotazů zjistit, kolik jedinečných uživatelských účtů skutečně jste se přihlásili a prováděli dotazy zde zhruba za měsíc.

Můžeme to využít, ale často jen u těch nejdůležitějších. Necháme je nastavit a pak je zde proces říkat: „Umožňuje prioritu.“ Existuje řada aktivit, které se mohou stát paralelně. Zaměřil bych se na školení pro používání dotazovacího nástroje. Jakmile lidé začnou používat dotazovací nástroj, v první řadě mnoho lidí miluje skutečnost, že je to jediné rozhraní ke všem jejich různým systémům. Milují také skutečnost, že jeho webová aplikace nezahrnuje žádné instalace, pokud to nechtějí. Z hlediska bezpečnosti se jim líbí mít jediný vstupní bod, ze síťového hlediska, mezi jakýmsi korpusovým IT sítí a datovým centrem, kde žijí produkční zdroje dat. A tak nastaví Alation jako dotazovací nástroj a začnou používat Compose jako přístupový bod pro všechny tyto systémy.

Jakmile se tak stane, soustředíme se na školení, abychom pochopili, jaké jsou rozdíly mezi webovým nebo serverovým dotazovacím nástrojem oproti nástroji, který máte na ploše, a některé nuance jeho používání. Zároveň se snažíme identifikovat ta nejcennější data, znovu využít informace z protokolu dotazů a říci: „Hej, možná budete chtít jít dovnitř a pomoci lidem porozumět jim. Začněme publikovat reprezentativní dotazy v těchto tabulkách. “To je někdy nejúčinnější způsob, jak velmi rychle přimět lidi, aby se roztočili. Podívejme se na vlastní historii dotazů, publikuj tyto věci tak, aby se zobrazovaly jako první dotazy. Když se lidé podívají na stránku tabulky, uvidí všechny dotazy, které se této tabulky dotkly, a mohou začít odtud. A pak můžete začít přidávat tituly a popisy k těmto objektům, aby je bylo snazší najít a hledat, abyste věděli o některých nuancích, jak je používat.

Dbáme na to, abychom si důkladně prohlédli protokol dotazů, abychom mohli vygenerovat linii. Jednou z věcí, kterou děláme, je, že se podíváme do protokolu dotazů v době, kdy se data přesunují z jedné tabulky do druhé, a to nám umožňuje klást jednu z nejčastěji kladených otázek o tabulce dat, odkud to vzešlo? Jak tomu mohu věřit? A tak můžeme ukázat nejen to, z jakých dalších tabulek pochází, ale také to, jak se transformoval podél cesty. Toto je opět způsobeno protokolem dotazů.

Ujišťujeme se tedy, že tyto věci jsou nastaveny a že do systému vstupují řádky a že se zaměřují na nejcennější a nejpoužívanější metadata, která můžeme získat na stránkách tabulky, takže při vyhledávání najdete něco užitečného.

Robin Bloor: Dobře. Druhá otázka - je zde mnoho otázek od publika, takže se tady nechci zabírat příliš mnoho času - další otázkou, na kterou se takový druh myslí, jsou jen body bolesti. Mnoho softwaru bylo zakoupeno, protože lidé mají tak či onak potíže s něčím. Jaký je tedy společný bod bolesti, který vede lidi k Alaci?

David Crawford: To jo. Myslím, že jich je pár, ale myslím, že jedním z těch, které často slyšíme, je analytik na palubě. "Budu muset v nejbližší době najmout 10, 20, 30 lidí, kteří budou muset z těchto údajů získat nové poznatky, jak se dostanou na rychlost?" Takže analytik na palubě je něco, s čím se určitě potýkáme. Také zbavuje vedoucí analytiky od trávení veškerého času odpovědí na dotazy jiných lidí na data. To je také velmi časté. A obojí jsou v zásadě problémy se vzděláváním.

A pak bych řekl další místo, které vidíme, jak lidé přijímají Alation, když chtějí vytvořit zcela nové datové prostředí, ve kterém by někdo pracoval. Chtějí to interně inzerovat a uvádět na trh, aby ho lidé mohli využít. Pak je Alation frontendem k novému analytickému prostředí velmi přitažlivé. Dostala dokumentaci, dostala jediný úvod do - jediného bodu přístupu k systémům, a tak je to další místo, kam k nám lidé přijdou.

Robin Bloor: Dobře, předám vás Rebecce, protože se vás publikum snaží dostat.

Rebecca Jozwiak: Ano, máme zde spoustu opravdu dobrých otázek pro publikum. A Davide, tohle byl speciálně pro tebe. Je to od někoho, kdo má zjevně nějaké zkušenosti s lidmi, jakési zneužívání dotazů, a říká, že čím více zmocňujeme uživatele, tím těžší je řídit odpovědné využívání výpočetních zdrojů. Můžete se tedy bránit šíření zavádějících, ale běžných dotazových frází?

David Crawford: Jo, vidím tuto otázku. Je to skvělá otázka - na jednu dost často. Bolest jsem viděl sám u předchozích společností, kde musíte trénovat uživatele. Například: „Toto je tabulka protokolů, její protokoly se vracejí roky. Pokud do této tabulky píšete dotaz, musíte se opravdu omezit datem. “Například, to je školení, které jsem absolvoval v předchozí společnosti před tím, než mi byl umožněn přístup k databázi.

Máme několik způsobů, jak se to snažíme řešit. Řekl bych, že si myslím, že data protokolu dotazů jsou skutečně jedinečně cenná pro jejich řešení. Poskytuje další náhled proti tomu, co databáze interně dělá s jeho plánovačem dotazů. A co děláme, je jeden z těch zásahů - máme manuální zásahy, které jsem ukázal, a to je užitečné, že? Například při konkrétním spojení můžete říci: „Umožním to zastarat.“ Bude to mít velkou červenou vlajku, když se objeví v chytrém návrhu. Je to jeden ze způsobů, jak se dostat k lidem.

Další věc, kterou děláme, je automatizovaná při provádění intervencí. Ve skutečnosti použijeme strom rozebírání dotazu, než ho spustíme, abychom viděli, obsahuje určitý filtr nebo pár dalších věcí, které tam také děláme. Ale jeden z nejcennějších a nejjednodušší je vysvětlit, obsahuje filtr? Stejně jako v tomto příkladu, který jsem právě uvedl, musí tato tabulka protokolu, pokud ji budete dotazovat, mít časové období, můžete na stránce tabulky určit, že nařídíte použití tohoto filtru časového období. Pokud se někdo pokusí spustit dotaz, který tento filtr neobsahuje, ve skutečnosti je zastaví velkým varováním a řekne: „Pravděpodobně byste do svého dotazu měli přidat nějaký SQL, který vypadá takto.“ Mohou pokračovat, pokud chtějí. . Nebudou ve skutečnosti úplně zakázat jejich použití - je to také dotaz, jeho na konci dne, spouštět dotazy. Před nimi jsme ale položili docela velkou bariéru a my jim dáme návrh, konkrétní použitelný návrh na úpravu dotazu, aby se zlepšil jejich výkon.

V některých případech to také děláme automaticky, opět sledováním protokolu dotazů. Pokud vidíme, že některé opravdu velké procento dotazů v této tabulce využívá určitého filtru nebo konkrétní klauzule o spojení, pak to ve skutečnosti vyskočí. Dobře to povýšte na zásah. Ve skutečnosti se mi to stalo na interním souboru dat. Máme zákaznická data a máme uživatelské ID, ale uživatelské ID je nastaveno, od svého druhu - máme ID uživatele u každého zákazníka. Není to jedinečné, takže jej musíte spárovat s ID klienta, abyste získali jedinečný klíč pro připojení.A psal jsem dotaz a pokusil jsem se něco analyzovat a vyskočil a řekl: „Hej, zdá se, že všichni ostatní spojují tyto tabulky s ID klienta i ID uživatele. Jste si jisti, že to nechcete dělat? “A ve skutečnosti mě to zastavilo v provádění nějaké nesprávné analýzy. Pracuje tak pro přesnost analýzy i pro výkon. Takže to je způsob, jak tento problém řešíme.

Rebecca Jozwiak: Zdá se mi, že to bude efektivní. Říkal jsi, že nutně nebudeš blokovat lidi v zabíjení zdrojů, ale jaksi je naučíš, že to, co dělají, nemusí být nejlepší, že?

David Crawford: Vždy předpokládáme, že uživatelé nejsou škodliví - dejte jim ty nejlepší záměry - a snažíme se být tímto způsobem otevřeni.

Rebecca Jozwiak: Dobře. Zde je další otázka: „Jaký je rozdíl mezi katalogovým manažerem, jako u vašeho řešení, a nástrojem MDM? Nebo se ve skutečnosti spoléhá na jinou zásadu rozšířením výběru tabulek dotazů, zatímco MDM by to udělal automaticky, ale se stejným základním principem shromažďování metadat. “

David Crawford: Jo, myslím, že když se podívám na tradiční MDM řešení, primární rozdíl je filozofický. Je to všechno o tom, kdo je uživatel. Něco podobného, jak jsem řekl na začátku své prezentace, Alation, myslím, že když jsme byli založeni, byli jsme založeni s cílem umožnit analytikům produkovat více poznatků, produkovat je rychleji, být přesnější v náhledech, že oni vyrobit. Nemyslím si, že to bylo někdy cílem tradičního řešení MDM. Tato řešení jsou obvykle zaměřena na lidi, kteří potřebují vytvářet zprávy o tom, jaká data byla shromážděna do SCC nebo interně pro nějaký jiný druh auditu. Někdy to může analytikům umožnit, ale častěji, pokud to umožní praktikovi v jejich práci, je pravděpodobnější, že umožní datovému architektovi, jako je DBA.

Když přemýšlíte o věcech z pohledu analytika, to je, když začnete vytvářet dotazovací nástroj, který by nástroj MDM nikdy neudělal. To je, když začnete přemýšlet o výkonu a přesnosti a také o tom, jaká data se vztahují k mé obchodní potřebě. Když navrhujeme nástroj, všechny tyto věci jsou věci, které jsou v našich myslích popem. Vstoupí do našich vyhledávacích algoritmů, do rozvržení stránek katalogu a schopnosti přispět znalostmi z celé organizace. Jde o to, že jsme vytvořili dotazovací nástroj a že jsme do něj zabudovali katalog přímo, takže si myslím, že z toho opravdu vychází. Jakého uživatele máte na mysli jako první?

Rebecca Jozwiak: Dobře, dobře. To opravdu pomohlo vysvětlit. kdo chtěl umřít, aby se zmocnil archivů, protože musel odejít, ale opravdu chtěl, aby jeho otázka odpověděla. Řekl, že na začátku bylo zmíněno, že existuje více jazyků, ale je SQL jediným jazykem využívaným v komponentě Compose?

David Crawford: Ano, to je pravda. A jednou z věcí, které jsem si všiml, jak jsem byl svědkem exploze různých typů databází, databází dokumentů, grafických databází, úložišť klíčové hodnoty, je to, že jsou skutečně výkonné pro vývoj aplikací. Tam mohou sloužit konkrétním potřebám opravdu dobře, lépe než relační databáze.

Ale když se vrátíte zpět k analýze dat, když se vrátíte zpět - když chcete poskytnout tyto informace lidem, kteří se chystají udělat ad hoc reporting nebo ad hoc kopání do dat, že se vždy vrátí k relačnímu alespoň rozhraní pro lidi. Část toho je jen proto, že SQL je lingua franca analýzy dat, takže to pro člověka znamená i pro nástroje, které se integrují. Myslím, že to je důvod, proč je SQL na Hadoopu tak populární a existuje tolik pokusů o jeho vyřešení, protože na konci dne to lidé vědí. Pravděpodobně existují miliony lidí, kteří vědí, jak psát SQL, a já bych se odvážil ne miliony, kteří by věděli, jak napsat dotazovací rámec agregačního potrubí Mongo. A to je standardní jazyk, který se používá pro integraci do opravdu široké škály platforem. Takže vše, co říká, bylo velmi zřídka požadováno, aby se z toho nedostalo, protože to je rozhraní, které většina analytiků používá, a je to místo, na které jsme se zaměřili, zejména v Compose, na psaní SQL.

Řekl bych, že věda o údajích je místem, kde se pustí mimo většinu, a proto dostáváme příležitostné otázky týkající se používání Pig nebo SAS. To jsou věci, které v Compose rozhodně nezvládneme a které bychom chtěli zachytit v katalogu. A vidím také R a Pythona. Máme několik způsobů, jak jsme vytvořili rozhraní, které můžete použít dotazy psané v Alation uvnitř skriptů R a Python, takže od doby, kdy jste vědcem dat a pracujete ve skriptovacím jazyce, jsou vaše zdrojová data v relačním databáze. Začínáte s dotazem SQL a poté je dále zpracujete a vytvoříte grafy uvnitř R a Pythonu. A vytvořili jsme balíčky, které můžete importovat do těch skriptů, které vyvolávají dotazy nebo výsledky dotazů z Alation, takže tam můžete mít jakýsi smíšený pracovní postup.

Rebecca Jozwiak: Dobře, skvělé. Vím, že jsem běžel trochu přes vrchol hodiny, já jen položím jednu nebo dvě další otázky. Vím, že jste mluvili o všech různých systémech, ke kterým se můžete připojit, ale pokud jde o externě hostovaná data a interně hostovaná data, lze je společně prohledat do jediného pohledu, do jedné platformy?

David Crawford: Tak určitě. Existuje několik způsobů, jak toho dosáhnout. Myslím, navenek hostovaný, představoval bych si, snažím se přemýšlet o tom, co přesně to může znamenat. Může to znamenat databázi, kterou pro vás někdo hostuje v AWS. Mohlo by to znamenat veřejný zdroj dat z data.gov. Připojujeme se přímo k databázím tak, že se přihlašujeme stejně jako jiná aplikace, pomocí účtu databází a takto získáváme metadata. Pokud tedy máme účet a máme otevřený síťový port, můžeme se k němu dostat. A pak, když tyto věci nemáme, máme něco, co se nazývá virtuální zdroj dat, který vám umožňuje v zásadě tlačit dokumentaci, ať už automaticky, napsáním vlastního konektoru nebo jeho vyplněním provedením, dokonce i nahráním CSV, do dokumentu data vedle vašich interních dat. Tím se vše dostane do vyhledávače. Stává se referenčním uvnitř článků a další dokumentace a konverzací uvnitř systému. Tak to zvládneme, když se nemůžeme přímo připojit k systému.

Rebecca Jozwiak: Dobře, to dává smysl. Vystřelím vám ještě jednu otázku. Jeden účastník je zeptat se: „Jak by měl být obsah datového katalogu ověřován, ověřován nebo udržován, protože zdrojová data se aktualizují, jak se mění zdrojová data atd.“

David Crawford: Ano, je to otázka, kterou dostáváme, a myslím si, že jedna z věcí, kterou my - jedna z našich filozofií, jak jsem řekl, nevěří, že uživatelé jsou škodliví. Předpokládáme, že se snaží přispět nejlepšími znalostmi. Nepřijdou a úmyslně neuvádějí lidi o datech. Pokud je to ve vaší organizaci problém, možná není Alations tím pravým nástrojem. Ale pokud předpokládáte dobré úmysly uživatelů, pak o tom přemýšlíme jako o něčem, kam přicházejí aktualizace, a pak obvykle uděláme správce, který má na starosti každý datový objekt nebo každou část dat. A můžeme informovat ty správce, když jsou provedeny změny v metadatech a oni to zvládnou tímto způsobem. Vidí aktualizace přicházejí, ověřují je. Pokud nemají pravdu, mohou se vrátit a upravit je a informovat, a doufejme, že dokonce osloví uživatele, který informace poskytl, a pomohl jim učit se.

To je tedy primární způsob, jak o tom přemýšlet. Tento druh doporučení davu a vedení ze strany správců, takže máme kolem toho nějaké schopnosti.

Rebecca Jozwiak: OK, dobře. A pokud byste mohli jen dát lidem vědět, jak mohou nejlépe začít s Alation, a kam mohou jít konkrétně, aby získali více informací. Vím, že jste to sdíleli jeden bit.ly. Je to nejlepší místo?

David Crawford: Alation.com/learnmore Myslím, že je skvělý způsob, jak jít. Chcete-li se zaregistrovat na ukázku, web Alation.com má spoustu skvělých zdrojů, bílé knihy pro zákazníky a zprávy o našem řešení. Takže si myslím, že je to skvělé místo, kde začít. Můžete také .

Rebecca Jozwiak: Dobře, skvělé. A já vím, návštěvníci, omlouvám se, kdybych se dnes nedostal ke všem otázkám, ale pokud ne, budou předány Davidovi nebo jeho prodejnímu týmu nebo někomu v Alation, takže mohou určitě pomoci odpovědět na vaše otázky a pomoci pochopit, co Alation dělá nebo co umí nejlépe.

A s tím, lidi, půjdu do toho a podepíšu nás. Archivy můžete vždy najít na InsideAnalysis.com. Najdete ji také na Techopedia.com. Mají tendenci se aktualizovat trochu rychleji, takže si to určitě ověřte. A děkuji Davidovi Crawfordovi, Dez Blanchfieldovi a Robin Boor dnes. Byl to skvělý webcast. A s tím se rozloučím. Díky, lidi. Ahoj.

David Crawford: Děkuju.