Już ten mikroskopijny wycinek czasu wystarczy, by zrozumieć, jak szybko dochodzi do rozrostu danych i nadprodukcji Big Data.
Co dzieje się w sekundę w Internecie?
Internauci pobiorą ponad 800 aplikacji, przeprowadzą 1 885 rozmów na Skype, wrzucą 2 760 fotek na Instagram oraz 10 205 tweetów na Twittera, a także dokonają ponad 108 tys. odsłon na YouTube i blisko 51 tys. wyszukiwań w Google.
Big Data rozmnaża się przez pączkowanie.
Potop 2.0
Big Data rozrasta się już w tempie, którego nikt nie jest w stanie kontrolować. Dlatego nie powinno nikogo dziwić, że to właśnie kategoria zawrotnej prędkości (ang. Velocity), z jaką produkujemy dane, stała się jednym z „czterech V”, składających się na definicję Big Data. Pozostałe „V” to: Volume – czyli ogromna ilość wytwarzanych danych, Variety – czyli ich różnorodność oraz Veracity – czyli wiarygodność danych.
– W ciągu sekundy globalna Sieć powiększa się o około 30 GB danych. Mniej więcej tyle „ważył” cały Internet 20 lat temu. To pokazuje szalone tempo, w jakim rozwija się dzisiaj Big Data – wyjaśnia Piotr Prajsnar, CEO Cloud Technologies, największej platformy Big Data w tej części Europy – W czasach, gdy Internet jeszcze raczkował, raptem 6 proc. materiałów światowej kultury było zdigitalizowanych. Dziś cyfryzacja wkracza w zasadzie w każdy element naszej kultury. W ciągu kwadransa Internet rozrasta się średnio o 20 biliardów bitów danych. Analogową równowartością tej liczby byłyby wszystkie dzieła składające się na kanon literatury światowej. Bez cienia przesady możemy więc określić nasze czasy mianem „epoki danych” czy cyfrowego potopu – dodaje Piotr Prajsnar.
Tezę Piotra Prajsnara potwierdzają statystyki. Papierkiem lakmusowym jest w tym przypadku wzrost liczby domen internetowych. Według badania VeriSign w drugim kwartale 2015 roku Internet powiększył się o 2 mln nowych domen. To o 0,8 proc. więcej, niż w pierwszym kwartale tego roku. Szacuje się, że w Sieci zarejestrowanych jest obecnie już ponad 296 mln domen. Centre Domain Wire donosi, że w II kwartale 2015 r. największą liczbę nowych rejestracji osiągnęły Niemcy, Wielka Brytania oraz Holandia. Natomiast rodzima „peelka” plasuje się na dosyć wysokiej, bo 8 pozycji w Europie oraz 12 na świecie.
– W I kwartale tego roku zakupiono 284 tys. domen. W marcu liczba rejestracji przekroczyła 105 tys. Pod tym względem był to trzeci najlepszy miesiąc w historii polskiego rynku domen. Wyższe liczby rejestracji w skali miesiąca uzyskano tylko w latach 2010 i 2012 r. Kolejne miesiące też nie przyniosły rozczarowania. Pod względem rejestracji był to najlepszy drugi kwartał w historii domeny z końcówką „.pl” – mówi Łukasz Gawior, dyrektor operacyjny Zenbox.pl, polskiej spółki zajmującej się hostingiem – W ubiegłym roku co trzecia polska firma zatrudniająca powyżej 10 pracowników nie miała strony internetowej. Ta luka będzie się oczywiście zmniejszać, ponieważ własne www jest dziś wizytówką firmy w Sieci – dodaje Łukasz Gawior.
Co ciekawe, Polska zajmuje aktualnie 3 miejsce pod względem dynamiki przyrostu nowych rejestracji. Obecnie liczba zarejestrowanych domen „.pl” przekroczyła już 2,6 mln. Wiele wskazuje na to, że 2015 rok podobnie jak poprzedni, zakończy się wynikiem ponad miliona nowych rejestracji.
Internet wrzuca piąty bieg
Przyspieszeniu (nad)produkcji danych w Sieci towarzyszy również zwiększenie szybkości transferu danych. Według raportu Akamai Technologies „Global Average Connection Speeds and Global Broadband Connectivity”, prędkość Sieci w drugim kwartale 2015 roku wzrosła globalnie o 3,5 proc, do poziomu 5,1 Mb/s. Na 144 badane państwa aż w 110 krajach zanotowano zwiększenie przepustowości łączy. Wzrost wahał się od 0,4 proc. (w Senegalu, gdzie średnia prędkość Internetu osiągnęła poziom 1,5 Mb/s) do 67 proc. w Tunezji, gdzie przepustowość wyniosła 2,8 Mb/s. Dla porównania polski Internet może pochwalić się średnią prędkością sięgającą 7,6 Mb/s.
– Internet jest dzisiaj fundamentalnym środkiem komunikacji firm z otoczeniem i to właśnie biznes będzie głównym beneficjentem wzrostu przepustowości łącz internetowych. W dzisiejszym, cyfrowym biznesie liczy się dosłownie każda sekunda i każdy bit danych. Od tego zależy przecież dostępność i skuteczność wszelkich usług, np. bankowych czy telekomunikacyjnych – mówi Michał Jakubowski, prezes easyCALL.pl, polskiej spółki oferującej rozwiązania z zakresu telefonii internetowej dla biznesu – W Polsce przez Internet dzwoni już ponad pół miliona firm. Już teraz blisko co trzecie połączenie głosowe realizowane jest właśnie za pośrednictwem Internetu, a ściślej: technologii VoIP. Powodem są m.in. niższe koszty rozmów, sięgające nawet 60 proc. w skali miesiąca. A dzięki przyspieszającemu internetowi jakość rozmów oraz funkcjonalność VoIP już teraz znacznie przewyższa tę oferowaną przez tradycyjną telefonię – dodaje Michał Jakubowski.
Właśnie dlatego, jak twierdzi Mark Zuckerberg, ojciec Facebooka i jeden z głównych wizjonerów oraz trendsetterów w branży IT, tradycyjna telefonia stacjonarna odchodzi do lamusa historii. Zuckerberg nie ma żadnych wątpliwości: telefonią przyszłości będzie – a w zasadzie już jest – telefonia internetowa VoIP.
Lewandowski a Big Data
Jak szybko informacja obiega dziś Internet? Innymi słowy: z jaką prędkością Big Data rozmnaża się w Sieci? Wymownym przykładem jest casus… Roberta Lewandowskiego.
Snajper Bayernu Monachium strzelając pięć bramek w meczu z Wolfsburgiem rozbił internetowy bank. W ciągu doby po udostępnieniu filmiku, w którym Lewandowski masakruje obronę Wolfsburga, pojawił się on na blisko 2 mln stron. W momencie pisania tego tekstu video z Lewandowskim strzelającym pięć bramek widniało już na ponad 5 mln witryn internetowych. To tylko jeden z przykładów eksplozji cyfrowego kontentu. Oczywiście internetowa fala euforii związanej pięcioma bramkami „Lewego” powoli opada. Tymczasem fala produkcji Big Data – nie opada nigdy.
– W ciągu doby dociera do nas potencjalnie tyle treści, ile nasi dziadkowie konsumowali średnio przez całe swoje życie. Myliłby się jednak ten, kto przymiotnik „Big” w Big Data utożsamiałby wyłącznie z gigantyczną ilością danych. Oznacza on przede wszystkim to, co możemy z tymi danymi realnie zrobić. A dzięki zaawansowanej analityce internetowej możemy zdziałać już naprawdę dużo – mówi Łukasz Kapuśniak, Chief Technology Officer Cloud Technologies – Najbardziej powszechnym przykładem jest chyba wykorzystanie danych w reklamie internetowej. Dane pozwalają „posprzątać Internet” z reklamowego śmietnika. Obecnie internaucie wyświetla się średnio 1 707 masowych bannerów reklamowych w ciągu miesiąca. Z reguły nie zapamiętuje on żadnego z nich. Powód? Reklama kierowana do wszystkich – to reklama kierowana do nikogo. Marketingowcy stosujący dane w swoich kampaniach nie mają tego prblemu, ponieważ wiedzą, jaką reklamę i jakiemu użytkownikowi mogą wyświetlić – dodaje Łukasz Kapuśniak.
Analityka danych nie ogranicza się jednak wyłącznie do posprzątania naszej przeglądarki z reklamowego spamu. Aktualnie na ustach świata jest też analityka predyktywna, która właśnie dzięki danym jest w stanie przewidywać np. kryzysy finansowe na światowych rynkach, katastrofy ekologiczne czy turbulencje polityczne w różnych państwach. Korzysta z niej choćby amerykańska CIA. Korzystają z niej również organizacje porządku publicznego, Trzeci Sektor (NGO), czy naukowcy. A w niedalekiej przyszłości dzięki Internetowi Rzeczy dane będą produkować już całe miasta (smart cities). W Internecie zaroi się więc od kolejnych informacji.
Płuca internetu – jak oddycha globalna Sieć?
O tym jak szybko rośnie Internet i wolumen danych, świadczy rozwój centrów danych, pełniących funkcję płuc gigantycznej maszynerii cyfrowego świata. Według prognoz IDC do 2017 roku na całym świecie będzie ponad 8,6 mln ośrodków data center. PMR Research w raporcie „Rynek centrów danych w Polsce 2015” szacuje, że każdego roku światowa powierzchnia w centrach danych powiększa się o 4 do 7 tysięcy mkw. Polski Internet może zaczerpnąć najgłębszy oddech dzięki centrom danych warszawskiego ATM: zajmują one 13 600 mkw. powierzchni, wypełniając tym samym blisko 12,2 proc. polskiego rynku centrów danych*. To największe płuco Internetu w Polsce i jedno z największych w tej części Europy.
– Na początku lat 90. przepustowość łączy polskiego Internetu sięgała raptem 9600 bitów na sekundę. Obecnie, dzięki zrealizowanym w ostatnich latach inwestycjom, informacja przesłana przez Internet pokonuje drogę pomiędzy Warszawą a dowolnym innym miastem w Polsce w zaledwie 2,5 milisekundy. W ciągu 5-10 milisekund dociera do innego kraju w Europie, a na pokonanie drogi do miasta położonego na wschodnim wybrzeżu Stanów Zjednoczonych potrzebuje 70-90 milisekund. Można powiedzieć, że dziś Internet jest jak szybkonogi Achilles – tłumaczy Ewelina Hryszkiewicz z ATM, operatora ogólnopolskiej sieci światłowodowej ATMAN i pierwszej firmy w Polsce, która wpięła się do Sieci – Niedawno Duński Uniwersytet Techniczny (DTU) osiągnął prędkość aż 43 terabitów na sekundę. Dzięki takiej prędkości ściągnięcie pliku o wielkości 1 GB zajęłoby zaledwie 0,2 milisekundy – dodaje Ewelina Hryszkiewicz.
Z internetowego boomu danych korzysta dziś coraz więcej firm. Rozbudowują one własne systemy CRM oraz ERP, integrując je z zewnętrznymi hurtowniami danych, czyli Data Management Platform (DMP).
– Danych w Sieci jest tak dużo, są tak rozdrobnione i rozprzestrzeniają się z taką prędkością, że żaden wewnętrzny system klasy BI w firmie nie poradzi sobie z ich przetworzeniem i zmonetyzowaniem. Rozwiązaniem stają się wówczas platformy DMP, które uzupełniają systemy CRM i ERP, działając jako repozytoria i agregatory danych o internautach, przetwarzając je z różnych źródeł. Dzięki nim bank czy firma uzyskują 360-stopniowy obraz swojego klienta w ciągu kilku chwil i wiedzą, jaką ofertą mogą mu zaproponować. Platformy DMP jako jedyne są dziś w stanie poradzić sobie z zarządzaniem danymi w tym chaotycznym środowisku, jakim jest Internet – mówi Piotr Prajsnar, CEO Cloud Technologies.
Według badań przeprowadzonych przez Intel w Europie z analityki danych korzysta średnio co czwarte przedsiębiorstwo (25 proc.) w Polsce takie rozwiązania wykorzystuje jednak raptem 18 proc. firm. Z badań przeprowadzonych na zlecenie Intel wynika, że pod tym względem plasujemy się za Czechami, Słowacją oraz Węgrami. Jeśli jednak wierzyć zapewnieniom przedsiębiorców z polskiego rynku średnią europejską osiągniemy już w tym roku, ponieważ kolejne 6,7 proc. ankietowanych firm planuje wdrożenie takich rozwiązań do końca 2015 roku.
Kto tworzy Big Data?
To, że co sekundę Internet ugina się od ciężaru Big Data, potwierdzają firmy analityczne. Oracle szacuje, że co roku Sieć powiększa swoje rozmiary o ponad 40 proc. Obecnie jej wielkość szacuje się na 6 ZB (Zettabajtów). Jednak już w 2020 roku ma to być przynajmniej 45 ZB. IDC przelicza, że na każdego mieszkańca Ziemi przypadnie tym samym ponad 5 GB danych.
– Gros danych generowanych w Sieci wcale nie pochodzi od ludzi. Często jest dziełem botów bądź programów. To zjawisko określa się jako „Dirty Data”, czyli dosłownie „brudne dane”. Szacuje się, że już teraz od 50 do nawet 80 proc. czasu, jaki badacze danych spędzają w firmach nad analizą Big Data, pochłania oczyszczanie danych. Jednym z zadań platformy DMP jest te dane przesiać, przetworzyć, uporządkować i posegmentować, oddzielając dane o rzeczywistej wartości od tych, które są tylko cyfrowym bełkotem – mówi Piotr Prajsnar.
Z równie imponującą prędkością, co ilość danych w Sieci, rośnie dziś wartość rynku Big Data. IDC szacuje, że globalny rynek analityki danych rośnie dziś w tempie sześciokrotnie szybszym niż cała branża IT. Grand View Research twierdzi, że do 2022 roku będzie wart już ponad 72,38 mld USD.
Internet nie zwalnia tempa, a produkcja Big Data przyspiesza z roku na rok. To oznacza, że przed branżą analityczną stoją prawdziwe wyzwania. Analitycy danych już teraz robią co mogą, aby odkodować chaotyczne, cyfrowe hieroglify i przetłumaczyć je na informacje wartościowe dla biznesu oraz konsumenta. Jednak, jak szacuje, obecnie udaje nam się spożytkować raptem 20 proc. całego wolumenu Big Data. Do 2020 roku będziemy już w stanie sensownie wykorzystać 30 proc. danych wygenerowanych w Sieci.
Jeśli komuś wydaje się, że to wciąż mało, to powinien pamiętać, że po przeczytaniu tego tekstu Internet nie jest już taki sam jak przedtem. Upłynęło przecież kilkaset sekund. A to oznacza, że na głowę badaczom danych spadło kilka biliardów bitów, które domagają się analizy.