Dane nieustrukturyzowane

Czym są dane nieustrukturyzowane?

Dane nieustrukturyzowane to cyfrowe informacje, które nie mogą być efektywnie przechowywane w relacyjnej bazie danych (RDMS), ponieważ nie korzystają z wcześniej ustalonych modeli danych ani schematów. Dlatego często magazynuje się je w jeziorze danych.

Dane nieustrukturyzowane, które mogą być surowe, pochodzą z sensorów i siłowników, wiadomości e-mail i SMS, dokumentów tekstowych, prezentacji PowerPoint, elektronicznych dokumentacji medycznych (EHR), cyfrowych obrazów, plików audio i wideo, etc.

Przedsiębiorstwa skoncentrowane na kliencie mogą analizować dane w formie nieustrukturyzowanej w celu poprawy marketingu i zarządzania relacjami z klientami (CRM).

Techopedia wyjaśnia pojęcie “dane nieustrukturyzowane”

Dane nieustrukturyzowane to dane, które mają mniej uporządkowaną formę, niż arkusze kalkulacyjne, tabele baz danych czy inne liniowe lub uporządkowane zbiory danych.

Termin „zbiór danych” jest tutaj pomocny, ponieważ kojarzy się z danymi sklasyfikowanymi w schludnych, łatwo dostępnych tablicach, bez żadnych dodatkowych treści. Danymi, które są połączone lub oznaczone w określonej strukturze.

	Dane niestrukturalne	Dane półstrukturalne	Dane strukturalne
Charakterystyka	Brak zdefiniowanych modeli danych; trudne do wyszukiwania	Luźno powiązane modele danych	Jasno zdefiniowane modele danych; łatwe do wyszukiwania
Przykład	Plik graficzny	Log z call center	Arkusz kalkulacyjny
Przechowywanie	Jezioro danych	Organizowane przez metatagi	Relacyjna baza danych

Innymi przykładami nieustrukturyzowanych danych tekstowych są dokumenty Word, prezentacje PowerPoint, wiadomości błyskawiczne, oprogramowanie do współpracy, dokumenty, książki, posty w mediach społecznościowych oraz dokumentacja medyczna.

Z kolei nietekstowe dane nieustrukturyzowane są zazwyczaj tworzone w mediach, takich jak pliki audio MP3, obrazy JPEG, pliki wideo Flash, itp.

Dane nieustrukturyzowane zazwyczaj nie zawierają zdefiniowanego modelu danych i mogą nie pasować dobrze do tabel relacyjnych. Ponadto dane nieustrukturyzowane zwykle obfitują w tekst. Poza nim mogą jednak zawierać pewne liczby i daty, a także fakty.

Taki schemat prowadzi do niejednoznaczności, które trudno zidentyfikować za pomocą konwencjonalnych programów komputerowych.

Co więcej, jeśli przechowywanie ogromnych ilości danych nieustrukturyzowanych generowanych w przedsiębiorstwie jest źle zarządzane, może prowadzić do wyższych kosztów.

Dane w formie papierowej lub elektronicznej muszą być zeskanowane, aby aplikacja wyszukująca mogła wyodrębnić idee w zależności od słów użytych w określonych kontekstach. Określa się to mianem wyszukiwania korporacyjnego lub semantycznego.