Извличане на данни

Какво представлява Data Mining:

Data mining е английски термин, свързан с компютърната наука, чийто превод е извличане на данни . Той се състои от функционалност, която събира и организира данни, намирайки в тях съответни модели, асоциации, промени и аномалии .

Терминът извличане на данни за първи път се появява през 1990 г. в общностите на базите данни. Data mining е стъпка за анализ на процеса, известна като KDD ( откриване на знания в бази данни ), чийто буквален превод е "Откриване на знания в бази данни".

Извличането на данни може да се раздели на няколко основни стъпки: проучване, изграждане на модел, дефиниране на модел, валидиране и проверка.

Извличането на данни е сравнително нова практика в света на компютърните технологии и използва извличане на информация, изкуствен интелект, разпознаване на образи и статистически техники за търсене на корелации между различни данни, които ви позволяват да придобиете полезни знания за компания или отделен човек. За една компания извличането на данни може да бъде важен инструмент, който подобрява иновациите и рентабилността.

Използването на извличане на данни е често срещано явление в големите бази данни, а крайният резултат от тяхното използване може да бъде показан чрез правила, хипотези, дървета на решенията, дендрограми и др.

Добре извършеното извличане на данни би трябвало да изпълнява задачи като: откриване на аномалии, обучение за асоциативно правило (моделиране на зависимостта), клъстеризация, класификация, регресия и обобщаване. Процесът на извличане на данни обикновено се осъществява чрез използване на данни, съдържащи се в хранилището за данни .

Има няколко компании и софтуер, които са посветени на извличането на данни, тъй като идентифицирането на модели в базите данни става все по-важно. Идентифицирането на съответните стандарти обаче не е уникално за компютърния свят. Човешкият мозък използва подобен процес за идентифициране на модели и придобиване на знания.

През последните години извличането на данни е широко използвано в областта на науката и инженерството, като биоинформатика, генетика, медицина, образование и електротехника.

Концепцията за извличане на данни често се свързва с извличане на информация за поведението на хората. Поради тази причина в някои ситуации извличането на данни повдига правни въпроси и въпроси, свързани с неприкосновеността на личния живот и етиката. Въпреки това много хора твърдят, че извличането на данни е етично неутрално, тъй като няма етични последици.

Примери за реализиране на реални данни

Извличането на данни често се използва от компании и организации за придобиване на знания за потребителите / служителите / клиентите. Например, в публичния сектор е възможно да се направи кръстосана проверка между семейното положение на работника и заплатата, която той получава, за да се види дали това влияе върху семейния му живот.

Компании като веригите от супермаркети могат да използват тези данни, за да определят продуктите, които се купуват заедно. Ако клиент, който купува продукт X, също купува продукт Y, може би е добра идея двата продукта да бъдат разположени наблизо, за да може потребителят да закупи по-лесно.