Информатика - вариант 6

СОДЕРЖАНИЕ

Задание 1. Задачи Data Mining. Задача классификации и регрессии. 3

Задание 2. Создание OLAP-куба. 7

Задание 3. Анализ данных. 11

Список использованных источников. 16

Фрагмент работы:

Вариант 6.

Задачи Data Mining. Задача классификации и регрессии. Создать локальный OLAP-куб в MS Excel для анализа суммарной стоимости проданных товаров сотрудниками фирмы «Борей» клиентам данной фирмы по датам размещения заказов. Подобрать массив данных по выбранной предметной области в соответствии с интересами по осваиваемой специальности, работе или другими обстоятельствами. При использовании Internet можно воспользоваться сайтами rambler.ru, expert.ru, yandex.ru и другими. Экспортировать заинтересовавшие данные в Excel и провести интеллектуальный анализ полученных данных с помощью команд меню Данные, построения Диаграмм. Реализовать для данного массива данных одну из моделей Data Mining – классификации (регрессии), кластеризации или поиска ассоциативных правил.

Отсюда и название - Unsupervised Learning. Дальнейшая классификация технологий Data Mining опирается на то, какие задачи этими технологиями решаются. Supervised Machine Learning, таким образом, подразделяется на классификацию и регрессию. А Unsupervised Learning на Basket and SequenceAnalysis и Clustering (анализ рыночных корзин, сиквенциальный анализ и кластеризацию)

Постановка задач классификации и регрессии такова:

Рассмотрим область из M точек В соответствии с терминологией Data Mining точки xi d-мерного пространства называются векторами, а значения векторов вдоль каждого измерения называются атрибутами. Каждой точке xi ставятся в соответствие значения функции yi, i=1, ..., M, где для случая регрессии и для случая классификации. Множество точек xi и связанных с ними yi, будем называть тренировочным набором данных. Также рассмотрим другое множество точек того же пространства и связанные с ними "эталонные" значения функции. Это множество будем называть обучающим набором данных. Предполагается, что оба множества имеют нечто общее, что позволяет говорить о некой присущей им структуре. Например, оба являются различными выборками из серии проводимых экспериментов, где исследуется зависимость yi от набора параметров xi.

По тренировочному набору данных необходимо построить так называемую классификационную функцию fc, определенную в пространстве такую, что значения этой функции на точках обучающего множества будут как можно ближе к "эталонным". В случае успешного построения классификационной функции (классификатора), мы можем с большой долей уверенности говорить, что она, в действительности, отражает присущие данным внутренние закономерности и может быть использована как предиктивная модель.

Рассмотрим геометрическую интерпретацию задач классификации и регрессии в двумерном пространстве (рис 1). Каждой точке ставится в соответствие значение yi где символ "+" соответствует значению +1, а символ "-" значению -1. Очевидно, что данные имеют четко выраженную структуру: все точки класса "+" сосредоточены в центральной области. Построение классификационной функции сводится к построению поверхности, которая обводит центральную область. fc определяется как функция, имеющая значения +1 внутри обведенной области и -1 вне.

Как видно по рисунку, есть несколько возможностей для построения обводящей области, что обуславливает существования целого ряда классификационных алгоритмов Data Mining.

Не вдаваясь в подробности реализации и теоретические предпосылки каждого из алгоритмов, приведем общую классификацию самых распространенных. Во-первых, их можно разделить на мультивариантные и унивариантные, исходя из того, будет ли алгоритм в своей работе оперировать атрибутами векторов как целым, или же рассматривать их по отдельности. Далее, алгоритмы можно классифицировать по базовым методикам, которые они используют. Это деление достаточно условное и служит, скорее, дидактическим целям. Итак, алгоритмы основанные на методиках математической статистики - это деревья решений CART, дискриминантный анализ и регрессия, Naive Bayes. Использующие положения теории информации - деревья решений ID3 и С4.5, MDLP, классификационные правила. Отдельную группу составляет одна из самых успешных методик классификации и регрессии - Support Vector Machine. Далее мы можем перечислить нейронные сети, нечеткую логику, дискретные методы, как то, Sparse Grid и вейвлетная классификация, а также группу алгоритмов, которые основываются, скорее, на соображениях здравого смысла, чем на какой-либо определенной математической теории. Например, Nearest Neighbor Classifier.

Классическим примером применения классификации на практике является решение проблемы о возможной некредитоспособности клиентов банка. Этот вопрос, тревожащий любого сотрудника кредитного отдела банка, можно, конечно, разрешить интуитивно. Если образ клиента в сознании банковского служащего соответствует его представлению о кредитоспособном клиенте, то кредит выдавать можно, иначе - отказать. По схожей схеме работают установленные в тысячах американских банках системы Data Mining. Лишенные субъективной предвзятости, они опираются в своей работе только на историческую базу данных банка, где записывается детальная информация о каждом клиенте и, в конечном итоге, факт его кредитоспособности (вернул ли клиент ранее выданный кредит или нет).

Список использованных источников

Информатика. Базовый курс/Симонович С.В. – СПб: Изд-во «Питер», 2000. – 640 с. Ботт Эд. Леонардо Вуди. Использование Microsoft Office 2000, Специальное издание / Пер. с англ.: Уч. пособие - М,: Издат. дом “Вильяме”, 2000. - 1024с. Новиков Ф.А., Яценко А.Д. Microsoft® Office 2000 в целом. - СПб : БХВ -Санкт-Петербург, 1999. - 728 с.: ил. Основы экономической информатики: Учеб. пособие / Под ред. А.Н. Морозевича. - Мн.: Мисанта, 1998. - 438 с. http://ru.wikipedia.org/wiki/Data_mining - статья «Интеллектуальный анализ данных» http://www.intuit.ru/department/database/datamining/5/5.html - Учебный курс «Data Mining» Справка по Microsoft Office 2003.

Информатика - вариант 6

Список использованных источников

Курсовые работы

Контрольные работы

Дипломные работы

Эссе

Отчеты по практике

Доклады

Лабораторные работы

Презентации

Шпаргалки

Сочинения

Статьи

Разное

Рефераты