3.2Treat Missing Values (Обработка пропущенных значений) - Факультет радиотехники и кибернетики
.RU

3.2Treat Missing Values (Обработка пропущенных значений) - Факультет радиотехники и кибернетики


^ 3.2Treat Missing Values (Обработка пропущенных значений)
Таблицы данных часто содержат пропущенные значения. Определенные алгоритмы полагают, что значения NULL означают пропущенное значение, другие полагают, что значения NULL означают просто редкие данные. Поэтому необходимо обработать пропущенные значения, не требуя от пользователя каких-либо специальных способов. Притом, иногда требуется игнорировать пропущенные значения, притом используя другие не пустые данные в записи. Но если алгоритм полагает, что значения NULL означают редкие данные, то мы должны обработать любые значения, которые похожи на пропущенные данные.

Данные являются редкими, если только небольшая функция (не больше, чем 20%, часто 3% или меньше) атрибутов ненулевая или ненулевая для некоторых данных случаев. Редкие данные получаются, например, в проблеме потребительской корзины. В продовольственном магазине может быть более 10 000 продуктов, а примерный размер корзины (набора отдельных вещей, которые покупатель купил в типичной транзакции) порядка 50 продуктов. В этом примере транзакция (или запись) имеет примерно 50 ненулевых значений. Это означает, что доля ненулевых атрибутов в таблице (или плотность) составляет примерно 0.5%. Эта Плотность типична для проблемы потребительской корзины.

Таким образом, различные алгоритмы могут по-разному «понимать» что означают редкие данные. Для Support Vector Machine, k-Means, association, and Non-Negative Matrix Factorization, NULL значения означают редкие данные, для всех других значения NULL означают пропущенные значения.
^ 3.3Remove outliers (удаление выбросов)
Выбросы (резко выделяющиеся значения экспериментальных величин) – это значения, которые выходят за нормальные пределы в наборе данных, обычно несколько средних квадратичных отклонений от среднего значения. Присутствие выбросов может оказать существенные влияние на точность многих алгоритмов. Naive Bayes, Adaptive Bayes Network, Support Vector Machine, Attribute Importance, любые алгоритмы кластеризации, и Non-Negative Matrix Factorization алгоритмы чувствительны к выбросам.
^ 3.4Normalize (нормализация)
Нормализация преобразует индивидуальные числовые атрибуты таким образом, что занчения атрибутов лежат в одном и том же диапазоне. Значения преобразуются в диапазон от 0.0 до 1.0 или в диапазон от – 1.0 до 1.0. Нормализация обеспечивает что атрибуты не получат искусственной надбавки вызванной отличием в диапазонах, в которых они лежат. Некоторые алгоритмы, такие как k-Means, Support Vector Machine, и Non-Negative Matrix Factorization «выигрывают» от нормализации.
^ 3.5Attribute Importance (Задача определения ключевых атрибутов)
Attribute Importance (AI) предоставляет собой решение для увеличения скорости и, возможно, точности для модели классификации, построенной на таблице с большим числом атрибутов.

Время, требуемое для построения модели классификации, возрастает с количеством атрибутов. AI идентифицирует поднабор атрибутов, наиболее релевантные для предсказания целевого атрибута. Соответственно, модель может быть построена только на выбранных атрибутах.

Использование же слишком малого числа атрибутов ухудшает точность предсказания. Наоборот, использование слишком большого числа атрибутов (особенно, которые вносят «шум»(noise)), может оказать влияние на модель – сильно снизить производительность или точность. Предсказание использует наименьшее число атрибутов, которые могут сохранить время вычисления и могут построить наилучшую модель.
^ 3.6Алгоритм Minimum Descriptor Length
Data Mining использует Minimum Descriptor Length алгоритм для решения этой задачи.

Minimum Description Length (MDL) – это информационная теоретическая модель выборочного принципа. MDL полагает, что простейшее, наиболее компактное представление данных – это вероятностное истолкование данных. Этот принцип используется для построения модели Attribute Importance.

MDL рассматривает каждый атрибут как простейшую предсказательную модель для целевого класса. Эти простейшие предсказатели модели сравниваются и упорядочиваются в соответствии с MDL метрикой (сжатие в битах).

С MDL, модель выбора преобразуется в коммуникационную модель. А именно отправителя, получателя и передаваемые данные. Для классификационных моделей, передаваемые данные являются моделью и последовательностью целевого класса значений в обучающих данных.

AI использует состоящий из двух частей код для передачи данных. Первая часть (преамбула) передает модель. Параметры этой модели – целевые вероятности, ассоциированные с каждым предсказанным значением. Для цели с значениями и предсказателя с значениями, строк на значение, существует , комбинаций из записей, имеющих одновременно возможных условных вероятностей. Размер преамбулы в битах может быть представлен как . Вычисления подобно этому проделываются для каждой простейшей предсказательной модели. Следующая часть кода преобразует целевые значения, используя модель.

Известно, что наиболее компактное кодирование последовательности это кодирование наиболее часто встречающихся символов. Таким образом, модель, имеющая наибольшую вероятность для последовательности, имеет наименьшую стоимость для целевого класса значений. В битах, это сумма , где – предсказанная вероятность для строки , сопоставленная модели.

15-vtoraya-industrializaciya-rossii-ishodnaya-osnova-kniga-rukovoditelya-gosudarstva-osnovi-teorii-i-praktiki-osushestvleniya.html
15-zaboti-o-zdorove-dzhejms-rollins-amazoniya.html
15-zashita-diplomnogo-proekta-raboti-obshie-trebovaniya.html
15-zhurnal-zapojnogo-sasha-sokolov-mezhdu-sobakoj-i-volkom.html
150-000-chelovek-mogut-poteryat-rabotu-monitoring-smi-11-12.html
150-let-bez-kreposti-vot-te-babushka-i-yurev-den-sobranie-v-izmajlove-instruktazh-roditelskoj-obshestvennosti.html
  • thescience.bystrickaya.ru/iii-mezhdunarodnaya-nauchnaya-konferenciya-intellektualnie-sistemi-prinyatiya-reshenij-i-prikladnie-aspekti-informacionnih-tehnologij.html
  • prepodavatel.bystrickaya.ru/t-o-strategiya-rossijskoj-federacii-v-oblasti-razvitiya-nauki-i-innovacij-na-period-do-2015-g-stroitsya-na-sozdanii.html
  • thescience.bystrickaya.ru/kak-kompyuter-pomogaet-v-uchebe-kogo-iz-svoih-odnoklassnikov-vi-poprosili-bi-prinyat-uchastie-v-etoj-rabote-kakie-kachestva-lichnosti-vi-uchli-bi-osushestvlyaya-svoj-vibor-stranica-8.html
  • laboratornaya.bystrickaya.ru/redaktor-i-arhangelskaya-kurt-vonnegut-v73-malij-ne-promah-roman-per-s-angl-predisl-g-zlobina-stranica-6.html
  • books.bystrickaya.ru/ekonomika-predpriyatiya-stranica-2.html
  • znanie.bystrickaya.ru/analiz-sostoyaniya-i-perspektivi-razvitiya-transportnoj-sistemi-chast-12.html
  • universitet.bystrickaya.ru/uchastie-tverskoj-ooo-vos-v-kultmassovih-otchet-o-rabote-pravleniya-s-aprelya-2006-goda-po-aprel-2011-goda.html
  • abstract.bystrickaya.ru/34-raschet-ekonomicheskogo-effekta-upravlenie-proizvodstvom-i-povishenie-ego-effektivnosti-3-glava-analiz-effektivnosti.html
  • credit.bystrickaya.ru/partijnij-sezon-rossijskaya-gazeta-anna-zakatnova-23042005-85-str-2-pervij-kanal-novosti-22-04-2005-18-00-00-8.html
  • urok.bystrickaya.ru/proekt-2000-538-s-seriya-koncepcii-stranica-6.html
  • thescience.bystrickaya.ru/ivanova-t-v-prirodovedenie-5-klass-metodicheskoe-posobie-k-uchebniku-a-a-pleshakova-i-n-i-sonina-prirodovedenie.html
  • thescience.bystrickaya.ru/informaciya-po-tehnologiyam-tehnicheskim-ustrojstvam-materialam-dopushennim-k-primeneniyu-komitetom-po-gosudarstvennomu-kontrolyu-za-chs-i-promishlennoj-bezopasnostyu-mchs-rk-stranica-5.html
  • desk.bystrickaya.ru/peterburgskie-spasateli-pochti-kazhdij-den-snimayut-lyudej-s-drejfuyushih-ldin-internet-resurs-dpru-07042011.html
  • ekzamen.bystrickaya.ru/spisok-literaturi-e-a-bogdanov-osnovi-tehnicheskoj-diagnostiki-neftegazovogo-oborudovaniya.html
  • prepodavatel.bystrickaya.ru/tema-21-letopis-kak-istoricheskij-istochnik-uchebno-metodicheskij-kompleks-uchebnoj-disciplini-istochnikovedenie.html
  • letter.bystrickaya.ru/normi-otdela-redkih-knig-rgb-na-vipolnenie-rabot-knigovedcheskoe-annotirovanie-i-sistematizaciya-knizhnih-pamyatnikov.html
  • holiday.bystrickaya.ru/nakazivaet-li-bog-kniga-predlagaet-zadumatsya-o-nedugah-i-prichinah-ih-poyavleniya-o-tom-chem-eti-bolezni-mogut.html
  • laboratornaya.bystrickaya.ru/razdel-a-selskoe-hozyajstvo-postanovlenie-pravitelstva-belgorodskoj-oblasti-ot-25-yanvarya-2010-g-n-27-pp-belgorod.html
  • knigi.bystrickaya.ru/rezultati-obzor-tendernoj-informacii-za-16-04-2012.html
  • zadachi.bystrickaya.ru/razvitie-internet-platyozhnih-sistem-v-mire-i-rossii.html
  • assessments.bystrickaya.ru/doklad-ministra-transporta-i-dorozhnogo-hozyajstva-respubliki-tatarstan-g-e-emelyanova.html
  • institute.bystrickaya.ru/glava-7v-ozhidanii-spaseniya-milosh-gubachek-titanik.html
  • universitet.bystrickaya.ru/uchebnaya-programma-disciplini-b3-kvantovaya-mehanika-po-napravleniyu-011800-radiofizika-nizhnij-novgorod-2011-g.html
  • doklad.bystrickaya.ru/uchebno-metodicheskij-kompleks-po-discipline-algebra-i-geometriya-specialnost.html
  • knigi.bystrickaya.ru/sologub-malenkij-chelovek-l-n-andreev-rasskaz-o-semi-poveshennih-starij-tuchnij-izmuchennij-boleznyami-chelovek.html
  • universitet.bystrickaya.ru/stankoinstrument.html
  • tests.bystrickaya.ru/konspekt-uroka-nemeckogo-yazika-po-teme-feste-und-brauche-in-deutschland.html
  • paragraph.bystrickaya.ru/m-a-rozov--problema-predmeta-filosofii-m-a-rozov-69-rassuzhdeniya-ob-intelligentnosti.html
  • institute.bystrickaya.ru/federacii-kafedra-bankovskoe-delo.html
  • thesis.bystrickaya.ru/prilozhenie-4-yu-a-bulatova-globalnie-processi-i-mezhdunarodnie-otnosheniya.html
  • credit.bystrickaya.ru/parallelnie-i-raspredelennie-vichisleniya-zadachi-disciplini-nauchit-studentov-podderzhivat-besedu-po-obsheyazikovoj.html
  • gramota.bystrickaya.ru/zadachi-vitekayushie-iz-dannoj-celi-peredat-neobhodimie-teoreticheskie-znaniya-obuchit-primeneniyu-zemelno-pravovih-norm-na-praktike-sposobstvovat-razvitiyu.html
  • exchangerate.bystrickaya.ru/avgievi-konyushni-akademicheskogo-marketinga.html
  • universitet.bystrickaya.ru/tip-model.html
  • ucheba.bystrickaya.ru/primeri-tem-referatov-po-informatike.html
  • © bystrickaya.ru
    Мобильный рефератник - для мобильных людей.