Исследование и оптимизация алгоритмов устранения избыточности в цифровом представлении генома человека - davaiknam.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Рабочая программа лекционного курса «Информатика» 1 61.94kb.
Исследование и оптимизация алгоритмов и устройств уровневой обработки... 1 261.26kb.
Цитогенетическое исследование диминуции хроматина у пресноводных... 4 644.37kb.
Лекция 1 Оглавление задача математической логики и теории алгоритмов 1 1 280.53kb.
«Исследование адаптивных алгоритмов передвижения шестиногого шагающего... 19 1143.52kb.
«Жесткость воды и способы ее устранения» 1 56.01kb.
Программа вступительных испытаний по информатике и икт 1 62.51kb.
Исследование и оптимизация интегрированной системы измерения параметров... 1 301.93kb.
Пояснительная записка к программе курса семинарских занятий по религиоведению... 1 54.06kb.
Доказательное проектирование алгоритмов функционирования реактивных... 1 249.08kb.
Правила симметрии в записи информации в ДНК 1 273.74kb.
Памятка для туриста подготовка к путешествию 1 105.71kb.
Направления изучения представлений о справедливости 1 202.17kb.

Исследование и оптимизация алгоритмов устранения избыточности в цифровом представлении - страница №1/1

Д.А. Драган (студент каф. 43, СПБГУАП)

ИССЛЕДОВАНИЕ И ОПТИМИЗАЦИЯ АЛГОРИТМОВ УСТРАНЕНИЯ ИЗБЫТОЧНОСТИ В ЦИФРОВОМ ПРЕДСТАВЛЕНИИ ГЕНОМА ЧЕЛОВЕКА

Целью данного доклада является рассмотрение методов и алгоритмов устранения избыточности в цифровом представлении генома человека. В докладе рассматриваются такие свойства данных человеческого генома как внутренняя и взаимная избыточность. Где под взаимной избыточностью понимается избыточность данных нескольких человеческих геномов, а под внутренней – избыточность данных единичного человеческого генома.

В рамках вопроса устранения внутренней избыточности, дается оценка эффективности применения к генетическим данным классических алгоритмов сжатия. Исследуется вопрос о максимально достижимой степени сжатия для данных такого рода.

В рамках вопроса устранения взаимной избыточности, исследуется вопрос сходства геномов различных людей. Дается теоретическая оценка эффективности устранения взаимной избыточности. Рассматриваются методы дедупликации применительно к данным человеческого генома

Конечной целью представленной исследовательской работы является создание системы хранения цифровых данных человеческого генома обладающая следующим функционалом:


  • Устранение избыточности данных множества человеческих геномов.

  • Поиск данных в базе данных по нечеткому образцу.

  • Быстрый доступ к данным.

Критериями эффективности системы являются:



  • Качество устранения избыточности (отношение размера “сырых” данных к размеру базы данных)

  • Скорость обработки дынных (устранение избыточности, поиск).

  • Объем потребляемой памяти.

В целом в работе затрагиваются следующие вопросы:



  1. Структура и свойства цифровых данных генома человека.

  2. Внутренняя избыточность данных генома. Теоретический предел сжатия. Модель источника данных (источник с памятью или нет).

  3. Взаимная избыточность данных генома. Задача дедупликации данных множества человеческих геномов. Алгоритмы и методы дедупликации применительно к генетическим данным.

  4. Задача поиска данных по нечеткому образцу.

В процессе работы были исследованы различные подходы к устранения избыточности в данных человеческого генома. Применены и оценены алгоритмы сжатия и дедупликации. Проведено сравнение используемых алгоритмов и методов с существующими аналогами. На основании проведенных исследований можно сделать вывод о перспективности подходов основанных на методах дедупликации. Это объясняется большой взаимной избыточностью данных, в противоположность маленькой внутренней избыточности.



На данный момент работа носит скорее теоретический характер. Не смотря на полученные практические результаты, открытым остается вопрос о актуальности их практического применения.
Литература:

  1. Тарантул В.З., Геном человека: Энциклопедия, написанная четырьмя буквами // 2003 г.

  2. J. R. Ecker et al., Genomics: ENCODE explained, Nature 489, pp. 52-55, 06 September 2012.

  3. PLOS BILOGY // The Diploid Genome Sequence of an Individual Human. URL: http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/ (дата обращения 12.11.2013).

  4. Сайт nature biotechnology // статья “Compressive genomics using BLAST and BLAT” URL: http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0050254 (дата обращения 12.11.2013).

  5. Сайт nature biotechnology // статья “Compressive genomics” URL: http://www.nature.com/nbt/journal/v30/n7/full/nbt.2241.html (дата обращения 12.11.2013).





Я умею себя контролировать и до завтрака никогда не возьму в рот ничего более крепкого, чем джин. Уильям Клод Филдс
ещё >>