Достоверность секвенирования днк

Определение "Достоверность секвенирования днк" в ЭБНБ


Немаловажное значение имеет достоверность получаемой информации в виде последовательности нуклеотидов, чему всегда уделялось серьезное внимание [Chen, Hunkapiller, 1992]. Разработаны специальные компьютерные программы, направленные на выявление неточностей при анализе первичных данных, а также контролирующие весь ход выполнения проекта по крупномасштабному секвенированию ДНК. Особенно важным это становится в случаях когда в одной лаборатории выполняется более одного крупномасштабного проекта и поток данных чрезвычайно велик. Осуществлять контроль за такими экспериментами призвана программа Kaleidaseq [Dedhia, McCombie, 1998]. На этапе сбора первичной информации процент ошибок сильно зависит от применяемого метода секвенирования, типа метки, используемого фермента, автоматического или ручного секвенатора и варьирует в зависимости от участка секвенируемой ДНК и опыта экспериментатора. В связи с точностью секвенирования особое значение приобретает и цель, стоящая перед исследователем. Так, например, при секвенировании коротких участков молекул кДНК, называемых ESTs и служащих идентификаторами генов, достоверности подобных данных серьезного значения не придается и, по некоторым оценкам, они могут содержать более 1% ошибок [Gibbs, 1997], что совершенно недопустимо в других случаях.


Неточности в определении того или иного нуклеотида на этапе получения первичных данных, как правило, сосредоточены в регионах, приходящихся на начало и конец матрицы. Так, обычно определенное количество ошибок характерно для первых двух десятков нуклеотидов матрицы и оно заметно увеличивается после 400-500 нуклеотидов. Было проведено специальное исследование точности определения нуклеотидной последовательности с помощью разных типов флуоресцентных меток 80 разными лабораториями США, которым были розданы одинаковые образцы ДНК [Naeve et al., 1995]. Последующий анализ показал, что лаборатории по точности секвенирования могут быть разделены на три группы. Первая группа была способна секвенировать ДНК с почти 100%-ной точностью в диапазоне 100-500 нуклеотидов, с 500 по 600 нуклеотид точность определения заметно снижалась. Для второй группы почти 100%-ная достоверность была доступна только в диапазоне 100-400, тогда как третья группа 92-100%-ную точность смогла обеспечить только в интервале 10Q-300 нуклеотидов. Однако на завершающем этапе точность секвенирования ДНК должна составлять, по крайней мере, 99,95%, что соответствует 5 ошибкам на 10000 нуклеотидов, впрочем в последнее время вполне достижимым стандартом считается 99,99% или 1 ошибка на 10000 нуклеотидов [Marshall, 1995]. Используемые в геномных проектах стратегии случайного подхода, и достигаемое за счет этого в среднем 7-8-кратное покрытие генома, кроме избыточных данных, дают существенное преимущество в виде многократного "чтения" одних и тех же участков (причем, по обеим цепям) ДНК, что приводит к необходимой достоверности получаемых результатов. Так, например, при секвенировании генома Mycoplasma genitalium был достигнут требуемый стандарт -99,99% [Fraser et al., 1995], а для генома Haemophilus influenzae точность определения нуклеотидной последовательности оказалась еще выше и составила менее одной ошибки на 19000 нуклеотидов [Fleischmann et al., 1995]. Данный подсчет в некоторой степени условен и основан, в первую очередь, на определении частоты сдвига рамки считывания [Fichant, Quentin, 1995]. Другими авторами была разработана программа, способная благодаря специальному алгоритму выявлять и исправлять в кодирующих регионах определенный тип ошибок, получивших общее обозначение "индел" (indel - insertion, deletion), в виде инсерций и делеций нуклеотидов, нарушающих рамку считывания [Xu et al., 1995]. Недавно созданная программа PHRED [Ewing et al., 1998; Ewing, Green, 1998] позволяет осуществлять предсказание специфических "ошибок" в "прочтении" определенных нуклеотидов на этапе сбора первичной информации, что делает ее весьма удобной при выполнении крупномасштабных проектов. Так, с помощью данной программы был проведен анализ первичных данных 6 американских лабораторий, выполняющих проекты по секвенированию геномов [Richterich, 1998]. В результате оказалось, что предсказанные данной программой "ошибки" в определении тех или иных нуклеотидов во многом совпали с действительными, хотя справедливости ради следует отметить, что последних было все же несколько меньше. Ранее похожая программа, направленная на предсказание потенциальных ошибок в первичном материале секвенирования ДНК, была предложена другими авторами [Lawrence, Solovyev, 1994].



Возвращаясь к вопросу о достоверности последовательности ДНК генома Haemophilus influenzae, надо отметить, что сами авторы подчеркивают, что выявленные ими отдельные несовпадения (замены нуклеотидов, делеции, инсерции) при сравнении с аналогичными генами Haemophilus influenzae, определенными ранее другими авторами и помещенными в ГенБанк, вовсе не свидетельствут, что "их" последовательность не верна [Fleischmann et al., 1995].


Что касается, например, генома дрожжей Saccharomyces cerevisiae, то авторы сообщают, что в заключительной последовательности может содержаться до 3 ошибок на 10000 нуклеотидов [Goffeau et al., 1996], что соответствует точности секвенирования 99,97%.


Как уже отмечалось в предыдущей главе, дополнительная коррекция полученных результатов возможна на этапе занесения нуклеотидных последовательностей в компьютер, стыковки "прочитанных" участков и последующего анализа.



"ЭБНБ" >> "Д" >> "ДО"

Статья про "Достоверность секвенирования днк" в Энциклопедии БНБ была прочитана 3191 раз
Бургер двойного помола
Вкуснейшие куриные леденцы

TOP 15