Как теперь загрузить свой тест из Генотека в FTDNA (не привлекая внимание санитаров...)

Как теперь загрузить свой тест из Генотека в FTDNA (не привлекая внимание санитаров...)

Gilgamew genetics
Upd 25.03.2024: приходится признать, что инструкция, описанная ниже, срабатывает примерно в половине случаев. Через раз оказывается, что даже правильно (казалось бы) конвертированный файл FTDNA отказывается принимать или даёт ошибку после загрузки. Тем не менее, пока что другого способа нет - либо мы его найдём и поделимся, либо просто дождёмся, когда FTDNA вернёт прямую загрузку файлов в формате 23andMe.

Как известно, с недавних пор файлы в формате 23andMe (после взлома базы 23andMe) не удаётся загрузить в FTDNA. Так как сами 23andMe тоже закрыли скачивание файлов, то их тесты теперь вообще никуда не загрузить (Upd 25.03.2024: похоже, скачивание опять работает - проверяйте! Но загрузка в FTDNA пока не возобновилась...).

При чём тут Генотек? Дело в том, что они при анализе используют примерно тот же чип, что и 23andMe, и результаты выдают в формате 23andMe. Поэтому тот, кто хочет загрузить файл из Генотека в FTDNA, сталкивается теперь с той же проблемой - загрузить нельзя. На сайте FTDNA теперь есть только две опции - либо файл в формате Ancestry, либо в формате MyHeritage.

Возникла мысль - конвертировать файл из Генотека в формат Ancestry (в MyHeritage не получается - не нашёл пока конвертер, который это делает). Для конвертации форматов можно использовать программу DnaKitStudio, которая устанавливается на ПК (для нашей задачи подойдёт и урезанная версия 2.9, но я буду ниже объяснять на примере более полноценной версии 2.8).

Однако, есть нюанс. Генотек, на самом деле, предлагает для скачивания не один, а три формата на выбор. Хочется использовать бесплатный формат vcf. Трудность, однако, в том, что чип Генотека (и 23andMe) отличается от чипов, которые используют FTDNA и Ancestry - примерно 70% snp-маркеров в них совпадают, а вот остальные 30% - отличаются. Поэтому если вы просто конвертируете файл vcf в формат Ancestry - загрузить в FTDNA его, скорее всего, получится, но через 2-3 дня вы получите оповещение, что файл не получилось обработать, потому что в нём не хватает данных.

Выход есть (хотя некоторые наверняка будут недовольны - но об этом ниже). Генотек предлагает для скачивания два платных формата - V3 и V5. Вам нужно купить и скачать файл в формате V3. Не перепутайте - формат V5 не подойдёт, только V3!

Вы сохраните на диске файл размером около 23 Мб, с длинным именем и расширением txt. Следующий этап - конвертация. Запускаем DnaKitStudio и остаёмся в самой первой вкладке Raw Tools -> Raw Converter. Дальше в строке Raw Data Input нажимаем Browse (справа) и выбираем на диске файл, который скачали из Генотека:

В следующей строке - Raw Data Output - нажимаем Browse и придумываем название нового файла, который будем создан после конвертации.

В третьей строке ставим галочку слева, напротив "Use Raw Data Template", и в выпадающем списке выбираем формат Template_AncestryDNA_V1.txt:

И наконец, в самом нижнем блоке Options ставим переключатель в позицию "by RSID" (не убеждён, что это необходимо - но именно этот вариант сработал). После чего нажимаем кнопку Convert (справа вверху):

Конвертация занимает около 10 секунд (справа в текстовом окне будут отображаться сообщения о ходе процесса). Когда всё закончится - нажимаем OK, и в папке рядом с исходным файлом появляется конвертированный, в формате Ancestry. Его мы дальше загружаем в FTDNA - и ожидаем обработки (занимает обычно в пределах недели)

Теперь поясню - в чём здесь может быть некоторый подвох. Дело в том, что файл V3, который выдаёт Генотек за деньги, содержит не только маркеры, которые были получены при анализе вашего образца. К ним ещё добавляются маркеры, которые в вашем образце не были протестированы. Процесс этот называется "импьютацией" и напоминает реконструкцию испорченных мест в древних рукописях.

Допустим, в где-то вашей ДНК-рукописи стоит слово "цветок", но рукопись была испорчена и сохранились только буквы "цвет.к". Из контекста понятно, что слово должно стоять в именительном падеже единственного числа (то есть, это не "цветка", "цветком" или "цветки"). Значит, исследователь рукописи может вставить пропущенную букву О, не опасаясь ошибки - другие гласные здесь вряд ли уместны.

Примерно то же самое происходит при импьютации - добавляются те позиции, которые не были прочтены в образце, но которые должны быть там. Что и куда подставлять, определяется на основе имеющейся у Генотека базы данных. В итоге, мы получаем файл, в котором маркеров примерно на 30% больше, чем в исходном VCF. И когда мы конвертируем его в формат Ancestry - полученный файл содержит меньше пробелов, чем файл Ancestry, конвертированный из файла VCF. Поэтому алгоритм FTDNA способен его обработать.

По идее, грубых ошибок тут быть не должно. Во всяком случае, когда мы в ФамилиоДНК сравнивали результаты этнического профиля, которые получаются из файлов VCF и V3 одного и того же человека - разница была минимальной (и кстати, V3 иногда оказывался даже точнее). Но при поиске родственников всё-таки существует риск, что совпадение, которое вы видите с кем-то из базы FTDNA, в значительной степени состоит из тех самых "добавленных" маркеров и в действительности может быть не таким длинным, каким кажется.

Мораль здесь такая - использовать файл V3 можно, но все совпадения (особенно короткие) стоит перепроверять. Нашли интересного совпаденца - попросите его загрузить свой файл на GedMatch или в MyHeritage (или даже на Генотек) - и посмотрите, как выглядит ваше совпадение в других базах.


Report Page