Как да подам mtDNA секвенция в Genbank

Получаването на резултата за пълна секвенция на митохондриалната ДНК не е краят. Всички ние се изследваме за да научим нещо повече за произхода си. Участието в проектите, било то географски или за по хаплогрупи не прави резултата използваем за научни цели. Истинската видимост е публикуването й в научна база данни. Секвенции публикувани там са видими за научната общност и съответно може да бъдат включвани в публикации както в сравнителните, рефернтни данни или самата тя да бъде предмет на анализ, групиране и развитие на дървото.

Защо е важно да се публикуват секвенциите? Сравнителните анализи за основното оръжие на популационната генетика, съответно изводите зависят много от данните, които се сравняват . Нашите академици не правят пълни секвенции, защото нямат интерес или нямат средства, а може би и двете. За да компенсираме това изоставане на нашите академици може да се включим ние , потребителите, изхарчили парите си за тестовете. Какво по-хубаво от това да извлечем още ползи от теста? Трупането на данни за българските секвенции в научните бази данни е дълъг процес, но всеки може да помогне. Ако нашите академици бяха направили пълни секвенции на хилядата проби от изследванията от 2012-2014г. едва ли щях да пиша на всеки член на проекта с резултат пълна митохондриална секвенция. Сега (август 2019г.) има едва 124 български секвенции, 101 директно подадени от тествали се с FTDNA , останалите от научни публикации. Всяка секвенция е важна за нас.

В началото на годината бе публикувана дълго отлагана статия Mitochondrial ancestry of medieval individuals carelessly interred in a multiple burial from southeastern Romania.


Abstract

The historical province of Dobruja, located in southeastern Romania, has experienced intense human population movement, invasions, and conflictual episodes during the Middle Ages, being an important intersection point between Asia and Europe. The most informative source of maternal population histories is the complete mitochondrial genome of archaeological specimens, but currently, there is insufficient ancient DNA data available for the medieval period in this geographical region to complement the archaeological findings. In this study, we reconstructed, by using Next Generation Sequencing, the entire mitochondrial genomes (mitogenomes) of six medieval individuals neglectfully buried in a multiple burial from Capidava necropolis (Dobruja), some presenting signs of a violent death. Six distinct maternal lineages (H11a1, U4d2, J1c15, U6a1a1, T2b, and N1a3a) with different phylogenetic background were identified, pointing out the heterogeneous genetic aspect of the analyzed medieval group. Using population genetic analysis based on high-resolution mitochondrial data, we inferred the genetic affinities of the available medieval dataset from Capidava to other ancient Eurasian populations. The genetic data were integrated with the archaeological and anthropological information in order to sketch a small, local piece of the mosaic that is the image of medieval European population history.


За сравнителния анализ са включени две подадени от членове на проекта – T2b. Румънците са открили H11a1 в старите кости, ние в проекта имаме 5 български резултата от H11, но нито един не е публикуван в научната база данни. Съответно при сравнителен анализ много лесно може да се изкриви извода, че H11 е хаплогрупа, която я няма сред българите и съответно няма приемственост между сегашното население и старите кости. Това е доста опростен пример как може да се изкриви извода от липсата на достатъчно данни, български резултати. Това, че в страницата на проекта се виждат някакви резултати, не ги прави използваеми за научни цели. Аз не се притеснявам, че данните ми ще са публикувани. Ползата, че са видими е много по-голяма от имагинерното притеснение за личните ми данни. Какво като някой знае моята митохондриална хаплогрупа, какво от това? Това не е ЕГН, адрес или номер на лична карта….., които ги раздаваме за щяло и нещяло във всякакви фирми, банки и държавни и общински служби….


И аз и вуйчо ми първоначално бяхме определени като H13a1, но не бяхме съвпаденци. След публикуването им в Genbank и обновяване на дървото благодарение на нашите секвенции дървото под H13a1 се разцепи на H13a1c и H13a1d, като аз отидох на първия , а той на втория клон.

Секвенцията (KC765916) на съпруга ми отмести с една стъпка много клонове – от HV6 до HV11 включително, от HV14 до HV17 включително и от HV22 до HV24 включително. Те станаха дъщерни на хаплогрупата на съпруга ми, т.е. те са се появили след това.

По-долу споменавам за резултат на първи братовчед на баща ми. Неговата секвенция бе включена в Fine Dissection of Human Mitochondrial DNA Haplogroup HV Lineages Reveals Paleolithic Signatures from European Glacial Refugia, съответно даде основание за дефиниране на нов клон HV21.

Има още секвенции, които бяха използвани за нови разклонения – KF305642 дефинира H4a1c2. При получаването на резултата по старата версия на дървото беше само H4a1.

KJ600772 и KR137642 бяха определени като T1a1, съвпаденци са на генетична разлика от 2 мутации, след обновяване на дървото са T1a1l. Има още български резултати на генетична разлика от тях, което е потенциал за нови разклонения, възможно е двете проби да се отделят, но за това е нужно още публикувани секвенции.

За да се дефинира нов клон трябва да има повече от две секвенции с еднакви мутации, затова е важно ако вие подадете своята, да влезнете в контакт със съвпаденците си и да ги помолите и те да подадат своята.


Сигурно ви е направило впечатление в академичните публикации цитирани номера на секвенции? Това означава, че новопроизведените секвенции от авторския колектив са подадени в научната база данни и са достъпни за всички научни работници, както за проверка, така и за бъдещи публикации.


Всяка секвенция има уникален номер и собствена страница, където са публикувани данните. Ето моята секвенция – https://www.ncbi.nlm.nih.gov/nuccore/KC765915

Погледнахте ли страницата? Не е потребителски настроена….. В горната част са данни за самата секвенция – дали и индивидуално подадена от комерсиално тествал се потребител, дали е проба взета във връзка с научна публикация – заглавие, автори, дата на публикуване. После следват данни за пробата – ако е от FTDNA – номер на кита, произход, националност, регион. Цитирането на номера на кита е важно, за да не се допусне дублиране – една и съща проба да се подаде два пъти. Това е информацията, която може да ви идентифицира ако някъде другаде сте споделяли, например по форуми, номера на пробата си.

След това следват анотации за отделните сегменти на митохондриалната ДНК и най-накрая в 6 колони от по 10 символа всяка са посочени стойностите за всяка една позиция от минохонрдиалната ДНК.

В Genbank приемат резултатите в точно определен формат. Суровия файл формат FASTA , който можете да свалите от страницата си не това, което Genbank приема. Можете да пробвате сами да преобразувате файла, лично аз никога не съм го правила защото трябват познания както по микробиология, така и по ИТ, или можете да използвате услугите на Ян Логан. Ян Логан е пенсиониран микробиолог. Ian Logan <ianlogan22@btinternet.com> . Той обработи всички 21 секвенции от моите проби.


Кой е Ян Логан?


Обърнете се към него по мейл със следния текст:

Please prepare a Genbank submission for kit ХХХХХХ;
• I do not want my name to appear on the Genbank page
Ethnicity : ххххххххххххххххххххххх
Locality: държава: град или окръг: село
FTDNA kit: ХХХХХХ.
Haplogroup: H6a1a

Please prepare a Genbank submission for kit ХХХХХХ; посочвате номера на пробата,
• I do not want my name to appear on the Genbank page – посочвате, че не искате името ви да фигурира във файла и на страницата на Genbank
Ethnicity : ххххххххххххххххххххххх , не е задължително, но за проби, който са от територията на България, но не са с български произход е добре да се уточни. Например първи братовчед на баща ми е 50% арменец по майка и 50% българин по баща https://www.ncbi.nlm.nih.gov/nuccore/KF729951 . Неговата митихондриална хаплогрупа е от етнически арменци, ако не направя уточнението може в последствие да се направят грешни изводи. . Тук можете да посочите и религия, ако смятате, че това по-точно ще определи принадлежността на секвенцията – например българин мюсюлманин, български турчин, павликян, алевит, помак, гагауз. Тази допълнителна информация ще спомогне за по-точен сравнителен анализ между няколко популации, който да посочи колко близки или далечни или уникални са тези популации. (Пример за колко неочаквано далечен сравнителен анализ може да се използва една българска секвенция – тази на съпруга ми бе включена в публикация за индийския субконтинент – A genetic chronology for the Indian Subcontinent points to heavily sex biased dispersals , с която се опитват да определят от къде са дошли, както и възрастта на митохондриални групи за срещани, но неавтохтонни групи за Южна Азия. Далечно нали? Но пък гордо… че българска секвенция е достатъчно уникална да бъде включена.)
Locality: пример: Bulgaria: Pazardjik region : village Rozovo – описвате населено място от където е вашият пряк най-далечен предшественик по директна женска линия – например 2ра или 3та прабаба. Ако не го знаете или имате съмнения – посочете вашето или на майка ви или на баба ви. Може баба ви да е родена в Румъния или Гърция, но да се самоопределя като българка. Или арменка от европейската (или азиатска) част на Турция …. Тогава комбинацията етнос и локация ще даде най-добра представа за произхода на секвенцията.
FTDNA kit: ХХХХХХ – вашия номер на проба
Haplogroup: TTTTTTTTT вашата хаплогрупа съгласно страницата ви във FTDNA

Ако сте много притеснени от информацията, която се разкрива по този начин – пропуснете етнос, запишете само локация България. От Genbank няма да върнат секвенцията ви. 🙂

В мейла прикачвате FASTA файла. Бутонът за сваляне е в долен десен ъгъл, жълт на цвят. Не се опитвайте да отворите файла, няма смисъл, запазете го на удобно място, за да го прикачите в мейла.

За целите на проверка и потвърждение в мейла прикачете и мутациите, които са изписани на същата страница. Имах случаи, когато Ян Логан се усъмни в резултатите и дори ме помоли да се свържа с Help desk за уточнение.

Максимум в рамките на 48 часа Ян отговаря с мейл, в който прикачва 3 файла – един с разширение sqn – форматът за подаване към Genbank, втори – текстово копие на първия и трети с описание на мутациите. Първият файл трябва да се изпрати до професор Сюзън Шафер – gb-sub@ncbi.nlm.nih.gov с примерен текст


I attach my submission file for GenBank, named ‘ххххххх.sqn’. It is my mitochondrial DNA sequence and has not been published anywhere. My FTDNA Kit number is ‘хххххххх’ and I understand this number will appear on my page.

Thank you
…. (Full name here)


С този мейл заявявате желанието си да публикувате секвенцията, потвърждавате, че е ваша и не била публикувана до сега. След изпращането на мейла ще получите предварителен номер, след няколко дни ще ви попитат дали секвенцията е ваша и дали е публикувана, независимо, че вече сте заявили отговора на тези два въпроса. Явно това е вид предохранителна мярка от тяхна страна. Ако сте семейство и имате общ адрес, не се притеснявайте – можете да подадете няколко секвенции от този мейл адрес.

Няколко дни след като отговорите ще получите финалния номер на секвенцията и датата от която ще бъде видима.


Надявам се да съм ви убедила да подадете секвенцията си, да увеличим броя и разнообразието на българските секвенции и да не позволяваме на съседните народи да публикуват статии с грешни изводи……