【万象城AWC(中国)基因检测】基因解码基因检测如何构建专属数据库以增加正确性和检出率

除了人类基因组之外，基因解码还可以处理其他物种。但是，ANNOVAR 不给予其他基因定义的内置 mRNA FASTA 文件，因此基因检测组织必须自行构建。

为了更多地分析这一点，尝试处理黑猩猩基因组：

[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl -downdb -buildver panTro2 gene chimpdb
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/database/refGene.txt.gz ... OK 
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/database/refLink.txt.gz ... OK 
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz ... Failed
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for panTro2 build version, with files saved at the 'chimpdb' directory
WARNING: Some files cannot be downloaded, including http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz
--------------------------------IMPORTANT---------------------------------
--------------------------------------------------------------------------
NOTICE: the FASTA file http://www.openbioinformatics.org/annovar/download/panTro2_refGeneMrna.fa.gz is not available to download but can be generated by the ANNOVAR software. PLEASE RUN THE FOLLOWING TWO COMMANDS CONSECUTIVELY TO GENERATE THE FASTA FILES:
annotate_variation.pl --buildver panTro2 --downdb seq chimpdb/panTro2_seq
retrieve_seq_from_fasta.pl chimpdb/panTro2_refGene.txt -seqdir chimpdb/panTro2_seq -format refGene -outfile chimpdb/panTro2_refGeneMrna.fa
--------------------------------------------------------------------------
--------------------------------------------------------------------------

上述命令将运行，但会打印出一些警告消息：ANNOVAR 网站中未给予 FASTA 序列，因此用户需要构建它们。 只需按照确切的说明操作并运行两个命令：
[jiaxuejiyin@genejiedu ~/]$ annotate_variation.pl --buildver panTro2 --downdb seq chimpdb/panTro2_seq
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/bigZips/chromFa.zip ... Failed
NOTICE: Downloading annotation database ftp://hgdownload.cse.ucsc.edu/goldenPath/panTro2/bigZips/chromFa.tar.gz ... OK 
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for panTro2 build version, with files saved at the 'chimpdb/panTro2_seq' directory

[jiaxuejiyin@genejiedu ~/]$ retrieve_seq_from_fasta.pl chimpdb/panTro2_refGene.txt -seqdir chimpdb/panTro2_seq -format refGene -outfile chimpdb/panTro2_refGeneMrna.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/12/chr12_random.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/22/chr22.fa
NOTICE: Finished reading 1 sequences from chimpdb/panTro2_seq/14/chr14.fa
......
......
NOTICE: Finished writting FASTA for 1337 genomic regions to chimpdb/panTro2_refGeneMrna.fa.

因此，运行上述命令后，黑猩猩基因组的基因注释数据库将是完整、正确且贼新的。

练习：尝试对 rheMac2（猕猴）运行上述相同的过程，看看这与 panTro2 有何不同。 UCSC 没有针对不同的基因组使用相同的文件命名约定或目录结构规则，这使得程序员的工作变得更加复杂。 ANNOVAR 可以处理许多基因组，但还有另一种基因组 ANNOVAR 无法自动检索序列；如果是这种情况，请联系基因解码工作人员，基因解码将分析并添加该功能。

练习：尝试对 sacCer2（酵母）运行上述相同的过程，看看有何不同。

练习：尝试对 sacCer3（酵母）运行上述相同的过程，看看有何不同。请注意，UCSC 使用 ncbiRefSeq 而不是 RefGene 来表示基因注释，因此基因测序组织必须在 -downdb 命令中使用它。然后使用retrieve_seq_from_fasta.pl酵母db/sacCer3_ncbiRefSeq.txt -seqdir酵母db/sacCer3_seq/-format refGene -outfile酵母db/sacCer3_refGeneMrna.fa生成mRNA FASTQ文件。

练习：尝试对 bosTau6（牛）运行上述相同的过程。请注意，截至 2012 年 4 月，UCSC 尚未将 bosTau6 基因组序列的 FASTA 文件拆分为单个染色体。因此，基因测序组织需要在retrieve_seq_from_fasta.pl命令中使用“-seqfile bosTau6.fa”，而不是“-seqdirowdb/bosTau6_seq”。同样，尝试对 micMur1（Mouse Lemur）运行上述相同的过程，并注意使用 -seqfile 而不是 -seqdir。

练习：尝试对 rn5（大鼠）或 dm6（果蝇）运行上述相同的程序。同样，用户需要给予 FASTA 文件而不是 FASTA 目录。

仅当 UCSC 中存在针对特定物种或特定构建的基于基因的注释时，上述过程才有效。例如，如果您想在猪上使用 ANNOVAR，由于 RefSeq 基因和 UCSC Gene 不适用于猪，您必须使用 annotate_variation.pl --downdb -buildver susScr2 ensgene pigdb 代替，并使用 -dbtype ensgene 进行基于基因的分析注解。

(责任编辑：万象城AWC(中国)基因)