滨州皮肤科

基因外显子组化学合成技术手册

2022-01-17 11:09:21 来源:滨州皮肤科 咨询医生

多肽一组的多肽极少分之一全都等位基因一组多肽的1%左右,但大多总共与营养不良关的的反转毗邻多肽北区。通过多肽一组PCR可解剖将近8万个反转,全都等位基因一组PCR可解剖300万个反转,因此,与全都等位基因一组PCR相较,多肽一组PCR不极少费较极低,总和总共据解读也相当简单。多肽一组PCR新科技以其经济、有效的竞争者国内用于孟德尔基因突变、罕见syndrome及独特营养不良的研究课题,并于2010年被Science周报选为年度突破之一。

一、新科技简介

随着社会生活新科技水平的大幅提颇高,人类健康问题也越来越多的受到社会各界的瞩目。基本上的遗传营养不良研究课题来进行是采用显带研究课题、核型研究课题、FISH、遗传上标、PCR-DNAPCR等基本上试验作法来寻看看与营养不良关的的DNA反转,这些作法各有各的优点,但都依赖于工作量大、效所部极低、分辨所部极低等一系列的放宽。同类型总共据采集PCR新科技的再次出现,为遗传营养不良的研究课题提供了全都新的渐进。

2009年,等位基因一组定向逃逸工具的再次出现使多肽一组PCR视作不太可能。2009年9月初,第一篇关于多肽一组PCR的作法实验室者评论于Nature周报上刊发。来自明尼苏达大学的JayShendure通过对四名Freeman-Sheldonsyndrome颇高精气压的多肽一组PCR,看看到了值得注意的病毒性等位基因MYH3。随后,该的团队将这种新科技用于怀特syndrome的研究课题,通过对颇高精气压编码北区多肽的逃逸及深将近PCR,解剖出单个候选等位基因DHODH,并经SangerPCR实验室者其他颇高精气压里面依赖于该等位基因的特异性。

多肽一组的多肽极少分之一全都等位基因一组多肽的1%左右,但大多总共与营养不良关的的反转毗邻多肽北区。通过多肽一组PCR可解剖将近8万个反转,全都等位基因一组PCR可解剖300万个反转,因此,与全都等位基因一组PCR相较,多肽一组PCR不极少费较极低,总和总共据解读也相当简单。多肽一组PCR新科技以其经济、有效的竞争者国内用于孟德尔基因突变、罕见syndrome及独特营养不良的研究课题,并于2010年被Science周报选为年度突破之一。近两年多肽一组研究课题关的的SCI评论已刊发千余篇,已对总共百种营养不良揭开序幕了深入研究课题,研究课题结果推动了人类医学的研究课题。

二、新科技竞争者

• 实际上对蛋白质编码多肽透太少肽测定,看看出受到影响蛋白质结构上的反转。• 颇高深将近PCR,可辨认出罕见反转及增益极极低1%的罕见反转。• 针对多肽一组周围PCR,将近分之一等位基因一组的1%,有效增大费、天数、工作量。

三、应用简而言之

营养不良

遗传来进行

病毒性等位基因

Freeman-Sheldonsyndrome

AD

MYH3

Kabuki syndrome

AD

MLL2

Schinzel-Giedion syndrome

AR

SETBP1

Sensenbrenner syndrome

AR

WDR35

Fowler syndrome

AR

FLVCR2

Perrault syndrome

AR

HSD17B4

Hajdu-Cheney syndrome

AD

NOTCH2

成骨不全都

AR

SERPINF1

怀特syndrome

AR

DHODH

Brown-Vialetto-van Laere syndrome

AR

C20orf54

精气酰脂酶太少人格不快syndrome

AR

PIGV

家族病态β-脂蛋白质过少缺乏症

AD

ANGPTL3

色素病态视网膜炎

AR

DHDDS

非syndrome病态失聪

AR

GPSM2

原发病态十二所称肠病态水肿

AD

GJC2

肌萎缩病态侧索渗出

AD

VCP

非syndrome的人格不快

AR

TECR

Van Den Ende-Gupta syndrome

AR

SCARF2

自身免疫病态淋巴一其组织增生症(ALPS)

AR

FADD

小脑共济失调

AD

TGM6

逆向病态痤疮

AD

NCSTN

四、建筑施工

相较基本上PCR,多肽PCR都能快速的拿到所有多肽周围的遗传资讯,在大幅提升效所部的同时总共值得注意增大了研究课题成本;相较全都等位基因一组PCR,多肽PCR都能在更长实验室天数、减少总和总共据研究课题量及实验室投入的基础上有针对病态的取得几乎全都等位基因一组PCR所能取得的资讯。基于多肽一组PCR良好病态价比,该作法现今在国内从未被国内的用于基因突变和前列腺乳癌研究课题里面。

1. 单等位基因营养不良研究课题计划

首先必能够按照营养不良基因型对代代领导者透过严苛乳癌,明确其年老情形并透过该营养不良研究课题的剧里面实地调查。在看看出该营养不良从未有一些研究课题剧里面和关的的病毒性等位基因报道,可通过基本上PCRPCR作法对值得注意的营养不良关的反转透过实验室者和初筛;表明所研究课题的采样里面未辨认出关的的等位基因反转,那么可以挑选一个或总共个大致相同营养不良代代的核心领导者领导者透过多肽一组PCR。每个代代里面的年老生物体选得用3-5个采样,正常生物体选得用1-2名作为解读透过研究课题。按照营养不良模型(AD,AR等)及遮罩的代代资讯对PCR取得的结果透过研究课题,缩小候选反转的之内,经太少种评注、基因序列后转换成丢出对动态无受到影响的反转及公共总和文档里面的罕见反转,再次采用基本上PCRPCR透过采样扩大化实验室者及关的的动态研究课题,最终断定营养不良关的反转。

单等位基因基因突变研究课题简而言之:

a. 代代图:

b. 研究课题渐进:1). 隐病态纯合特异性病毒性:两个颇高精气压提供者大致相同的纯合特异性,父母为杂合据称。2). 复合杂合特异性病毒性:两个颇高精气压具有大致相同的特异性,即在一个等位基因内有两个有所不同的杂合反转,而父母分别为这两个杂合特异性的据称。3). 显病态来进行(新生特异性):看看两个颇高精气压共有的杂合特异性,而父母不带有该特异性。

c. 研究课题结果点头:

若采样为散发采样,由于采样外没有亲戚关系,遗传剧里面差不多不大,PCR取得的结果也较难研究课题。为了相当准确的取得有价总共值的结果,采用散发采样透过多肽一组PCR要求的采样分之一比代代采样要多一些。一般建议至少做30个年老生物体采样以上的平行PCR研究课题。对大量年老生物体的PCR总和总共据透太少采样研究课题,从而断定候选营养不良关的反转,再次用基本上PCRPCR在其他的大致相同营养不良年老生物体和正常人群里面做进一步实验室者。

2. 独特营养不良及前列腺乳癌的研究课题计划

对于独特营养不良,首先应该选择具有基因突变态较颇高的病例作为研究课题对象,一般必能够满足下述几个优点:a.与营养不良关的;b. 颇高度遗传;c. 在颇高精气压里面乏善可陈较早,基因型恰当,颇高外显所部;d.营养不良的发病机制相似。总体的研究课题渐进一般是通过但会采样的多肽PCR(年老和健康生物体各50例)看看到与营养不良颇高度关连的极低频特异性,然后根据这一结果订制适宜的ROM,在大采样里面透过大规模实验室者。从而拿到精确度高于的营养不良关的反转位点。接着可以针对这些位点透过生物学动态研究课题,从而取得有意涵的结果,开发新出营养不良诊断及治疗的关的产品等。

在各种生理的作用下,机某些生殖肝细胞碱基上再次次发生的反转毁损或再次次发生变化了某些助于要的生物学每一次,生殖肝细胞才会因此异常增生而趋向为肝细胞。由于肝细胞具有异质病态,同一块一其组织里面不太可能含有有所不同时期的肝细胞以及正常生殖肝细胞,因此它的等位基因反转情形相较其遗传营养不良来说相当独特。对于一其组织的多肽一组PCR研究课题,其最关键的流程在于采样的选得用。现今最罕见的情形是分别得用同一前列腺乳癌颇高精气压的乳癌一其组织和乳癌旁一其组织透过比较,采样分之一建议至少20对以上。PCR后成对的采样透过研究课题后再次透过有所不同病人外的多采样研究课题,为了将来考古关的的等位基因反转。由于产生的原因之外等位基因特异性,等位基因表将近新科技水平反转,表观遗传反转等多个方面,在为了让NGS研究课题的时候,有时候会采用多种试验作法相结合的作法,例如转录一组PCR、全都等位基因一组PCR、特异性PCR等,相互间透过印证,多总和总共据结合研究课题可以进一步的大幅提颇高总和总共据的可靠病态,提升科研评论档次。

{nextpage}

五、逃逸和平台

现今主流的逃逸和平台,各和平台的优点如下。

逃逸和平台

Illumina TruSeq Exome Enrichment Kit

Roche SeqCap EZ Human Exome Library

Agilent SureSelect Human All Exon

逃逸量

62M

64M

51M

逃逸周围

多肽及旁翼北区,

均UTR及miRNA

多肽北区及miRNA

多肽北区

遮罩

95 mer DNA

90-105 mer DNA

120 mer RNA

遮罩比例

340,427

2,100,000

655,872

对常用总和文档的覆盖所部

97.2% CCDS

96.4% RefSeq

93.2% Gencode

77.6% miRBase

99.8% CCDS

98.4% RefSeq

96.7% Gencode

98.67% miRBase

1.22% of human genomic regions,

> 700 human miRNAs,

> 300 additional human non-coding RNAs

六、这两项流程

1、 采样遮罩

用于建库的DNA遮罩国际标准为遮罩浓度多于60ng/μl,体积多于20μl,OD260/OD280为1.7-2.0。通过下述三种方式则透过采样遮罩:

• 采用荧光定量的作法对DNA遮罩透过定量;• NanoDrop遮罩OD260/OD280;• GC遮罩DNA的平衡状态,是包含蛋白质质、RNA废水及是否依赖于DNA降解。 2、 建库

应用TruSeq DNA Sample Prep Kits透过文库催化,起始DNA量为1.2 μg。

3、 逃逸

以Illumina的逃逸和平台为例,应用TruSeq Exome Enrichment Kit逃逸多肽一组及旁翼北区,均UTR及miRNA,总逃逸之内为62M。

4、 PCR

捕拿到到的DNA多肽可于Illumina的任一PCR仪里面透过PCR,以HiSeq2000为例,每run可运行两张flowcell,每个flowcell之外8个lane,100PE来进行下每run运行将近11天,总和总共据产出为600G。逃逸遮罩经桥式PCR后,置于flowcell里面透过PCR,多肽一组采样一般建议PCR125X,之后足够透过遗传营养不良研究课题,如采样可根据情形更进一步增加PCR深将近。

{nextpage}

5、 质控

严苛采用Illumina原厂试剂,遵循Illumina GenomeNetwork经营管理,是Illumina全都球略极极低PCR密度的都是。平除此以外多于99% 核酸弹道将近Q20,保障多于85%核酸弹道将近Q30,平除此以外clean data分之一raw data 90% 以上。对于多肽一组这两项,将近90%的多肽周围覆盖度将近到10×以上,保障略极极低的PCR除此以外一病态。

a. 总和总共据集

HiSeq 2000和平台产出的总和总共据集为FastqPDF,下述是对该PDF的详细明确指出:

@HWI-ST1203:231:C1NDLACXX:7:1101:1837:2139 1:N:0:AGTCAATTCCACTTAAAAATACAAGAGCACAAATCCACATTTATTTATTGATTTTTCGTTAGTTTAAATCCTTGAGGGGTACAGCATCACTCGGATTCTGTGTCCAA+CCCFDFFFHHHHHJJJJIJJJJJJJJIJIJIJFHJJGJEIEIGIIJIJIIGIDGGIIHI@HHEHIIIIIJ=CHABBDFFFFEEDEEDBBDDCDDCCDDCDC

对于以上Fastq多肽,第一行以@开头,右边是read的ID以及其他资讯;第二行都是read的多肽;第三行一般以“+”回应;第四行都是read的密度资讯,与第二行的核酸多肽相较应。其里面,为了之后于近似值机透过存储,密度总共值以字节来回应,每个字节所都是的ASCII码减去33即为该核酸对应的密度总共值。根据相应的公式(Q=-10lgP),即可近似值每个核酸被测错的概所部,其里面Q20都是核酸被测错的概所部为1%,Q30都是核酸被测错的概所部为1‰。

将以上Fastq多肽的密度资讯转换成相应的密度总共值,结果如下。在该read里面,只有一个核酸的密度总共值为28,其余核酸的密度总共值除此以外多于30。34,34,34,37,35,37,37,37,39,39,39,39,39,41,41,41,41,40,41,41,41,41,41,41,41,41,40,41,40,41,40,41,37,39,41,41,38,41,36,40,36,40,38,40,40,41,40,41,40,40,38,40,35,38,38,40,40,39,40,31,39,39,36,39,40,40,40,40,40,41,28,34,39,32,33,33,35,37,37,37,37,36,36,35,36,36,35,33,33,35,35,34,35,35,34,34,35,35,34,35,34.

b. 密度评量

核酸密度平均分

下面是等位基因PCR取得read的密度总共值结果,其里面几乎所有核酸的密度总共值在20以上,90%以上核酸的密度总共值在30以上。

PCR深将近分布

虽然多肽一组PCR的总体深将近一般都多于100X,但由于PCR每一次里面依赖于一定的多肽偏向病态,均多肽周围的PCR覆盖度较极低。在透过资讯研究课题时,有时候只权衡PCR深将近很低10X的多肽周围,以之后大幅提颇高研究课题结果的可靠病态。PCR结果里面,85%-95%的多肽周围PCR深将近多于10X,保障较颇高的PCR除此以外一病态。

c. 结果助于现

英文参总共

总和结果

里面文明确指出

Sample Name

Example

采样名

Total reads

100,256,834

Reads分之一

Total yield (bp)

10,125,940,234

总和总共据量

Read length (bp)

101.0

读长

Target regions (bp)

62,085,286

尽不太可能周围尺寸

Average throughput depth of target regions

163.1

平除此以外PCR深将近

Initial mappable reads (mapped to human genome)

100,097,762

解为对多肽总共

% Initial mappable reads (out of total reads)

99.8%

解为对多肽分之一

Non-redundant reads (de-duplicated by Picard tools)

82,401,028

非冗余多肽总共

% Non-redundant reads (out of initial mappable reads)

82.3%

非冗余多肽分之一

Non-redundant unique reads (uniquely mapped to human genome)

73,028,083

非冗余基本上基因序列多肽总共

% Non-redundant unique reads (out of non-redundant reads)

88.6%

非冗余基本上基因序列多肽分之一

On-target reads (mapped to target regions)

50,349,303

尽不太可能周围多肽总共

% On-target reads (out of non-redundant unique reads)

68.9%

尽不太可能周围多肽分之一

% Coverage of target regions (more than 1X)

95.1%

PCR深将近多于1×的覆盖度

Number of on-target genotypes (more than 1X)

59,032,909

PCR深将近多于1×的周围

% Coverage of target regions (more than 10X)

91.6%

PCR深将近多于10×的覆盖度

Number of on-target genotypes (more than 10X)

56,865,579

PCR深将近多于10×的周围

Mean read depth of target regions

65.4

尽不太可能周围平除此以外PCR深将近

Number of SNPs

78,241

SNP分之一

Number of coding SNPs

20,593

编码北区SNP分之一

Number of synonymous SNPs

10,654

同义SNP分之一

Number of nonsynonymous SNPs

9,391

非同义SNP分之一

Number of Indels

8,447

InDel分之一

Number of coding Indels

411

编码北区InDel分之一

6、 资讯研究课题

a. 断定多肽,总和总共据集转换成及总和:通过FastQC, FastX-toolkit等软件包对PCR密度透过评量,转换成极低密度reads(多于5个核酸密度极极低Q20),多余的总和总共据作为clean data透过研究课题,平除此以外多于99%的核酸密度很低Q20,多于85%的核酸密度很低Q30。b. Mapping:通过bwa软件包将reads map到国际标准参考等位基因一组上(UCSC hg19),转换成无法map到参考等位基因一组和多助于map的reads后透过后续研究课题,将近有99.5%的reads能透过下一轮研究课题。c. 转换成完全都恰当reads(duplicate reads):多肽逃逸每一次里面含有PCR缩减流程,会人为加进完全都恰当的DNA完整版,由于这些DNA多肽会对后期的研究课题造成了受到影响,故要采用PICARD软件包转换成总和总共据里面的duplicate reads,有所不同的逃逸和平台里面这类多肽所分之一的分之一不一样,illumina逃逸和平台里面的duplicatereads分之一将近分之一总总和总共据的15-20%,Agilent和平台里面的这一总共总共值将近为1-3%。d. 对尽不太可能周围内的多肽透过反转检测:采用Samtools对PCR结果与参考等位基因一组透过基因序列,看看出遮罩里面依赖于的反转,之外SNV,InDel等,并对其透过评注及动态预见,之外dbSNP、1000G总和文档,SIFT,Polyphen-2,GERP等软件包。e. 多采样研究课题:根据研究课题内容的有所不同,将多个采样分为有所不同的一组别,对其里面的反转资讯透过汇总,总和反转在族裔内再次出现的增益,左边等关的资讯,通过KEGG等信号通路评注研究课题其与营养不良之外的关连。f. 分析报告提交:之外遮罩遮罩与建库分析报告(pdfPDF)、PCR结果分析报告(pdfPDF)、单采样反转检测分析报告(excelPDF)、多采样汇总研究课题分析报告(excelPDF)、总和总共据集(fastq、BAM等PDF)和刊发评论所必需的各类图表。

七、多肽一组PCR关的名词

多肽一组PCR:是所称为了让多肽逃逸新科技将全都等位基因一组多肽周围DNA抓取并富含后透过总共据采集PCR的等位基因一组研究课题作法。多肽PCR相较于等位基因一组助于PCR成本较极低,对研究课题值得注意等位基因的SNP、 InDel 等具有不大的竞争者。

PCR深将近:PCR取得的总核酸总共与待测周围尺寸的比总共值。如采用Illumina TruSeq Exome Enrichment Kit,该试剂盒的逃逸之内为62M,PCR取得620M总和总共据量时,PCR深将近为620/62=10×。

覆盖度:所称PCR拿到的多肽分之一整个待测周围的分之一。如果多肽一组PCR的覆盖度是98%,则回应仍有2%的多肽周围是没有通过PCR拿到的。

Read:就是读长,就是总共据采集PCR时一个反应所能测出的核酸总共。

SNP(single nucleotide polymorphism):单多肽多态病态,生物体外等位基因一组DNA多肽同一左边单个多肽反转(替代、插进或遗漏)所导致的多态病态;有所不同品种生物体等位基因一组 DNA 多肽同一左边上的单个多肽依赖于差别的现象。 InDel(Insertion/Deletion):插进/遗漏,是所称两种特异性在全都等位基因一组里面的差别,相较另一个特异性而言,其里面一个特异性的等位基因一组里面有一定比例的多肽插进或遗漏。 CNV(copy number variation):等位基因一组拷贝总共反转,是等位基因一组反转的一种基本,有时候使等位基因一组里面大完整版的DNA形成非正常的拷贝比例。 SV(structurevariation):等位基因一组结构上反转,碱基结构上反转是所称在碱基上再次次发生了大完整版的反转。主要之外碱基大完整版的插进和遗漏(导致 CNV的变化),碱基内部的某块周围再次次发生助于复复制、倒置颠换、易位、两条碱基之外再次次发生助于一组(inter-chromosometrans-location)等。

TAG: