CN101061221A - 合成核酸分子及制备方法 - Google Patents

合成核酸分子及制备方法 Download PDF

Info

Publication number
CN101061221A
CN101061221A CNA2005800392825A CN200580039282A CN101061221A CN 101061221 A CN101061221 A CN 101061221A CN A2005800392825 A CNA2005800392825 A CN A2005800392825A CN 200580039282 A CN200580039282 A CN 200580039282A CN 101061221 A CN101061221 A CN 101061221A
Authority
CN
China
Prior art keywords
sequence
seq
nucleic acid
acid molecules
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800392825A
Other languages
English (en)
Inventor
K·V·伍德
M·G·伍德
B·阿尔蒙德
A·帕吉奥
F·范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Promega Corp
Original Assignee
Promega Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Promega Corp filed Critical Promega Corp
Publication of CN101061221A publication Critical patent/CN101061221A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/43504Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates
    • C07K14/43595Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from invertebrates from coelenteratae, e.g. medusae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/65Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression using markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide

Abstract

在特定宿主细胞中表达时不适当或不需要的转录特征减少的合成核酸分子的制备方法。

Description

合成核酸分子及制备方法
                       背景
转录,从DNA序列合成RNA分子,是基因表达的第一步。调节DNA转录的序列包括启动子序列、聚腺苷酸化信号、转录因子结合位点和增强子元件。启动子是能够特异性启动转录的DNA序列,由3个通用区组成。核心启动子是RNA聚合酶及其辅因子与DNA结合的序列。紧接着核心启动子的上游是含有若干转录因子结合位点的近侧启动子,它负责活化复合物的装配,继而又募集聚合酶复合物。远侧启动子位于近侧启动子的更上游,也含有转录因子结合位点。同转录起始一样,转录终止和聚腺苷酸化都是位点特异性的,并由特定序列编码。增强子是含有多个转录因子结合位点的调节区,可从响应的启动子明显提高转录水平,而与增强子的方向以及与启动子的距离无关,只要增强子和启动子都位于同一DNA分子内。基因产生的转录物数量也由转录后机制进行调节,最重要的转录后机制就是RNA剪接,它从初级转录物上,除去剪接供体和剪接受体序列之间的间插序列(内含子)。
自然选择是这样一种假说:基因型与环境的相互作用发生在表型水平上,导致个体的差别繁殖成效,因此导致群体基因库的修饰。按照自然选择,核酸分子的一些特性包括密码子使用频率、RNA二级结构、内含子剪接效率和与转录因子或其它核酸结合蛋白的相互作用。由于遗传密码的简并性,这些特性可因自然选择而优化,同时并不改变相应的氨基酸序列。
在某些条件下,这可用于经过合成而改变编码多肽的天然核苷酸序列,以便更好地适应交替应用的多肽。一个普通的实例是:当基因在外源宿主细胞中表达时,就会改变基因的密码子使用频率。尽管遗传密码的冗余性允许氨基酸由多个密码子编码,但是不同生物体比起其它的来说更偏爱某些密码子。已经发现,在非天然宿主细胞中,通过调节密码子使用频率、但保持相同的基因产物,可以大大地提高蛋白质的翻译效率(美国专利5,096,825、5,670,356和5,874,304)。
然而,改变密码子使用,反过来又将不适当的转录调节序列无意地引入合成核酸分子中。这对转录会有不利影响,导致合成DNA的异常表达。异常表达定义为偏离正常或预期的表达水平。例如,已经知道,位于启动子下游的转录因子结合位点影响启动子活性(Michael等,1990;Lamb等,1998;Johnson等,1998;Jones等,1997)。另外,在启动子序列不存在或在转录调节序列存在的情况下,经常可见增强子元件影响DNA转录活性并导致DNA转录水平升高,以在启动子序列不存在的情况下提高基因表达的基础水平。
因此,我们所需要的是,在特定宿主细胞中表达时具有改变的密码子使用而没有引入不适当或不需要的转录调节序列的合成核酸分子的制备方法。
                         发明概述
本发明提供包含合成核苷酸序列的分离的核酸分子(多核苷酸),所述合成核苷酸序列相对于亲代核酸序列(例如野生型核酸序列)来说具有减少的核酸序列同一性,例如90%以下、例如80%、78%、75%或70%以下的核酸序列同一性,并且具有更少的调节序列,例如转录调节序列。在一个实施方案中,合成核苷酸序列具有更少的调节序列,这是由合成核苷酸序列和亲代核酸序列间的序列差异(例如任选不同密码子)的随机选择的结果。在一个实施方案中,合成核苷酸序列编码多肽,所述多肽的氨基酸序列与天然存在(天然或野生型)的相应多肽(蛋白质)的氨基酸序列具有至少85%、90%、95%或99%或100%同一性。因此,已经知道,也可需要某些特定的氨基酸变化,以改变合成核苷酸序列所编码多肽的某一具体表型特征。优选氨基酸序列同一性超过至少100个毗连氨基酸残基。在本发明的一个实施方案中,在合成核苷酸序列中不同的密码子优选编码与亲代核酸序列中相应密码子所编码的相同的氨基酸。
因此,在一个实施方案中,本发明提供分离的核酸分子,其包含具有可选择或可筛选多肽编码区的合成核苷酸序列,其中所述合成核苷酸序列与编码相应可选择或可筛选多肽的亲代核酸序列具有90%、例如80%以下的核酸序列同一性,其中所述合成核苷酸序列编码可选择或可筛选多肽,它与亲代核酸序列所编码的相应可选择或可筛选多肽具有至少85%氨基酸序列同一性。降低的核苷酸序列同一性,是合成核苷酸序列密码子与亲代核酸序列密码子不同的结果。相对于亲代核酸序列来说,例如相对于调节序列的平均数,本发明的合成核苷酸序列的调节序列数目减少,这是合成核苷酸序列和亲代核酸序列之间序列上不同的密码子或核苷酸随机选择的结果。在一个实施方案中,核酸分子可以包含合成核苷酸序列,它与其它序列一起编码可选择或可筛选多肽。例如,构成可选择或可筛选多肽可读框部分的合成核苷酸序列可以包含可读框的至少100、150、200、250、300或更多个核苷酸,所述核苷酸相对于亲代核酸序列的相应序列来说核酸序列同一性降低。在一个实施方案中,亲代核酸序列是SEQ ID NO:1、SEQ IDNO:6、SEQ ID NO:15或SEQ ID NO:41、它们的互补序列,或者与其具有90%、95%或99%核酸序列同一性的序列。
在一个实施方案中,本发明的核酸分子包含已经为在哺乳动物细胞、更优选在人体细胞中表达而优化的序列(参见例如WO 02/16944,其中公开了为在目标细胞中表达而优化序列的方法)。例如,核酸分子可通过以下方法为在真核细胞中表达而优化:引入Kozak序列和/或一个或多个内含子或者减少其它调节序列的数目,和/或将密码子使用变成在一种或多种真核生物中更频繁使用的密码子,例如在有待用所述核酸分子转化的真核宿主细胞中更频繁使用的密码子。
在一个实施方案中,合成核苷酸序列存在于载体例如质粒中,这种载体还可包括其它优化序列。在一个实施方案中,合成核苷酸序列编码包含选择性多肽的多肽,所述合成核苷酸序列与包含例如以下序列的可读框具有至少90%以上的核酸序列同一性:SEQ ID NO:5、SEQID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:30、SEQ IDNO:38、SEQ ID NO:39、SEQ ID NO:42、SEQ ID NO:44、SEQ ID NO:70、SEQ ID NO:71、SEQ ID NO:72、SEQ ID NO:73、SEQ ID NO:74、SEQID NO:80、SEQ ID NO:81、SEQ ID NO:82、SEQ ID NO:83、SEQ IDNO:84、它们的互补序列或其片段,并且所述合成核苷酸序列所编码的多肽与相应全长和任选野生型(功能性)多肽具有基本相同的活性,例如由SEQ ID NO:1、SEQ ID NO:6、SEQ ID NO:15或SEQ ID NO:41或其部分所编码的多肽,而且所述合成核苷酸序列与其它亲代或野生型序列一起编码与相应全长和任选野生型多肽具有基本相同活性的多肽。本文所用的“基本相同(的)活性”是指具有相应全长和任选野生型(功能性)多肽活性的至少约70%、例如80%、90%以上。在一个实施方案中,分离的核酸分子编码包含选择性多肽的融合多肽。
还提供分离的核酸分子,其包含具有萤火虫萤光素酶编码区的合成核苷酸序列,其中相对于编码萤火虫萤光素酶的亲代核酸序列(例如具有SEQ ID NO:14或SEQ ID NO:43的亲代核酸序列)来说,合成核酸分子的核酸序列同一性是90%以下、例如80%、78%、75%以下,所述合成核苷酸序列具有更少的调节序列(包括转录调节序列),这是由序列差异(例如不同密码子)的随机选择的结果。优选合成核苷酸序列编码多肽,其氨基酸序列与天然存在的多肽或亲代多肽的氨基酸序列具有至少85%、优选90%、最优选95%或99%同一性。因此,已经知道,也可需要某些特定的氨基酸变化,以改变合成核苷酸序列所编码的萤光素酶的某一具体表型特征。优选氨基酸序列同一性超过至少100个毗连氨基酸残基。在一个实施方案中,合成核苷酸序列编码包含萤火虫萤光素酶的多肽,所述合成核苷酸序列与例如包含以下序列的可读框具有至少90%以上核酸序列同一性:SEQ ID NO:21、SEQ IDNO:22、SEQ ID NO:23、它们的互补序列或其片段,并且所述合成核苷酸序列所编码的多肽与相应全长和任选野生型(功能性)多肽具有基本相同的活性,例如由SEQ ID NO:14或SEQ ID NO:43或其部分所编码的多肽,而且所述合成核苷酸序列与其它序列一起编码萤火虫萤光素酶。例如,构成萤火虫萤光素酶可读框部分的合成核苷酸序列可以包含可读框的至少100、150、200、250、300或更多个核苷酸,所述核苷酸与亲代核酸序列中的相应序列相比,核酸序列同一性降低。
在另一个实施方案中,本发明提供包含合成核苷酸序列的分离的核酸分子,所述合成核苷酸序列不包含编码目标肽或多肽的可读框,例如所述合成核苷酸序列可具有可读框,但不包含编码功能性或所需要的肽或多肽的序列,但可包含一个或多个终止密码子(在一个或多个读框中)、一个或多个聚腺苷酸化位点和/或两个或更多个限制性内切核酸酶(限制酶)的毗邻序列,即多克隆区(也称为多克隆位点,“MCS”),而且其长度通常为至少20、例如至少30个核苷酸、高达1000或更多个核苷酸、例如高达10,000个核苷酸,所述合成核苷酸序列与相应亲代核酸序列相比具有减少的调节序列(例如转录调节序列)。在一个实施方案中,不编码肽或多肽的合成核苷酸序列与亲代核酸序列具有90%以下、例如80%以下的核酸序列同一性,其中降低的序列同一性是相对于亲代核酸序列来说合成核苷酸序列的调节序列数目减少的结果。
在合成核苷酸序列中减少的调节序列包括但不限于以下各调节序列的任何组合:转录因子结合序列、内含子剪接位点、聚腺苷酸化位点(下文中称为poly(A)序列或poly(A)位点)、增强子序列、启动子组件和/或启动子序列,例如原核启动子序列。一般而言,合成核酸分子缺乏至少10%、20%、50%以上的调节序列,例如基本上缺乏相应亲代或野生型核苷酸序列中存在的所有调节序列,例如80%、90%以上、例如95%以上的调节序列。调节序列,例如转录调节序列,是本领域众所周知的。合成核苷酸序列也可以具有数目减少的限制酶识别位点,并且可以经过修饰以包含选择序列,例如位于合成核苷酸序列5′端和/或3′端或其附近的序列,例如Kozak序列和/或所需的限制酶识别位点,例如用于将合成核苷酸序列引入特定位置的限制酶识别位点,例如在目标核酸序列5′和/或3′的多克隆区内。
在一个实施方案中,本发明的合成核苷酸序列具有不同于亲代核酸序列或野生型核酸序列的密码子组成。本发明所用的优选密码子,是对于特定生物体的同一氨基酸来说,比至少一个其它密码子更频繁使用的密码子,和/或在所述生物体中并不是低频率使用的密码子,和/或在用于克隆或筛选合成核苷酸序列表达的生物体(例如大肠杆菌(E.coli))中并不是低频率使用的密码子。此外,某些氨基酸的密码子(即那些具有3种以上密码子的氨基酸)可以包含两个或更多个密码子,它们比其它(非优选)密码子更频繁使用。合成核苷酸序列中存在着这样的密码子:它们在一种生物体中比在另一种生物体中更频繁使用,这导致合成核苷酸序列当导入更频繁使用这些密码子的生物体细胞中,其异常表达的危险性下降和/或在某些条件下,在这些细胞中的表达水平高于野生型(未修饰)核酸序列的表达水平。例如,在相同条件(例如细胞培养条件,载体骨架等)下,编码可选择或可筛选多肽的本发明合成核酸分子的表达水平在细胞或细胞提取物中要比亲代或野生型(未修饰)核酸序列的高,例如高至少约2倍、3倍、4倍、5倍、10倍或更高倍数。在一个实施方案中,本发明合成核苷酸序列的密码子组成上,有超过10%、20%以上、例如30%、35%、40%或大于45%、例如50%、55%、60%以上的密码子不同于亲代核酸序列或野生型核酸序列的密码子。
在本发明的一个实施方案中,不同的密码子是那些在哺乳动物中更频繁使用的密码子,而在另一实施方案中,不同的密码子是那些在植物中更频繁使用的密码子。特定类型的哺乳动物例如人,可具有比另一类型哺乳动物更优选的一组不同的密码子。同样,特定类型的植物也可具有比另一类型的植物更优选的一组不同的密码子。在本发明的一个实施方案中,大多数不同的密码子是所需宿主细胞的优选密码子,和/或不是特定宿主细胞的低使用密码子。优选的哺乳动物(例如人类)密码子和植物密码子是本领域已知的(例如Wada等,1990)。例如,优选的人类密码子包括但不限于CGC(Arg)、CTG(Leu)、AGC(Ser)、ACC(Thr)、CCC(Pro)、GCC(Ala)、GGC(Gly)、GTG(Val)、ACT(Ile)、AAG(Lys)、AAC(Asn)、CAG(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)和TTC(Phe)(Wada等,1990)。因此,本发明合成核苷酸序列的密码子组成与野生型核酸序列的不同之处在于:具有数目增加的优选人类密码子,例如CGC、CTG、TCT、AGC、ACC、CCC、GCC、GGC、GTG、ACT、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC、TTC或它们的任何组合。例如,相对于亲代核酸序列或野生型核酸序列来说,本发明的合成核苷酸序列可具有数目增加的AGC丝氨酸编码密码子、CCC脯氨酸编码密码子和/或ACC苏氨酸编码密码子或它们的组合。同样,在植物中更频繁使用并具有数目增加的密码子的合成核苷酸序列,其密码子组成与野生型核酸序列的不同之处在于:具有数目增加的植物密码子,包括但不限于CGC(Arg)、CTT(Leu)、TCT(Ser)、TCC(Ser)、ACC(Thr)、CCA(Pro)、CCT(Pro)、GCT(Ser)、GGA(Gly)、GTG(Val)、ATC(Ile)、ATT(Ile)、AAG(Lys)、AAC(Asn)、CAA(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)、TTC(Phe)或它们的组合(Murray等,1989)。优选的密码子可以因植物类型的不同而不同(Wada等,1990)。
合成核酸序列中的核苷酸取代会受到诸多因素的影响,例如,希望具有数目增加的核苷酸取代,例如导致沉默核苷酸取代的取代(编码同一氨基酸)和/或数目减少的调节序列。在某些情况(例如允许除去转录因子结合位点)下,最好用并非某一优选密码子的密码子或并非优选密码子的密码子来取代非优选密码子,以便减少调节序列的数目。
本发明也提供表达盒或载体。本发明的表达盒或载体分别包含本发明合成核苷酸序列及与本发明合成核苷酸序列操作性连接并且能在细胞中起作用的启动子,或者包含合成核苷酸序列。优选的启动子是在哺乳动物细胞起作用的启动子和在植物细胞中起作用的启动子。任选表达盒可包括其它序列,例如一个或多个限制酶识别序列(位于选择性多肽或萤光素酶可读框5′端和/或3′端)和/或Kozak序列,并且可以是例如质粒、粘粒、人工染色体或载体(例如病毒载体)等较大多核苷酸分子的组成部分,其中可以包含其它序列的多克隆区,例如启动子、增强子、其它可读框和/或poly(A)位点。在一个实施方案中,本发明的载体包含SEQ ID NO:88、SEQ ID NO:89、SEQ ID NO:90、它们的互补序列或与其具有至少80%核酸序列同一性并编码可选择和/或可筛选多肽的序列。
在一个实施方案中,将编码可选择或可筛选多肽的合成核苷酸序列引入载体骨架中,例如在合成核苷酸序列3′任选具有poly(A)位点的载体骨架,用于选择转化原核细胞的基因(任选是合成序列),用于选择转化真核细胞的基因(任选是合成序列),用于降低邻接的所需可读框的转录和/或翻译的非编码区和/或合成核苷酸序列5′和/或3′的多克隆区,该合成核苷酸序列编码可选择或可筛选多肽,其中任选包括一个或多个蛋白质不稳定序列(参见美国申请顺序号10/664,341,2003年9月16日申请,该文献的公开内容通过引用结合到本文中)。在一个实施方案中,具有编码可选择或可筛选多肽的合成核苷酸序列的载体,可缺乏与该合成序列操作性连接的启动子和/或增强子。在另一个实施方案中,本发明提供载体,其包含启动子(例如原核或真核启动子)及与所述启动子操作性连接并编码可选择或可筛选多肽的合成核苷酸序列。这样的载体任选包括一个或多个多克隆区,例如用于引入额外可读框和/或可读框表达用启动子的多克隆区,其中启动子任选不同于可选择或可筛选多肽的启动子和/或原核复制起点。本文所用的“载体骨架”可以包含用于识别具有这样序列的细胞(例如在原核细胞中)的序列(可读框)、它们的启动子、维持载体的复制起点(例如在原核细胞中)和包含多克隆区的任选的一个或多个其它序列(例如用于插入目标启动子和/或可读框)和抑制转录和/或翻译的序列。
还提供包含本发明合成核苷酸序列的宿主细胞,分离的多肽(例如本发明的合成核苷酸序列所编码的融合多肽),以及包含本发明合成核苷酸序列、由本发明合成核苷酸序列编码的多肽或包含合成核苷酸序列的表达盒或载体的组合物和试剂盒,它们放在合适容器装置中并任选附有使用说明书。宿主细胞可以是真核细胞或原核细胞,所述真核细胞例如植物细胞或脊椎动物细胞,例如哺乳动物细胞,包括但不限于人、非人类灵长类、狗、猫、牛、马、绵羊或啮齿动物(例如兔、大鼠、雪貂、仓鼠或小鼠)的细胞。
本发明也提供本发明合成核苷酸序列的制备方法,即通过遗传改变亲代(例如野生型)或合成核酸序列。该方法包括改变(例如减少或消除)亲代核酸序列(例如编码可选择或可筛选多肽的序列或不编码肽或多肽的序列)中的多个调节序列,得到调节序列数目减少的合成核苷酸序列,并且如果合成核苷酸序列编码多肽,则它优选编码与亲代核酸分子相同的氨基酸。可以减少的转录调节序列包括但不限于以下序列中的任一个:转录因子结合序列、内含子剪接位点、ploy(A)位点、增强子序列、启动子组件和/或启动子序列。优选合成核苷酸序列中的序列改变不会导致调节序列的增加。在一个实施方案中,合成核苷酸序列编码多肽,它与由亲代核酸序列编码的多肽的氨基酸序列具有至少85%、90%、95%或99%或100%的毗连氨基酸序列同一性。
因此,在一个实施方案中,提供包含可读框的合成核酸分子的制备方法。该方法包括改变亲代核酸序列的密码子和/或调节序列,所述亲代核酸序列编码报道蛋白(例如萤火虫萤光素酶)或选择性多肽(例如编码氨苄青霉素、嘌呤霉素、潮霉素或新霉素抗性的多肽),得到编码相应报道多肽的合成核苷酸序列,并且相对于亲代核酸序列来说,所述合成核苷酸序列具有例如减少至少10%以上、例如20%、30%、40%、50%以上的调节序列。合成核苷酸序列与亲代核酸序列具有90%、例如85%、80%或78%以下的核酸序列同一性,并且所编码的多肽与亲代核酸序列所编码的多肽具有至少85%氨基酸序列同一性。所改变的调节序列包括转录因子结合序列、内含子剪接位点、ploy(A)位点、启动子组件和/或启动子序列。在一个实施方案中,合成核酸序列与亲代核酸序列或其互补序列在中等严格性杂交条件下杂交,但在严格性杂交条件下不杂交。在一个实施方案中,不同的密码子编码与亲代核酸序列相应密码子编码相同的氨基酸。
还提供用本发明方法制备的合成(包括进一步合成)核苷酸序列,例如进一步合成核苷酸序列,其中所引入的调节序列或限制性内切核酸酶识别序列任选被除去。因此,本发明的方法可用于改变密码子使用频率和/或减少任何可读框中的调节序列的数目或减少任何核酸序列例如非编码序列中的调节序列的数目。优选改变编码可选择或可筛选多肽的合成核苷酸序列中的密码子使用频率,以影响想用于表达该核苷酸序列所需的宿主生物的密码子使用频率,同时相对于亲代核酸分子来说也减少潜在调节序列的数目。
还提供不编码肽或多肽的合成核苷酸序列的制备方法。该方法包括改变至少20个核苷酸的亲代核酸序列中的核苷酸,该亲代核酸序列任选不编码功能性或所需要的肽或多肽,并且任选可以包含抑制转录和/或翻译的序列,得到不包含编码目标肽或多肽的可读框的合成核苷酸序列,例如所述合成核苷酸序列可具有可读框,但不包含编码功能性或所需要的肽或多肽的序列,但可包含一个或多个终止密码子(在一个或多个读框中)、一个或多个聚腺苷酸化位点和/或两个或更多个限制性内切核酸酶的毗邻序列,即多克隆区。合成核苷酸序列的长度通常为至少20、例如至少30个核苷酸、高达1000或更多个核苷酸、例如高达10,000个核苷酸,并且与不编码肽或多肽的相应亲代核酸序列相比具有更少的调节序列(例如转录调节序列),所述亲代核酸序列例如任选包括抑制转录和/或翻译的序列。改变核苷酸以减少亲代核酸序列的一个或多个调节序列,例如转录因子结合序列、内含子剪接位点、ploy(A)位点、增强子序列、启动子组件和/或启动子序列。
本发明也提供表达载体的制备方法。该方法包括提供线性化质粒,其具有包含本发明合成核苷酸序列的核酸分子,其中本发明合成核苷酸序列编码位于多克隆区5′端和/或3′端侧翼的可选择或可筛选多肽。让质粒与至少一种在多克隆区进行切割的限制性内切核酸酶接触,使质粒线性化。将线性化质粒和与线性化质粒末端具有末端相容性的表达盒一起退火,得到表达载体。在一个实施方案中,采用至少两种限制性内切核酸酶(其中只有一种在多克隆区进行切割)进行切割,使质粒线性化。
还提供启动子或可读框的克隆方法。该方法包括提供具有多克隆区和本发明合成序列的线性化质粒,其中本发明合成序列编码本发明的可选择或可筛选多肽和/或本发明合成序列不编码肽或多肽,让质粒与至少两种限制性内切核酸酶(其中至少一种在多克隆区进行切割)接触,使质粒线性化;使线性化质粒与具有启动子或可读框的DNA一起退火,该DNA两端与线性化质粒的两端相容。
下面描述了萤火虫萤光素酶合成序列和大量选择性多肽核酸序列、以及存在于载体骨架中的非编码区的示例性制备方法。例如,这些方法可制备合成选择性多肽核酸分子,该分子表现出类似的或明显增高的哺乳动物表达水平,但却没有负面影响其它所需要的物理性质或生化性质,并且也基本上不含调节元件。
显然,本发明适用于多种基因,并跨越了许多科学领域,包括但不限于生命科学研究、农业遗传学(agrigenetics)、基因治疗、发育科学和药物开发。
                              附图简述
图1:密码子及其相应氨基酸。
图2:pGL4载体的设计方案。
                        发明详述
定义
本文所用的术语“核酸分子”或“核酸序列”是指核酸DNA或RNA,包含非编码或编码序列。编码序列对产生多肽或蛋白前体来说是必不可少的。多肽可由全长编码序列或编码序列的任何部分所编码,只要能保留所需的蛋白质活性。非编码序列是指不编码多肽或蛋白前体的核酸,并且可包括调节元件,例如转录因子结合位点、poly(A)位点、限制性内切核酸酶位点、终止密码子和/或启动子序列。
“合成”核酸序列是自然界不存在的核酸序列,即采用分子生物学、化学和/或信息技术获得的核酸序列。
本文所用的“核酸”是核苷酸以共价键结合起来的序列,其中一个核苷酸的戊糖的3′位通过磷酸二酯基团连接下一个核苷酸的戊糖的5′位,其中核苷酸残基(碱基)以特定序列(核苷酸线状顺序)连接。本文所用的“多核苷酸”是序列长度约为100个以上核苷酸的核酸。本文所用的“寡核苷酸”或“引物”是短多核苷酸或多核苷酸部分。寡核苷酸通常含有约2个至约100个碱基的序列。术语“寡聚体(oligo)”有时用于替代术语“寡核苷酸”。
核酸分子之所以具有“5′-端”(5′端)和“3′-端”(3′端),是因为核酸的磷酸二酯键发生在取代基单核苷酸戊糖环的5′碳和3′碳上。多核苷酸的一端(新的键将连接在其5′碳上)是其5′端核苷酸。多核苷酸的一端(新的键将连接在其3′碳上)是其3′端核苷酸。本文所用的末端核苷酸是位于3′-端或5′-端的核苷酸。
DNA分子之所以具有“5′端”和“3′端”,是因为单核苷酸反应而生成寡核苷酸,其方式是一个单核苷酸戊糖环的5′磷酸以一个方向通过磷酸二酯键连接到其相邻的3′氧上。因此,寡核苷酸的一端是“5′端”,如果其5′磷酸没有连接到单核苷酸戊糖环的3′氧的话,而另一端是“3′端”,如果其3′氧没有连接到下一个单核苷酸戊糖环的5′磷酸的话。
本文所用的核酸序列,即使是较大寡核苷酸或多核苷酸内部,也可具有5′端和3′端。在线状或环状DNA分子中,分开的不连续元件称为“上游”或5′元件,或者称为“下游”或3′元件。该术语反映出这一事实:转录是沿着DNA链以5′→3′的方式进行的。通常,指导连锁基因(例如可读框或编码区)转录的启动子和增强子元件一般位于编码区的5′或上游。然而,增强子元件当位于启动子元件和编码区3′时,也可发挥作用。转录终止信号和聚腺苷酸化信号位于编码区的3′或下游。
本文所用的术语“密码子”是由3个核苷酸的序列组成的基本遗传编码单位,它指导特定氨基酸掺入到多肽链上,或者是起始信号或终止信号。术语“编码区”当用于结构基因时,是指核苷酸序列,编码作为mRNA分子翻译结果的新生多肽中存在的氨基酸。通常,编码区结合在编码起始甲硫氨酸核苷酸三联体“ATG”的5′一侧,以及结合在终止密码子(例如TAA、TAG、TGA)的3′一侧。在某些情况下,也已经知道编码区由核苷酸三联体“TTG”起始。
“蛋白质”、“多肽”或“肽”是指任何氨基酸链,不管其长度或翻译后修饰(例如糖基化或磷酸化)。本发明的核酸分子也可编码天然存在的蛋白质的变异体或其片段。优选这样变异蛋白的氨基酸序列与其所来源的天然存在的(天然或野生型)蛋白的氨基酸序列具有至少85%、优选90%、最优选95%或99%同一性。
多肽分子之所以具有“氨基端”(N-端)和“羧基端”(C-端),是因为肽键发生在第一氨基酸残基的主链氨基和第二氨基酸残基的主链羧基之间。术语“N-端”和“C-端”当用于多肽序列时,是指分别包括多肽N端区和C-端区部分的多肽区。包括多肽N端区部分的序列包括主要来自多肽链N端部分的氨基酸,但不限于所述序列。例如,N-端序列可包括多肽序列的内部部分,包括来自多肽的一半N-端和一半C-端部分的碱基。这同样适用于C-端区。N-端区和C-端区可以包括(但并非必须包括)分别限定多肽最终N-端和C-端的氨基酸。
本文所用的术语“野生型”是指基因或基因产物,其特征在于该基因或基因产物是从天然来源分离的。野生型基因是群体中最常见的基因,因此人为地称为基因的“野生型”形式。相比之下,术语“突变型”是指与野生型基因或基因产物相比,表现出序列和/或功能特性修饰(即特性发生改变)的基因或基因产物。值得注意的是,天然存在的突变体是可以被分离出来的;当与野生型基因或基因产物相比,其特性发生改变,人们可以利用这一事实对其进行鉴定。
本文所用的术语“重组蛋白”或“重组多肽”是指由重组DNA分子表达的蛋白质分子。相比之下,本文所用的术语“天然蛋白”是指从天然(即非重组)来源分离的蛋白质。可以用分子生物学技术来产生蛋白质的重组形式,其特性与蛋白质的天然形式相同。
术语“融合多肽”是指嵌合蛋白,它含有目标蛋白(例如萤光素酶)及与目标蛋白连接的异源序列(例如非萤光素酶氨基酸或蛋白质)。
本文所用的术语“细胞”、“细胞系”、“宿主细胞”可互换使用,所有这些术语都包括它们的后代或潜在后代。“转化细胞”是指已经导入了本发明核酸分子的细胞(或其祖先),例如通过瞬时转染。任选将本发明核酸分子的合成基因导入合适细胞系中,使其产生稳定转染的细胞系,能够产生由合成基因编码的蛋白质或多肽。构建这类细胞系的载体、细胞和方法是本领域众所周知的。术语“转化子”或“转化细胞”包括来源于原始转化细胞的原代转化细胞,而不考虑传代次数。所有后代不会具有完全相同的DNA含量,因为有意或无意的突变。然而,经过筛选原始转化细胞中具有相同功能性的突变后代,包括在转化子的定义之中。
已知核酸含有不同类型的突变。“点”突变是指野生型序列中核苷酸序列的一个碱基发生改变。突变也可以是插入或缺失一个或多个碱基,使得核酸序列不同于野生型序列。
术语“同源性”是指两个或多个序列间的互补性程度。有部分同源性或完全同源性(即同一性)。同源性通常采用序列分析软件(例如EMBOSS,欧洲分子生物学开放软件套(例如EMBOSS,the EuropeanMolecular Biology Open Software Suite,可得自http://www.hgmp.mrc.ac.uk/Software/EMBOSS/overview/html)来测定。这样的软件通过评价不同取代、缺失、插入和其它修饰的同源性程度,来匹配相似序列。保守取代通常包含以下各组氨基酸内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。
术语“分离的”当用于“分离的寡核苷酸”或“分离的多核苷酸”等核酸时,是指与至少一种污染物(所述污染物通常在其来源中与其共存)分离开并鉴定的核酸序列。因此,分离的核酸是以不同于其天然状态而存在。相比之下,未分离的核酸(例如DNA和RNA)是以它们在自然界存在的状态而存在。例如,给定DNA序列(例如基因)存在于宿主细胞染色体上,靠近相邻基因;RNA序列(例如编码特定蛋白质的特定mRNA序列)与编码各种蛋白质的许多其它mRNA混合存在于细胞中。然而,分离的核酸例如包括在通常表达该核酸的细胞中的核酸:其中核酸存在于染色体的位置不同于它在天然细胞中存在的位置,或者邻接在与其天然邻接的核酸序列所不同的核酸序列。分离的核酸或寡核苷酸可以单链或双链形式存在。当分离的核酸或寡核苷酸用于表达蛋白质时,寡核苷酸最少含有有义链或编码链(即寡核苷酸可以是单链),但是也可同时含有有义链和反义链(即寡核苷酸可以是双链)。
术语“分离的”当用于“分离的蛋白质”或“分离的多肽”等多肽时,是指与至少一种污染物(所述污染物通常在其来源中与其共存)分离开并鉴定的多肽。因此,分离的多肽是以不同于其天然状态而存在。相比之下,未分离的多肽(例如蛋白质和酶)是以它们在自然界存在的状态而存在。
术语“纯化的”或“纯化”是指从目标组分(例如蛋白质或核酸)中除去某些污染物的任何方法的结果。因此,提高了样品中纯化组分的百分率。
本文所用的术语“操作性连接”是指核酸序列的连接方式,使得产生了能指导给定基因转录和/或所需蛋白质分子合成的核酸分子。该术语也指氨基酸编码序列的连接方式,使得产生了功能性(例如具有酶活性、能结合结合配偶体、能抑制等)的蛋白质或多肽。
术语“重组DNA分子”是指杂合DNA序列,包含至少两个在自然界通常并不结合在一起的核苷酸序列。
术语“载体”是指用于插入或克隆DNA片段、以及用于将DNA区段转入细胞中并在细胞中复制的核酸分子。载体可衍生自质粒、噬菌体、病毒、粘粒等。
本文所用的术语“重组载体”和“表达载体”是指DNA或RNA序列,含有所需编码序列以及在特定宿主生物中表达操作性连接的编码序列所必需的合适DNA或RNA序列。原核表达载体包含启动子、核糖体结合位点、在宿主细胞中自主复制的复制起点和其它可能的序列,例如任选的操纵子序列、任选的限制酶位点。启动子定义为指导RNA聚合酶与DNA结合并起始RNA合成的DNA序列。真核表达载体包含启动子、任选的聚腺苷酸化信号和任选的增强子序列。
具有编码蛋白质或多肽的核苷酸序列的多核苷酸,是指包含基因编码区的核酸序列,换句话说,核酸序列编码基因产物。编码区可以cDNA、基因组DNA或RNA形式存在。当以DNA形式存在时,寡核苷酸可以是单链(即有义链)或双链。合适的控制元件,例如增强子/启动子、剪接点、聚腺苷酸化信号等,可位于基因编码区附近,如果需要允许合适的转录起始和/或正确的初级RNA转录物的加工的话。或者,本发明表达载体所用的编码区可含有内源增强子/启动子、剪接点、间插序列、聚腺苷酸化信号等。在其它实施方案中,编码区可含有内源和外源控制元件的组合。
术语“调节元件”或“调节序列”是指控制核酸序列表达的某些方面的遗传元件或序列。例如,启动子是促进操作性连接的编码区转录起始的调节元件。其它调节元件包括但不限于转录因子结合位点、剪接信号、聚腺苷酸化信号、终止信号和增强子元件。
真核生物转录控制信号包含“启动子”和“增强子”元件。启动子和增强子由短DNA序列组成,它们特异性影响参与转录的细胞蛋白质。已经从酵母、昆虫和哺乳动物细胞的基因等各种真核来源分离出启动子和增强子元件。也已经从病毒中分离出启动子和增强子元件,而且也在原核生物中发现了类似的控制元件,例如启动子。具体启动子和增强子的选择取决于用于表达目标蛋白质的细胞类型。某些真核启动子和增强子具有广泛的宿主范围,而另一些则只在有限的细胞类型中才具有功能。例如,SV40早期基因增强子在许多哺乳动物的不同细胞类型中都具有很高活性,可广泛用于在哺乳动物细胞中表达蛋白质。在广泛的哺乳动物细胞类型中具有活性的启动子/增强子元件的另外两个实例是来自以下的启动子/增强子元件:人延伸因子1基因(Uetsuki等,1989;Kim等,1990;Mizushima和Nagata,1990)和劳斯肉瘤病毒长末端重复序列(Gorman等,1982);人巨细胞病毒(Boshart等,1985)。
术语“启动子/增强子”是指DNA区段,含有能同时提供启动子和增强子功能(即如上所述的启动子元件和增强子元件所提供的功能)的序列。例如,逆转录病毒长末端重复序列同时具有启动子功能和增强子功能。增强子/启动子可以是“内源”或“外源”或“异源”的。“内源”增强子/启动子是在基因组中与给定基因天然连接的增强子/启动子。“外源”或“异源”增强子/启动子是通过遗传操作方法(即分子生物学技术)位于基因并列位置的增强子/启动子,使得基因转录由所连接的增强子/启动子来指导。
表达载体上“剪接信号”的存在,通常导致真核宿主细胞中重组转录物表达水平较高。剪接信号介导从初级RNA转录物上除去内含子,剪接信号由剪接供体和受体位点组成(Sambrook等,1989)。常用的剪接供体和受体位点是来自SV40的16S RNA的剪接点。
真核细胞重组DNA序列的表达效率,需要指导所得转录物的有效终止和聚腺苷酸化的信号的表达。转录终止信号通常存在于聚腺苷酸化信号的下游,长度为几百个核苷酸。本文所用的术语“聚腺苷酸化位点(poly(A)位点)”或“聚腺苷酸化序列(poly(A)序列)”是指同时指导新生RNA转录物终止和聚腺苷酸化的DNA序列。需要对重组转录物进行有效的聚腺苷酸化,因为缺乏poly(A)尾的转录物不稳定,会快速降解掉。表达载体所用的poly(A)信号可以是“异源”或“内源”的。内源poly(A)信号是天然存在于基因组给定基因编码区3′端的信号。异源poly(A)信号是从一个基因中分离并位于另一基因的3′的信号。常用的异源poly(A)信号是SV40poly(A)信号。237bp BamH I/BclI限制片段上含有SV40 poly(A)信号,SV40 poly(A)信号可指导终止和聚腺苷酸化(Sambrook等,1989)。
真核表达载体也可含有“病毒复制子”或“病毒复制起点”。病毒复制子是病毒DNA序列,它允许载体在表达合适复制因子的宿主细胞中进行染色体外复制。含有SV40复制起点或多瘤病毒复制起点的载体在表达合适病毒T抗原的细胞中复制出高拷贝数(高达104拷贝/细胞)。相比之下,含有牛乳头瘤病毒复制子或EB病毒(Epstein-Barrvirus)复制子的载体以低拷贝数(约100拷贝/细胞)进行染色体外复制。
术语“体外(in vitro)”是指人工环境,也指发生在人工环境内的加工或反应。体外环境包括但不限于试管和细胞裂解物。术语“体内(in vivo)”是指天然环境(例如动物或细胞),也指发生在天然环境内的加工或反应。
术语“表达系统”是指用于测定(例如检测)目标基因表达的任何测定或系统。分子生物学领域技术人员将会理解,可使用大量表达系统中的任何一种。各种合适的哺乳动物细胞可得自各种来源(例如美国典型培养物保藏中心(American Type Culture Collection),Rockland,MD)。转化或转染方法以及表达载体的选择,将会取决于所选用的宿主系统。转化和转染方法参见例如Ausubel等,1992。表达系统包括体外基因表达测定,其中目标基因(例如报道基因)与调节序列连接在一起,基因的表达通过用抑制或诱导基因表达的试剂处理后进行监控。基因表达可以通过合适方法进行检测,该方法包括但不限于检测所表达的mRNA或蛋白质(例如报道基因的可检测产物)或通过表达目标基因的细胞表型的可检测变化。表达系统也可包括测定,其中检测切割事件或其它核酸或细胞变化。
本文所述的所有氨基酸残基都呈天然的L-构型。为了遵循标准多肽命名法,氨基酸残基的缩略语详见下列对照表。
             对照表
单字母   三字母     氨基酸
Y        Tyr        L-酪氨酸
G        Gly        L-甘氨酸
F        Phe        L-苯丙氨酸
M        Met        L-甲硫氨酸
A        Ala        L-丙氨酸
S        Ser        L-丝氨酸
I        Ile        L-异亮氨酸
L        Leu        L-亮氨酸
T        Thr        L-苏氨酸
V        Val        L-缬氨酸
P        Pro        L-脯氨酸
K        Lys        L-赖氨酸
H        His        L-组氨酸
Q        Gln        L-谷氨酰胺
E        Glu        L-谷氨酸
W        Trp        L-色氨酸
R        Arg        L-精氨酸
D        Asp        L-天冬氨酸
N        Asn        L-天冬酰胺
C        Cys        L-半胱氨酸
术语“互补”或“互补性”用于通过碱基配对规则相关的核苷酸序列。例如,序列5′“A-G-T”3′与序列3′“T-C-A”5′互补。互补性可以是“部分”互补的,其中仅有部分核酸的碱基按照碱基配对规则匹配。另外,核酸之间也有“完全”或“总体”互补性。核酸链之间的互补性程度明显影响核酸链间杂交的效率和强度。这对扩增反应以及依赖于核酸杂交的检测方法来说尤其重要。
当用于双链核酸序列例如cDNA或基因组克隆时,术语“基本同源”是指能在如本文所述的低严格性条件下与双链核酸序列的一条或两条链杂交的任何探针。
“探针”是指设计用于与一段有待探测的变性核酸序列(相对于其长度)有效互补并可在所选择的严格性条件下结合的寡核苷酸。
“杂交”和“结合”在用于探针和变性核酸时可互换使用。与变性核酸杂交或结合的探针与多核苷酸互补序列的碱基配对。无论特定探针是否与多核苷酸的碱基配对,都取决于互补性程度、探针长度和结合条件的严格性。严格性越高,互补性程度越高和/或探针越长。
术语“杂交”用于指互补核酸链的配对。杂交和杂交强度(即核酸链之间缔合强度)受到本领域众所周知的诸多因素的影响,包括核酸间互补性程度、所涉及的条件的严格性(例如盐浓度)、所形成杂合体的Tm(解链温度)、其它组分的存在(例如聚乙二醇存在与否)、杂交链的摩尔浓度和核酸链的G:C含量。
术语“严格性”用于指进行核酸杂交时的温度、离子强度和其它化合物的存在等条件。对于“高严格性”条件,核酸碱基配对仅发生在具有高度互补碱基序列的核酸片段之间。因此,当需要并不完全互补的核酸彼此杂交或退火在一起时,则常需要“中等”或“低”严格性条件。本领域已经清楚地知道,可以采用大量同等条件,包括中等或低严格性条件。选择杂交条件对本领域技术人员来说通常是显而易见的,通常根据杂交目的、杂交类型(DNA-DNA或DNA-RNA)和序列间所需相关性水平而定(有关方法的总论参见例如Sambrook等,1989;Nucleic Acid Hybridization,A Practical Approach,IRL Press,Washington D.C.,1985)。
已知核酸双链体的稳定性随错配碱基数的增加而下降,而且根据杂合双链体中错配的相对位置而进一步或多或少地下降。因此,杂交的严格性可用于使这样的双链体的稳定性最大化或最小化。可通过以下方法改变杂交严格性:调节杂交温度;调节杂交混合物中的螺旋去稳定剂(例如甲酰胺)的百分比;调节洗涤液的温度和/或盐浓度。对于滤膜杂交,杂交的最终严格性通常由杂交后洗涤所用的盐浓度和/或温度来确定。
“高严格性条件”当用于核酸杂交时,并且当采用长度约为500个核苷酸的探针时,包括以下条件:在5X SSPE(43.8g/L NaCl、6.9g/LNaH2PO4 H2O和1.85g/L EDTA,用NaOH将pH调节至7.4)、0.5%SDS、5X Denhardt试剂和100μg/ml变性鲑精DNA的溶液中于42℃进行结合或杂交,接着在含有0.1X SSPE、1.0%SDS溶液中于42℃进行洗涤。
“中等严格性条件”当用于核酸杂交时,并且当采用长度约为500个核苷酸的探针时,包括以下条件:在5X SSPE(43.8g/L NaCl、6.9g/LNaH2PO4 H2O和1.85g/L EDTA,用NaOH将pH调节至7.4)、0.5%SDS、5X Denhardt试剂和100μg/ml变性鲑精DNA的溶液中于42℃进行结合或杂交,接着在含有1.0X SSPE、1.0%SDS的溶液中于42℃进行洗涤。
“低严格性条件”当采用长度约为500个核苷酸的探针时,包括以下条件:在5X SSPE(43.8g/L NaCl、6.9g/L NaH2PO4 H2O和1.85g/LEDTA,用NaOH将pH调节至7.4)、0.1%SDS、5X Denhardt试剂[每500ml 50X Denhardt含有:5g Ficoll(Type 400,Pharmacia)、5g BSA(Fraction V;Sigma)]和100g/ml变性鲑精DNA的溶液中于42℃进行结合或杂交,接着在含有5X SSPE、0.1%SDS的溶液中于42℃进行洗涤。
术语“Tm”用于指“解链温度”。解链温度是当双链核酸分子群体的50%解离变成单链时的温度。计算核酸Tm的公式是本领域众所周知的。杂交核酸的Tm通常采用在1M盐中的杂交测定的公式来估计,常常用于计算PCR引物的Tm:[(A+T)数×2℃+(G+C)数×4℃]。(C.R.Newton等, PCR,第2版,Springer-Verlag(New York,1997),第24页)。发现该公式对于长度超过20个核苷酸的引物来说并不准确(出处同上)。另一个对Tm值的简单估计可通过以下公式求出:Tm=81.5+0.41(%G+C),当核酸在1M NaCl的水溶液中时。(例如Anderson和Young,Quantitative Filter Hybridization, Nucleic Acid Hybridization,1985)。本领域还有其它更多复杂计算方法,该方法将结构以及序列特征都考虑到Tm的计算中。计算的Tm仅为估计值;最适温度通常凭经验来确定。
术语“启动子/增强子”是指含有能提供启动子和增强子功能(即由如上所述的启动子元件和增强子元件所提供的功能)的序列的DNA区段。例如,逆转录病毒长末端重复序列就同时含有启动子功能和增强子功能。增强子/启动子可以是“内源”或“外源”或“异源”的。“内源”增强子/启动子是在基因组中与给定基因天然连接的增强子/启动子。“外源”或“异源”增强子/启动子是通过遗传操作方法(即分子生物学技术)位于基因并列位置的增强子/启动子,使得基因转录由所连接的增强子/启动子来指导。
术语“序列同源性”是指两个核酸序列间的碱基匹配比例或者两个氨基酸序列间的氨基酸匹配比例。当序列同源性以百分率表示例如50%时,该百分率是指一个序列与某些其它序列相比较时的序列长度匹配的比例。允许空位(在两个序列任一个中)使匹配最大化;通常使用的空位长度为15个以下碱基,优选6个以下碱基,最优选2个以下碱基。当采用寡核苷酸作为探针或处理时,靶核酸和靶寡核苷酸序列之间的序列同源性通常为20个可能寡核苷酸碱基对匹配中有不少于17个靶碱基匹配(85%);优选在10个可能碱基对匹配中有不少于9个匹配(90%),更优选20个可能碱基对匹配中有不少于19个匹配(95%)。
如果两个氨基酸序列间有部分或完全同一性,则这两个序列同源。例如,85%同源性是指当两个序列进行最大匹配的比对时有85%氨基酸相同。允许空位(在进行比对的两个序列中任一个)使匹配最大化;优选空位长度为5个以下,更优选2个以下。另外,如果运用程序ALIGN,突变数据矩阵和空位罚分≥6,其比对得分>5(以标准差单位计)时,优选两个蛋白质序列(或来自它们的长度至少100个氨基酸的多肽序列)同源(根据该术语在本文中的用法)。参见Dayhoff,M.O.,Atlas of Protein Sequence and Structure,1972,第5卷,NationalBiomedical Research Foundation,第101-110页及该卷的增刊2,第1-10页。当运用ALIGN程序对两个序列或其部分进行优化比对时,如果其氨基酸≥85%相同,则它们更优选为同源序列。
下面的术语都用于描述两个或更多个多核苷酸之间的序列关系:“参考序列”、“比较窗口”、“序列同一性”、“%序列同一性”和“基本同一性”。“参考序列”是用作序列比较基础的指定序列;参考序列可以是一组较大的序列,例如序列表中给出的全长cDNA或基因序列区段,或者可以包含完整cDNA或基因序列。一般而言,参考序列长度至少为20个核苷酸,通常长度至少为25个核苷酸,更常见的长度至少为50或100个核苷酸。因为两个多核苷酸可各自(1)包含两个多核苷酸间相似的序列(即完整多核苷酸序列的一部分),和(2)还可以包含两个多核苷酸间不同的序列,所以两个(或更多个)多核苷酸间的序列比较通常通过比较“比较窗口”内两个多核苷酸序列来进行,以鉴定和比较序列相似性的局部区。
本文所用的“比较窗口”是指至少20个毗连核苷酸的概念区段,其中比较窗口内的多核苷酸序列部分可以包含20%以下的添加或缺失(即空位),当与参考序列(它不含添加或缺失)进行两个序列最佳比对的比较时。
序列比对的比较方法是本领域众所周知的。因此,可以使用数学算法来确定任两个序列间的%同一性。这类数学算法的优选非限制性实例是Myers和Miller算法(1988);Smith和Waterman的局部同源性算法(1981);Needleman和Wunsch的同源性比对算法(1970);Pearson和Lipman的检索相似性方法(1988);Karlin和Altschul算法(1990),Karlin和Altschul的改进算法(1993)。
用计算机来执行这些数学算法,可用于序列比较,确定序列同一性。这样的执行包括但不限于:ClustalW(可得自例如http://www.ebi.ac.uk/clustalw/);ALIGN程序(2.0版)和威斯康辛遗传软件包(Wisconsin Genetics Software Package,第8版)的GAP、BESTFIT、BLAST、FASTA和TFASTA。用这些程序进行比对时可使用缺省参数。CLUSTAL程序可参见Higgins等(1988);Higgins等(1989);Corpet等(1988);Huang等(1992);Pearson等(1994)。ALIGN程序是根据Myers和Miller算法(出处同上)。Altschul等(1990)的BLAST程序是根据Karlin和Altschul算法(出处同上)。为得到带空位的比对以进行比较,可以采用Gapped BLAST(在BLAST 2.0中),参见Altschul等(1997)。或者,可以采用PSI-BLAST(在BLAST 2.0中)进行重复检索,检测分子间的距离关系。参见Altschul等(出处同上)。当使用BLAST、GappedBLAST、PSI-BLAST时,可以使用各自程序(例如对于核苷酸序列为BLASTN,对于蛋白质为BLASTX)的缺省参数。参见http://www.ncbi.nlm.nih.gov.。也可采用手工搜索进行比对。
术语“序列同一性”是指比较窗口内的两个多核苷酸序列是相同的(即在核苷酸-核苷酸基础上)。术语“%序列同一性”是指对于所述核苷酸比例而言比较窗口内的两个多核苷酸序列是相同的(即在核苷酸-核苷酸基础上)。术语“%序列同一性”的计算如下:对比较窗口内的两个优化比对序列进行比较,确定两个序列中的相同核酸碱基(例如A、T、C、G、U或I)的位置数,得出匹配位置数,把匹配位置数除以比较窗口内的总位置数(即窗口大小)再乘以100,得出%序列同一性。本文所用的术语“基本相同”是指多核苷酸序列的特征,其中在至少20个核苷酸位、通常超过至少20-25个核苷酸、优选至少300个核苷酸的比较窗口内,多核苷酸所包含的序列与参考序列相比有至少60%、优选至少65%、更优选至少70%、至多约85%、甚至更优选至少90-95%、更经常为至少99%的序列同一性,其中%序列同一性的计算如下:将参考序列与比较窗口内的多核苷酸序列进行比较,其中所述多核苷酸序列可以包含参考序列的总共20%以下的缺失或添加。参考序列可以是一组较大的序列。
当用于多肽时,术语“基本相同”是指当例如通过程序GAP或BESTFIT进行优化比对并使用缺省空位权重(gap weight)时,两个肽序列共享至少约85%序列同一性、优选至少约90%序列同一性、更优选至少约95%序列同一性、最优选至少约99%序列同一性。
本发明的合成核苷酸序列及方法
本发明提供包含合成核苷酸序列的组合物,以及制备这些序列的方法,该方法可得到合成核苷酸序列,该合成核苷酸序列当存在于特定细胞类型中时,能有效表达为多肽或蛋白质并具有所需特征,包括不适当或不需要的转录特征减少,或者不会产生不适当或不需要的转录特征。
自然选择是这样一种假说:基因型与环境的相互作用发生在表型水平上,导致个体的差别繁殖成效,因此导致群体基因库的修饰。普遍认为,自然界中存在的蛋白质的氨基酸序列经历过自然选择优化。然而,氨基酸存在于蛋白质序列内,并不会显著影响蛋白质活性,而且可以将这些氨基酸变成其它氨基酸,却没有或少有影响。此外,蛋白质可用在其自然环境之外,或者可用于不同于其自然选择条件的目的。在这些情况下,氨基酸序列可以经过合成而改变,以使蛋白质更好地适应不同的用途。
同样,编码蛋白质的核酸序列也通过自然选择而优化。编码DNA及其转录RNA之间的关系是:DNA上的任何变化都会影响所产生的RNA。因此,自然选择同时作用于这两种分子。然而,这种关系在核酸和蛋白质之间并不存在。因为多个密码子编码同一氨基酸,许多不同核苷酸序列可编码相同的蛋白质。由500个氨基酸组成的某一特定蛋白质理论上可由超过10150个不同核酸序列编码。
自然选择作用于核酸,达到对相应蛋白质的合适编码。推测起来,核酸分子的其它特性也会受到自然选择的影响。这些特性包括密码子使用频率、RNA二级结构、内含子剪接效率和与转录因子或其它核酸结合蛋白的相互作用。这些其它特性可改变蛋白质翻译效率和所得表型。因为遗传密码的冗余性,这些其它属性可经自然选择而优化,同时不会改变相应的氨基酸序列。
在某些条件下,这可用于经过合成而改变编码蛋白质的天然核苷酸序列,以便更好地适应交替应用的蛋白质。一个普通的实例是:当基因在外源宿主细胞中表达时,改变基因的密码子使用频率。尽管遗传密码的冗余性允许氨基酸由多个密码子编码,但是不同生物体比起其它的来说更偏爱某些密码子。对于具有十分不同的进化史的生物体来说,密码子使用频率倾向于最大的不同。已经发现,当在进化上的远缘生物体之间进行基因转移时,通过调节密码子使用频率,可以大大地提高蛋白质的翻译效率(参见美国专利5,096,825、5,670,356和5,874,304)。
在一个实施方案中,对报道基因序列进行修饰,当报道基因的密码子使用通常不对应于实验细胞的优化密码子使用时。在另一个实施方案中,对报道基因序列进行修饰,以除去调节序列,例如那些可改变报道基因或连锁基因表达的调节序列。实例包括β-半乳糖苷酶(β-gal)和氯霉素乙酰转移酶(cat)报道基因,它们均来源于大肠杆菌(E.coli),常用于哺乳动物细胞;β-葡糖醛酸糖苷酶(gus)报道基因,它来源于大肠杆菌,常用于植物细胞;萤火虫萤光素酶(luc)报道基因,它来源于昆虫,常用于植物细胞和哺乳动物细胞;肾海鳃(Renilla)萤光素酶和绿色荧光蛋白(gfp)报道基因,它们均来源于腔肠动物,常用于植物细胞和哺乳动物细胞。为了得到报道基因表达的灵敏数量,基因产物活性必定不是实验宿主细胞内源的。因此,报道基因通常选自具有独特的不同表型的生物体。因此,这些生物体通常与实验宿主细胞具有十分不同的进化史。
先前,为了产生具有更优化密码子使用频率、但仍编码同一基因产物的基因,制备了合成核酸序列,即通过用实验宿主细胞更偏爱的密码子取代现有密码子(参见美国专利5,096,825、5,670,356和5,874,304)。结果完全改善了合成基因的密码子使用频率。然而,没有考虑其它属性的优化,因此这些合成基因很可能没有反映出经自然选择而优化的基因。
具体地讲,根据RNA在翻译成蛋白质中的作用,密码子使用频率的改进仅用于RNA序列的优化。因此,先前介绍的方法不能解释合成基因序列如何影响DNA在转录成RNA中的作用。最值得注意的是,没有考虑到转录因子怎样影响合成DNA并继而调节或影响基因转录。对于天然存在的基因,DNA可通过天然宿主细胞而被优化转录,并将得到编码适当折叠基因产物的RNA。相比之下,合成基因先前没有经过用于转录特征而优化。甚至该特征被忽视或搁置。
该问题对所有基因来说都很重要,但是对报道基因和基因的载体骨架序列来说尤为重要,报道基因最常用于定量测定实验宿主细胞中的转录行为。在不同细胞类型中以及不同生理条件下,已经鉴定出了数百个转录因子,但是很可能还有更多转录因子尚未鉴定。所有这些转录因子都可影响引入基因或与其相连序列的转录。本发明的一个有用的合成报道基因或载体骨架对影响或干扰宿主细胞内在转录特征的危险性最小,因为该基因或载体骨架的结构已经改变。一个特别有用的合成报道基因或载体骨架在新的一组和/或不同试验条件下将会具有所需要的特征。为了最好地获得这些特征,合成基因或合成载体骨架的结构在广泛宿主细胞范围内和生理条件下应该对干扰转录因子的潜力最小。使报道基因或载体骨架与宿主细胞的内源转录因子之间的潜在相互作用最小化,能通过减少特定实验中基因或载体骨架的不适当转录特征的危险性,增加基因或载体骨架适用于不同的环境,增加所得实验数据的可接受性,从而提升报道基因或载体骨架的价值。
相比之下,包含天然核苷酸序列的报道基因(根据来自原始宿主生物的基因组或cDNA克隆)或包含存在于一个或多个不同生物体中的天然序列的载体骨架,当它们存在于外源宿主中时,可以影响转录因子。该危险来自两种情况。首先,天然核苷酸序列含有经自然选择而优化的序列,以影响天然宿主生物内的基因转录。然而,当这些序列存在于外源宿主(即在范围之外)中时,所述序列也可影响转录,因此干扰其作为报道基因或载体骨架的表现。第二,核苷酸序列可无意中影响天然宿主生物体中不存在的转录因子,因此不参与其自然选择。这样的无意相互作用的可能性,随实验细胞与报道基因或载体骨架的天然生物体之间的进化分离而增加。
当使用密码子使用频率发生改变的合成报道基因时,这些与转录因子的潜在相互作用很可能被破坏。然而,仅根据密码子使用频率、或在载体骨架中随机取代序列或随机并列序列,通过选择密码子所设计的合成报道基因序列,可能含有其它不需要的转录因子结合位点,因为所得序列没有经过自然选择以纠正不适当的转录活性。只要所编码的氨基酸序列经过人工改变,例如引入了氨基酸取代,也会发生与转录因子的无意相互作用。同样,这些改变没有经过自然选择,因此可表现出不需要的特性。
因此,本发明提供合成核苷酸序列的制备方法,当合成核苷酸序列在特定宿主细胞中表达时,减少了核苷酸序列与转录因子和其它反式作用因子之间不需要的相互作用的危险,因此减少了不适当或不需要的特性。优选的方法得到含有用于特定宿主细胞的改进的密码子使用频率的合成基因,并且调节序列例如转录因子结合位点发生率减少和/或调节序列发生率的载体骨架序列减少。本发明也提供合成基因的制备方法,所述合成基因含有改进的密码子使用频率,具有减少的转录因子结合位点发生率和附加的有益结构特征。所述附加特征包括不存在不适当的RNA剪接点、poly(A)添加信号、不需要的限制酶识别位点、核糖体结合位点和/或二级结构基序,例如发夹环。
在一个实施方案中,编码多肽的亲代核酸序列为在特定细胞中表达而优化。例如,通过用在特定(所选择的)细胞中优先使用的密码子取代野生型序列中的密码子,使核酸序列优化,这样的密码子取代也减少了调节序列的数目。优选的密码子在所选细胞中具有相对高的密码子使用频率,并且优选它们的引入导致相对少的调节序列(例如转录因子结合位点)的引入和相对少的其它不需要的结构特性的引入。因此,优化的核苷酸序列因改进的密码子使用频率而具有改进的表达水平,并且因减少了不需要的转录调节序列的数目而降低了不适当转录行为的危险。在另一个实施方案中,亲代载体骨架序列被改变,以除去调节序列和任选的限制性内切核酸酶位点,并且任选保留或添加其它所需要的特征,例如在一个或多个读框中存在一个或多个终止密码子、一个或多个poly(A)位点和/或限制性内切核酸酶位点。
本发明可使用任何核酸序列,例如天然序列(例如cDNA)或经过体外操作的序列。示例性的基因包括但不限于以下酶的编码基因:内酰胺酶(β-gal)、新霉素抗性(Neo)、潮霉素抗性(Hyg)、嘌呤霉素抗性(Puro)、氨苄青霉素抗性(Amp)、CAT、GUS、吡喃半乳糖苷酶、GFP、木糖苷酶、胸苷激酶、阿拉伯糖苷酶、萤光素酶等。本文所用的“报道基因”是使表达该基因的细胞具有独特表型,因而可使具有该基因的细胞与不含有该基因的细胞区分开来的基因。这样的基因可编码可选择或可筛选多肽,这取决于该标记是否具有通过化学方法(即通过使用选择性试剂,例如除草剂、抗生素等)可“选择”的性状,或者是否可通过观察或检测(即通过“筛选”)而简单地鉴别“报道基因”的性状。该术语包括的可选择或可筛选标记基因也是编码“可分泌标记”的基因,可以用鉴定或选择转化细胞的方法来检测其分泌。实例包括编码可分泌抗原的标记或编码可分泌酶的标记,该抗原可以通过与抗体的相互作用来鉴定,而该可分泌酶可通过它的催化活性来检测。可分泌蛋白包括但不限于以下类型:可通过例如ELISA而检测的小的可扩散蛋白,以及插入到或截留到细胞膜中的蛋白质。
通过使用特定基因和载体骨架序列,详细地举例说明了本说明书的要素。当然,许多合适基因和载体骨架的实例是本领域已知的,可用于本发明的实践中。因此,可以理解,下面的讨论是示例性的,而非穷尽的。按照本文所公开的技术和本领域已知的通用重组技术,本发明提供任何基因或载体骨架序列的可能的改变。
示例性的基因包括但不限于neo基因、puro基因、amp基因、β-gal基因、gus基因、cat基因、gpt基因、hyg基因、hisD基因、ble基因、mprt基因、bar基因、腈水解酶基因、突变型乙酰乳酸合酶基因(ALS)或acetoacid合酶基因(AAS)、甲氨蝶呤抗性dhfr基因、茅草枯(dalapon)脱卤素酶基因、突变型邻氨基苯甲酸合酶基因(赋予5-甲基色氨酸抗性(WO 97/26366))、R-locus基因、β-内酰胺酶基因、xylE基因、α-淀粉酶基因、酪氨酸酶基因、萤光素酶(luc)基因(例如肾海鳃(Renillareniformis)萤光素酶基因、萤火虫萤光素酶基因或叩头虫(click beetle)萤光素酶(牙买加叩头虫(Pyrophorus plagiophthalamus)基因)、水母发光蛋白基因或荧光蛋白基因。
本发明的方法可以通过(尽管不限于)循环方法来进行。该方法包括:根据特定物种的密码子使用,给靶分子例如天然核苷酸序列的每个氨基酸指定优选密码子,鉴定具有优选密码子的核酸序列中潜在的转录调节序列例如转录因子结合位,例如使用这样的结合位点的数据库,任选鉴定其它不需要的序列,然后在不需要的转录因子结合位点或其它序列的位置上取代可变密码子(即编码同一氨基酸)。对于密码子的不同形式,可变的优选密码子以各自形式被取代。必要时,可以重复进行潜在转录因子或其它不需要的序列的鉴定和消除,直到得到的核苷酸序列含有最大数量的优选密码子和最小数量的不需要的序列(包括转录调节序列或其它不需要的序列)。同样,任选可引入需要的序列,例如限制酶识别位点。设计并构建合成核苷酸序列之后,可以通过本领域众所周知的方法,对其相对于亲代核酸序列的特性进行测定。例如,可以对一系列载体中的合成核酸和靶核酸在特定细胞中的表达进行比较。
因此,本发明的方法通常包含鉴定靶核酸序列和目标宿主细胞,例如植物(双子叶植物或单子叶植物)、真菌、酵母或哺乳动物细胞。优选宿主细胞是哺乳动物宿主细胞,例如CHO、COS、293、HeLa、CV-1和NIH3T3细胞。根据宿主细胞内优选的密码子使用,以及任选在宿主细胞的低频密码子使用,例如高频使用的哺乳动物密码子和低使用的大肠杆菌和哺乳动物密码子,可以确定有待取代的密码子。在取代所选密码子的同时、随后或之前,鉴定靶序列中需要和不需要的序列,例如不需要的转录调节序列。这些序列,包括转录调节序列和限制性内切核酸酶位点在内,可以用以下数据库和软件进行鉴定,例如TRANSFAC_(转录因子数据库, http://www.gene-regulation.com/),MatchTM( http://www.gene-regulation.com/),MatInspector(Genomatix,http://www.genomatix.de),EPD(真核启动子数据库,http://www.epd.isb-sib.ch/),REBASE_(限制酶数据库,NEB,http://rebase.neb.com),TESS(转录元件检索系统,http://www.cbil.upenn.edu/tess/),MAR-Wiz(Futuresoft,http://www.futuresoft.org),Lasergene_(DNASTAR,http://www.dnastar.com),Vector NTITM(Invitrogen,http://www.invitrogen.com),Sequence Manipulation Suite( http://www.bioinformatics.org/SMS/index.html)。相关的其它数据库和序列分析软件参见 http://www.expasy.org/alinks.html。在一个或多个序列被鉴定后,可以引入修饰。一旦得到所需合成核苷酸序列后,就可以通过本领域众所周知的方法(例如用重叠引物进行核酸扩增反应)进行制备,并将其包括但不限于以下的结构及功能特征与靶核酸序列的进行比较:同源性百分率,某些序列(例如限制位点)的存在与否、密码子改变百分率(例如增加或减少某些密码子的使用)和/或表达速率。
如下所述,用该方法产生编码萤火虫萤光素酶和选择性多肽的合成报道基因以及载体骨架合成序列。合成序列可支持比蛋白质的相应天然序列或亲代序列更高水平的表达和/或减少的异常表达。当天然序列和亲代序列在哺乳动物细胞中表达时,它可表现出异常的转录特征,而这在合成序列中是不明显的。
合成核苷酸序列的示例性用途
本发明的合成基因优选编码与其天然对应物所编码的相同(或相近)的蛋白质,但是具有改进的密码子使用,同时在编码区(已经知道,最好有少量氨基酸变化,以增强天然对应物蛋白质的特性,例如增强萤光素酶的荧光)和非编码区基本缺乏调节元件。这提高了合成基因所编码的蛋白质的表达水平,并降低了蛋白质异常表达的危险。例如,对基因调节的许多重要事件(它们可由弱启动子介导)的研究,受到报道蛋白不适当表达所致的报道信号不足的限制。同样,某些选择性标记的使用也受到其在外源细胞中表达的限制。因此,合成选择性标记基因(其在该细胞中具有改进的密码子使用,并减少了其它不需要的序列,例如转录因子结合位点),可允许在细胞中使用这些标记,所述细胞对于这些标记来说是不太理想的宿主。
当用共报道基因使转染效率标准化时,启动子干扰(crosstalk)是另一个问题。随着合成基因表达增加,可以减少含有强启动子的DNA数量,或者可以使用含有弱启动子的DNA,以驱动共报道基因的表达。另外,可以降低本发明合成报道基因的背景表达。这一特性使合成报道基因更需要,即通过减少基因的零星表达并减少其它调节途径所致的干扰。
在体内生物学研究或药物筛选的成像系统中使用报道基因,这是本发明的合成基因的另一用途。因为合成基因所编码的蛋白质的表达水平提高,所以它们更容易通过成像系统来检测。事实上,使用合成肾海鳃萤光素酶基因,可以用肉眼观察转染CHO细胞的荧光,而无需借助仪器来观察。
另外,合成基因可用于表达融合蛋白(例如与分泌前导序列或细胞定位序列的融合物),以研究难以转染细胞(例如原代细胞)的转录和/或改进对调节途径和遗传元件的分析。其它用途包括但不限于需要极高灵敏度的稀有事件的检测(例如研究RNA再编码),使用IRES以改进体外翻译或体外转录-翻译偶联系统例如TnT(Promega Corp.,Madison,WI)的效率,研究对不同宿主生物体(例如植物、真菌等)报道基因的优化,使用多个基因作为共报道基因以监测药物毒性,在多孔测定(multiwell assay)中作为报道分子,以及在药物筛选中作为报道分子,其优势是将不同信号转导途径和其它调节机制对报道信号干扰的可能性降至最低。
另外,本发明的合成核苷酸序列的用途包括荧光激活细胞分选术(fluorescence activated cell sorting,FACS)、荧光显微镜术,用于检测和/或测定体外和体内的基因表达水平(例如测定启动子强度)、亚细胞定位或打靶(融合蛋白),在标定中、在试剂盒(例如用于双重测定)中作为标记用于体内显像,分析调节途径和遗传元件,并以多孔模式(multi-well format)。
此外,尽管报道基因广泛用于测定转录事件,但是其用途受到报道基因表达的保真性和效率的限制。例如,在美国专利第5,670,356号中,萤火虫萤光素酶基因(称为luc+)经过修饰以改进萤光素酶表达水平。尽管观察到较高水平的表达,但是却无法确定较高表达具有改进的调节控制。
通过下面非限制性实施例进一步描述本发明。具体地讲,本发明的合成核酸分子可以用其他方法以及本文所述方法的修改方法获得。
                        实施例1
合成的叩头虫(Click Beetle)(RD和GR)萤光素酶核酸分子
LucPplYG是野生型叩头虫萤光素酶,发出黄绿色荧光(Wood,1989)。设计出一种突变型LucPplYG,称为YG#81-6G01。与野生型相比,YG#81-6G01缺乏过氧化物酶体靶向信号,对萤光素和ATP的KM较低,具有增加的信号稳定性和增加的温度稳定性(PCT/WO9914336)。YG #81-6G01因224位的Ala变成Val而发生突变(A224V是绿移突变),发出绿色荧光;或者通过同时引入氨基酸取代A224H、S247H、N346I和H348Q(红移突变组)而发生突变,发出红色荧光(PCT/WO9518853)。
采用YG #81-6G01作为亲代基因,设计出两个合成基因序列。一个编码发绿色荧光的萤光素酶(GR),而另一个编码发红色荧光的萤光素酶(RD)。这两个基因都设计为1)具有在哺乳动物细胞中表达的优化密码子使用,2)具有数目减少的转录调节位点,包括哺乳动物转录因子结合位点、剪接位点、poly(A)位点和启动子、以及原核(大肠杆菌)调节位点,3)没有不需要的限制位点,例如可能干扰标准克隆步骤的那些位点,和4)彼此相比,具有低DNA序列同一性,以便当都存在于同一细胞内时,使遗传重排最小化。此外,可以鉴定和引入需要的序列,例如Kozak序列或限制酶识别位点。
并非所有设计标准都能同时同等地满足。建立了以下优先权,以减少转录调节位点:转录因子(TF)结合位点的消除被认为是最高优先权,继而是剪接位点和poly(A)位点的消除,最后是原核调节位点的消除。当除去调节位点时,该策略起作用,从不太重要变成最重要,以确保最重要的变化放在最后进行。随后,重新检查序列的新的较低优先权位点的表现,如有必要,再进行其它改变。因此,设计合成GR和RD基因序列的方法,采用本文所述的计算机程序,包括5个任选的重复步骤,详见下文。
1.优化密码子使用并改变A224V,产生GRver1,分别改变A224H、S247H、H348Q和N346I,产生RDver1。这些具体的氨基酸改变在该序列的所有后续操作中都保持不变。
2.除去不需要的限制位点、原核调节位点、剪接位点、poly(A)位点,由此产生GRver2和RDver2。
3.除去转录因子结合位点(第一遍)并按照上述步骤2除去任何新产生的不需要的位点,由此产生GRver3和RDver3。
4.除去上述步骤3所产生的转录因子结合位点(第二遍)并按照上述步骤2除去任何新产生的不需要的位点,由此产生GRver4和RDver4。
5.除去上述步骤4所产生的转录因子结合位点(第三遍)并按照上述步骤2证实位点不存在,由此产生GRver5和RDver5。
6.通过PCR,使用对应于GRver5和RDver5指定序列片段的合成寡核苷酸,构建实际的基因,由此产生GR6和RD7。对GR6进行测序后发现:它在第49位氨基酸具有的丝氨酸残基突变成天冬酰胺,而第230位氨基酸具有的脯氨酸突变成丝氨酸(S49N、P230S)。对RD7进行测序后发现:它在第36位氨基酸具有的组氨酸突变成酪氨酸(H36Y)。这些变化都是在PCR过程中发生的。
4.上述步骤6所描述的突变(GR6的S49N、P230S,以及RD7的H36Y)被回复,产生GRver5.1和RDver5.1。
5.通过将351位的精氨酸密码子变成甘氨酸密码子(R351G),RDver5.1被进一步修饰,由此产生RDver5.2,与RDver5.1相比,其光谱特性有改进。
6.进一步使RDver5.2发生突变,以增加荧光强度,由此产生RD156-1H9,后者编码4个另外的氨基酸变化(M2I、S349T、K488T、E538V)和3个沉默单个碱基变化(参见美国申请顺序号09/645,706,2000年8月24日申请,所述文献通过引用结合到本文中)。
1.优化密码子使用并引入决定荧光颜色的突变
该设计步骤的起始基因序列为YG#81-6G01。
a)优化密码子使用:
该策略适用于在人体细胞中优化表达的密码子使用,同时又避免大肠杆菌低使用密码子。根据这些要求,对于所有超过两个密码子的氨基酸来说,选择用于人体细胞表达的最佳的两个密码子(参见Wada等,1990)。在具有6个密码子的氨基酸的密码子配对的选择中,选择偏重于这样的配对:所述配对具有最大数量的错配碱基,以允许设计具有最小序列同一性的GR基因和RD基因(密码子区别):
Arg:CGC/CGT    Leu:CTG/TTG    Ser:TCT/AGC
Thr:ACC/ACT    Pro:CCA/CCT    Ala:GCC/GCT
Gly:GGC/GGT    Val:GTC/GTG    Ile:ATC/ATT
根据这样的密码子选择,用计算机生成编码YG#81-6G01萤光素酶蛋白质序列的两个基因序列。这两个基因经设计具有最小DNA序列同一性,同时又具有非常近似的密码子使用。为了达到这一目的,两个基因中的各密码子被来自上述限制表的密码子以择一方式取代(例如Arg(n)在基因1中为CGC,而在基因2中为CGT,Arg(n+1)在基因1中为CGT,而在基因2中为CGC)。
对于设计过程中的后续步骤来说,预计对于该限制优化密码子选择,可以产生变化,以便满足其它设计标准,然而,不使用哺乳动物细胞的以下低使用密码子,除非需要满足更高优先权标准:
Arg:CGA    Leu:CTA    Ser:TCG
Pro:CCG    Val:GTA    Ile:ATA
同样,如果可能的话,也要避免大肠杆菌的以下低使用密码子(注意:其中3个匹配哺乳动物细胞的低使用表):
Arg:CGA/CGG/AGA/AGG
Leu:CTA    Pro:CCC    Ile:ATA
b)引入决定荧光颜色的突变:
如上所述,向两条密码子优化基因序列中的一条中引入一个绿移突变,并向另一条中引入4个红移突变。
来自该设计第一步骤的两个输出序列称为GRver1(version 1 GR)和RDver1(version 1 RD)。它们的DNA序列具有63%同一性(594个错配),同时它们所编码的蛋白质仅有4个氨基酸不同,这样的差异确定了荧光颜色(参见图2和图3,DNA序列和蛋白序列比对)。
作为一个实例,表1和表2给出了人体基因、亲代基因YG#81-6G01、密码子优化的合成基因GRver1和RDver1、以及完成5步设计过程后的合成基因的最终形式(GRver5和RDver5)中的缬氨酸和亮氨酸的密码子使用。
表1:缬氨酸
  密码子   人   亲代  GR ver1   RD ver1
  GTA   4   13  0   0
  GTC   13   4  25   24
  GTG   24   12  25   25
  GTT   9   20  0   0
 GR ver5   RD ver5
 1   1
 21   26
 25   17
 3   5
表2:亮氨酸
  密码子   人   亲代  GR ver1   RD ver1
  CTA   3   5  0   0
  CTC   12   4  0   1
  CTG   24   4  28   27
  CTT   6   12  0   0
  TTA   3   17  0   0
  TTG   6   13  27   27
 GR ver5   RD ver5
  0   0
  12   11
  19   18
  1   1
  0   0
  23   25
2.除去不需要的限制位点、原核调节位点、剪接位点和poly(A)位点
该设计步骤的起始基因序列为GRver1和RDver1。
a)除去不需要的限制位点:
为了检查不需要的限制位点存在与否及位置,采用标准序列分析软件(GenePro ver 6.10,Riverside Scientific Ent.),将两个合成基因的序列与限制酶识别序列数据库(REBASE ver.712,http://www.neb.com/rebase)进行比较。
具体地讲,下面的限制酶被归类为不需要的:
-BamH I、Xho I、Sfi I、Kpn I、Sac I、Mlu I、Nhe I、Sma I、XhoI、Bgl II、Hind III、Nco I、Nar I、Xba I、Hpa I、Sal I,
-其它克隆位点,常用的是:EcoR I、EcoR V、Cla I,
-8-碱基的切割机(cutters)(常用于复杂构建体),
-BstE II(以允许N-端融合),
-Xcm I(可产生A/T突出端,用于T-载体克隆)。
为了消除合成基因中存在的不需要的限制位点,按照以上1a所述的密码子优化指南,改变了合成基因序列的一个或多个密码子。
b)除去原核(大肠杆菌)调节序列:
为了检查原核调节序列存在与否及位置,采用标准序列分析软件(GenePro)检索两个合成基因的序列,看是否存在以下共有序列:
-TATAAT(-10 Pribnow启动子盒)
-AGGA或GGAG(核糖体结合位点;仅考虑是否与甲硫氨酸密码子12或少量下游碱基配对)。
为了消除合成基因中存在的这样的调节序列,按照以上1a所述的密码子优化指南,改变了合成基因序列的一个或多个密码子。
c)除去剪接位点:
为了检查剪接位点存在与否及位置,采用标准序列分析软件(GenePro)检索各合成基因中对应于初级RNA转录物的DNA链,看是否存在以下共有序列(参见Watson等,1983):
-剪接供体位点:AG|GTRAGT(外显子|内含子),对AGGTRAG和较低严格性GGTRAGT进行检索;
-剪接受体位点:(Y)nNCAG|G(内含子|外显子),用n=1进行检索。
为了消除合成基因中存在的剪接位点,按照以上1a所述的密码子优化指南,改变了合成基因序列的一个或多个密码子。如果不将剪接受体位点引入其它基因,则通常难以消除剪接受体位点,因为它们倾向于含有仅两个Gln密码子(CAG)中的一个;可以通过在两个基因中都放置Gln密码子CAA,而除去剪接受体位点,代价是略微增加了两个基因间的序列同一性。
d)除去poly(A)位点:
为了检查poly(A)位点的存在与否及位置,采用标准序列分析软件(GenePro)检索这两个合成基因的序列,看是否存在以下共有序列:
-AATAAA。
为了消除合成基因中存在的各poly(A)添加位点,按照以上1a所述的密码子优化指南,改变了合成基因序列的一个或多个密码子。来自该第二设计步骤的两个输出序列称为GRver2和RDver2。它们的DNA序列具有63%同一性(590个错配)。
3.除去转录因子(TF)结合位点,再重复步骤2a-d
该设计步骤的起始基因序列为GRver2和RDver2。
为了检查潜在TF结合位点的存在与否、位置及同一性,用这两个合成基因序列作为查询序列,以检索转录因子结合位点数据库(TRANSFAC v3.2)。该TRANSFAC数据库( http://transfac.gbf.de/TRANSFAC/index:html)具有基因调节性DNA序列(TF结合位点)以及与其结合并发挥作用的蛋白质(TF)的信息。TRANSFAC(3.2版)的SITE表含有4,401项条目的个体(推定)TF结合位点(包括真核基因、来自诱变研究和基于随机寡核苷酸混合物的体外选择程序的人工序列、或者特定理论考虑及共有结合序列中的TF结合位点(来自Faisst和Meyer,1992))。
用于在合成基因序列中定位和展示这些TF结合位点的软件工具是TESS(转录元件检索软件,http://agave.humgen.upenn.edu/tess/index.html)。基于过滤字段(filteredstring)的检索选项,采用了以下用户定义的检索参数:
-因子选择属性:生物体分类
-检索方式:哺乳动物
-最大允许错配%:0
-最小元件长度:5
-最小对数似然:10
该参数选择规定,检索仅包括哺乳动物TF结合位点(数据库的4,401条目中约有1,400条目),它们的长度为至少5个碱基。还规定,仅报告在查询序列中具有完美匹配且最小对数似然(LLH)打分为10的TF结合位点。LLH打分方法规定,2是明确匹配,1是部分模糊匹配(例如A或T匹配W),而0匹配“N”。例如,用以上规定参数进行检索,将导致“命中”(阳性结果或匹配)TATAA(SEQ ID NO:50)(LLH=10)、STRATG(SEQ ID NO:51)(LLH=10)和MTTNCNNMA(SEQID NO:52)(LLH=10),但不命中TRATG(SEQ ID NO:53)(LLH=9),如果这4个TF结合位点存在于查询序列中时。在设计程序结束时进行较低严格性测试,以重新评价检索参数。
当用含有已知TF结合位点的模拟查询序列进行TESS测试时,发现程序无法报道为与查询序列3′端结尾的位点相匹配。因此,将额外核苷酸添加到所有查询序列的3′端,以解决该问题。
用如上所述的参数,对TF结合位点进行第一次检索,发现两个合成基因(GRver2和RDver2)的每个都有约100个转录因子结合位点(命中)。按照以上1a所述的密码子优化指南,通过改变合成基因序列的一个或多个密码子,消除了所有位点。然而,预计某些这样的改变会产生新的TF结合位点、其它调节位点和新的限制位点。因此,如上所述重复步骤2a-d,除去4个新限制位点和2个新剪接位点。来自该第三设计步骤的两个输出序列称为GRver3和RDver3。它们的DNA序列具有66%同一性(541个错配)。
4.除去新转录因子(TF)结合位点,再重复步骤2a-d
该设计步骤的起始基因序列为GRver3和RDver3。
这第4步是第3步所述方法的重复。检索新引入的TF结合位点,对这两个合成基因的每一个得到约50次命中。按照以上1a所述的密码子优化指南,通过改变合成基因序列的一个或多个密码子,消除了所有位点。然而,使用更高至中等使用密码子,以使所有TF结合位点都消除掉。最低优先权放在维持GR基因和RD基因间的低序列同一性上。然后如上所述重复步骤2a-d。来自这第4设计步骤的两个输出序列称为GRver4和RDver4。它们的DNA序列具有68%同一性(506个错配)。
5.除去新转录因子(TF)结合位点,再重复步骤2a-d
该设计步骤的起始基因序列为GRver4和RDver4。
这第5步是第3步所述方法的另一次重复。检索第4步新引入的TF结合位点,对这两个合成基因的每一个得到约20次命中。按照以上1a所述的密码子优化指南,通过改变合成基因序列的一个或多个密码子,消除了所有位点。然而,使用更高至中等使用密码子(这些都认为是“优选的”),以使所有TF结合位点都消除掉。最低优先权放在维持GR和RD基因间的低序列同一性上。然后如上所述重复步骤2a-d。仅一个受体剪接位点可不被消除。最后一步,按照步骤3所述,证实这两个基因中所有TF结合位点都不存在。来自这第5步和最后的设计步骤的两个输出序列称为GRver5和RDver5。它们的DNA序列具有69%同一性(504个错配)。
GRver5和RDver5的其他评价
a)对于TESS,使用较低严格性参数:
按照上述步骤3所述,重复TF结合位点的检索,但是采用更低严格性的用户定义参数:
-将LLH设置为9、而不是10,不会导致新的命中;
-将LLH设置为0-8(包括0和8),导致命中两个额外位点:MAMAG(22次命中)和CTKTK(24次命中);
-将LLH设置为8,最小元件长度为4,检索得到(除了以上两个位点之外)用于AP-1、NF-1和c-Myb的不同的4-碱基位点,它们都是其各自较长共有位点的缩短形式,它们在上述步骤3-5中被消除。
尝试完全消除这些位点而又不引入新位点,这是不现实的,所以没有进一步改变。
b)检索不同数据库:
真核启动子数据库(45版)含有有关真核基因精确作图的转录起始位点(1253序列)的信息。用BLASTN 1.4.11,用缺省参数(经优化以快速发现接近的相同序列;参见Altschul等,1990)在美国国家生物技术信息中心(the National Center for Biotechnology Information)站点( http://www.ncbi.nlm.nih.gov/cgi-bin/BLAST)上检索该数据库。为了检验该方法,含有SV40启动子和增强子的pGL3-对照载体序列的一部分用作查询序列,得到对SV40序列的预期命中。当用这两个合成基因作为查询序列时,没有命中。
GRver5和RDver5合成基因特性概述
这两个基因在这一阶段仍仅为计算机上的“虚(virtual)”序列,它们具有的密码子使用强烈偏好哺乳动物高使用密码子并且将哺乳动物和大肠杆菌的低使用密码子减到最低。
这两个基因也完全缺乏真核TF结合位点,所述位点由超过4个明确碱基、供体和受体剪接位点(一个例外:GRver5含有一个剪接受体位点)、poly(A)位点、特定原核(大肠杆菌)调节序列和不需要的限制位点组成。
GRver5和RDver5间的基因序列同一性仅为69%(504个碱基错配),而它们所编码的蛋白质有99%同一性(4个氨基酸错配)。它们与亲代序列YG#81-6G1的同一性为74%(GRver5)和73%(RDver5)。它们的碱基组成为49.9%GC(GRver5)和49.5%GC(RDver5),相比之下,亲代YG#81-6G01为40.2%GC。
合成基因的构建
通过在热循环仪上由合成寡核苷酸进行装配,接着通过全长基因的PCR扩增,构建这两个合成基因(类似于Stemmer等(1995) Gene. 164,第49-53页)。纠正干扰合成基因设计目的的无意突变。
a)合成寡核苷酸的设计:
合成寡核苷酸主要是40mer,它们共同编码各设计基因(1,626bp)加上克隆必需的侧翼区(各基因共1,950bp)的两条完整链。相对于相反链的寡核苷酸的边界来说,一条链上的所有寡核苷酸的5′和3′边界通常以这样的方式放置:平均偏移/重叠20个碱基。
两个基因的侧翼区末端与扩增引物末端匹配(pRAMtailup:5′-gtactgagac gacgccagcccaagcttaggcctgagtg SEQ ID NO:54;pRAMtaildn:5′-ggcatgagcgtg aactgactgaactagcggccgccgag SEQ ID NO:55),允许将基因克隆到我们的大肠杆菌表达载体pRAM中(WO99/14336)。
设计了共183个寡核苷酸:15个寡核苷酸共同编码侧翼序列上游和下游,而168个寡核苷酸(4×42)编码这两个基因的两条链。
所有183个寡核苷酸都通过OLIGO软件(OLIGO 4.0 PrimerAnalysis Software_1989-1991,Wojciech Rychlik)进行发夹分析,以鉴定潜在有害的分子内成环。按照Sims博士(Sigma-Genosys CustomGene Synthesis Department)的推荐,确定用于评价分析结果的指导方针:ΔG<-10的寡聚体形成发夹应该避免,ΔG≤-7的形成发夹(包括寡核苷酸的3′端)也应该避免,同时总ΔG≤-5的那些用于该用途应该没什么问题。分析鉴定的23个寡核苷酸能够形成发夹,其ΔG介于-7.1和-4.9之间。其中的5个具有封闭或接近封闭的3′端(0-3游离碱基),通过除去其3′端的1-4个碱基并将其添加到相邻寡核苷酸上,对其进行重新设计。
涵盖了与poly(A)尾互补的序列的40mer寡核苷酸,具有非常低复杂性的3′端(13个连续T碱基)。设计一个另外的40mer,它具有高复杂性的3′端,但因此在相反链上减少了与其互补寡核苷酸之一的重叠(11个碱基、而不是20个碱基)。
虽然设计了寡核苷酸,用于基于热循环仪的装配反应,但是它们也可用于基于连接的方案,用于基因构建。在该方法中,将寡核苷酸以配对的方式退火,所得短的双链片段用粘性突出端连接在一起。然而,这需要所有寡核苷酸均被磷酸化。
b)基因装配和扩增
第1步,两个合成基因各自在单独反应中由98个寡核苷酸装配。各反应的总体积为50μl:
0.5μM寡核苷酸(=每个寡聚体为0.25pmole)
1.0U Taq DNA聚合酶
0.02U Pfu DNA聚合酶
2mM MgCl2
0.2mM dNTP(各)
0.1%明胶
循环条件:(94℃30秒,52℃30秒,72℃30秒)×55次循环。
第2步,各装配的合成基因在单独的反应中扩增。各反应的总体积为50μl:
2.5l装配反应物
5.0U Taq DNA聚合酶
0.1U Pfu DNA聚合酶
1M各引物(pRAMtailup,pRAMtaildn)
2mM MgCl2
0.2mM dNTP(各)
循环条件:(94℃20秒,65℃60秒,72℃3分钟)×30次循环。
将装配并扩增的基因亚克隆到pRAM载体中,在大肠杆菌中表达,得到1-2%发荧光的GR克隆或RD克隆。分离出5个GR和5个RD克隆,做进一步分析。5个GR克隆中,有3个具有正确的插入大小,其中1个是弱发光,一个具有改变的限制图谱。5个RD克隆中,有2个具有正确的插入大小并具有改变的限制图谱,1个是弱发光。总之,分析表明,基因中存在大量突变,很可能是装配及扩增反应中错误引入的结果。
c)正确装配和扩增
为了除去全长合成基因中存在的大量突变,我们对各基因进行了另外的装配和扩增反应,使用校正DNA聚合酶Tli。除了含有98个GR或RD寡核苷酸之外,装配反应物中还含有来自具有上述突变的相应全长克隆的少量DNA。这允许寡聚体纠正模板中存在的突变。
对各合成基因,进行以下装配反应。各反应的总体积为50μl:
0.5μM寡核苷酸(=每个寡聚体为0.25pmole)
0.016pmol质粒(具有正确插入大小的克隆混合物)
2.5U Tli DNA聚合酶
2mM MgCl2
0.2mM dNTP(各)
0.1%明胶
循环条件:94℃30秒;然后94℃30秒,52℃30秒,72℃30秒,共55次循环;再在72℃5分钟。
对各装配反应,进行以下扩增反应。各扩增反应的总体积为50μl:
1-5μl装配反应物
40pmol各引物(pRAMtailup,pRAMtaildn)
2.5U Tli DNA聚合酶
2mM MgCl2
0.2mM dNTP(各)
循环条件:94℃30秒;然后94℃20秒,65℃60秒,72℃3分钟,共30次循环;再在72℃5分钟。
将得自校正装配和扩增步骤的基因亚克隆到pRAM载体中,在大肠杆菌中表达,得到75%发荧光的GR或RD克隆。用WO99/14336所述的筛选机器人分析44个GR克隆和44个RD克隆。6个最佳GR克隆和RD克隆用手工分析,从中选出1个最佳GR和RD克隆(GR6和RD7)。对GR6进行序列分析,揭示出编码区具有2个点突变,都引起氨基酸取代(S49N和P230S)。对RD7进行序列分析,揭示出编码区具有3个点突变,其中1个引起氨基酸取代(H36Y)。经证实,没有沉默点突变引入与合成基因的总体设计标准相抵触的任何调节或限制位点。
d)回复(突变)不需要的氨基酸取代
GR6和RD7合成基因中存在的不需要的氨基酸取代通过定点诱变而回复,以匹配GRver5和RDver5设计序列,由此产生GRver5.1和RDver5.1。突变区的DNA序列经序列分析得以证实。
e)改进的光谱特性
进一步修饰了RDver5.1基因,以改进其光谱特性,即通过引入氨基变化(R351G),由此产生RDver5.2。
具有RD基因和GR基因的DGL3载体
将亲代叩头虫萤光素酶YG-#81-6G1(“YG”)和合成叩头虫萤光素酶基因GRver5.1(“GR”)、RDver5.2(“RD”)和RD156-1H9克隆到4种pGL3报道载体(Promega公司)中:
-pGL3-基础(pGL3-Basic)=无启动子,无增强子
-pGL3-对照=SV40启动子,SV40增强子
-pGL3-增强子=SV40增强子(萤光素酶编码序列的3′)
-pGL3-启动子=SV40启动子。
用于装配GR和RD合成基因的引物有助于将这些基因克隆到pRAM载体中。为了将基因引入pGL3载体(Promega Corp.,Madison,WI)中,用于在哺乳动物细胞中进行分析,扩增了pRAM载体(pRAMRDver5.1、pRAM GR.ver5.1和pRAM RD156-1H9)中的各基因,在基因的5′端引入Nco I位点,在3′端引入Xba I位点。pRAM RDver5.1和pRAM GRver5.1的引物是:
GR→5′GGA TCC CAT GGT GAA GCG TGA GAA 3′(SEQ ID NO:56),或
RD→5′GGA TCC CAT GGT GAA ACG CGA 3′(SEQ ID NO:57),和
5′CTA GCT TTT TTT TCT AGA TAA TCA TGA AGA C 3’(SEQ ID NO:58)。
pRAM RD156-1H9的引物是:
5′GCG TAG CCA TGG TAA AGC GTG AGA AAA ATG TC 3′(SEQ ID NO:59),
5′CCG ACT CTA GAT TAC TAA CCG CCG GCC TTC ACC 3′(SEQ ID NO:60)
PCR包括:
100ng DNA质粒
1μM上游引物
1μM下游引物
0.2mM dNTP
1X缓冲液(Promega公司)
5单位Pfu DNA聚合酶(Promega公司)
无菌nanopure H2O至50μl。
循环参数为:94℃5分钟;(94℃30秒;55℃1分钟;72℃3分钟)×15次循环。纯化的PCR产物用Nco I和XbaI消化,与也用Nco I和XbaI消化的pGL3-对照连接,再将连接产物导入大肠杆菌中。为了将萤光素酶基因插入到其它pGL3报道载体(基础、启动子和增强子)中,将含有各萤光素酶基因的pGL3-对照载体用Nco I和Xba I消化,与也用Nco I和Xba I消化的其它pGL3载体连接,再将连接产物导入大肠杆菌中。注意:由pGL3载体中的GRver5.1和RDver5.1(和RD156-1H9,参见下文)核酸序列所编码的多肽在2位具有氨基酸取代,变成缬氨酸,这是Nco I位点位于寡核苷酸起始密码子的结果。
因为内部Nco I和Xba I位点,所以YG #81-6G01的天然基因从编码区上游的Hind III位点扩增到下游的Hpa I位点,并且其中包含GR和RD克隆中存在的侧翼序列。将上游引物(5′-CAA AAA GCTTGG CAT TCC GGT ACT GTT GGT AAA GCC ACC ATG GTG AAGCGA GAG-3′;SEQ ID NO:61)和下游引物(5′-CAA TTG TTG TTGTTA ACT TGT TTA TT-3′;SEQ ID NO:62)与YG#81-6G01混合在一起,用以上PCR条件进行扩增。纯化的PCR产物用Nco I和Xba I消化,与也用Hind III和Hpa I消化的pGL3-对照连接,再将连接产物导入大肠杆菌中。为了将YG#81-6G01插入到其它pGL3报道载体(基础、启动子和增强子)中,将含有YG#81-6G01的pGL3-对照载体用Nco I和Xba I消化,与也用Nco I和Xba I消化的其它pGL3载体连接,再将连接产物导入大肠杆菌中。注意:pGL3载体中的YG#81-6G01克隆在碱基786具有C、而不是A,其中氨基酸序列在残基262发生变化,从Phe变成Leu。为了确定在262位改变的氨基酸是否影响酶的生物化学特性,使YG#81-6G01克隆发生突变,从而类似于原始序列。然后测定这两个克隆在大肠杆菌中的表达、物理稳定性、底物结合和荧光输出动力学。未见显著性差异。
合成基因和亲代基因所表达的并经部分纯化的酶,用于测定萤光素和ATP的Km(参见表3)。
               表3
  酶   KM(LH2)   KM(ATP)
  YG亲代   2μM   17μM
  GR   1.3μM   25μM
  RD   24.5μM   46μM
用Promega公司的TNT T7 Quick系统,按照制造商的说明书,还进行了体外真核转录/翻译反应。与亲代基因相比,合成GR和RD基因的荧光水平分别高出1-37倍和1-77倍(取决于反应时间)(校正发光计光谱敏感度)。
为了测定合成叩头虫萤光素酶基因和野生型叩头虫基因在哺乳动物细胞中是否具有改进的表达,将合成基因和亲代基因分别克隆到一系列pGL3载体中并导入CHO细胞中(表8)。在所有情况下,合成的叩头虫基因的表达都比天然基因更高。具体地讲,合成GR基因和RD基因的表达分别比亲代高出1900倍和40倍(转染效率经与天然肾海鳃萤光素酶基因比较而标准化)。此外,数据(基础/对照载体)表明,合成基因的基础水平转录降低。
此外,在增强子载体实验中,在天然基因和合成基因之间比较了相对于对照而言的%活性,数据显示,合成基因具有减少的异常转录特征的危险。具体地讲,亲代基因看来含有由载体的增强子活化的一个或多个内部转录调节序列,因此不适于作为报道基因,而合成GR和RD基因显示出清楚的报道基因反应(转染效率经与天然肾海鳃萤光素酶基因比较而标准化)。参见表8。
                        实施例2
               合成肾海鳃萤光素酶核酸分子
制备的合成肾海鳃萤光素酶基因包括:1)引入的Kozak序列,2)对哺乳动物(人)表达来说优化的密码子使用,3)减少或消除了不需要的限制位点,4)除去原核调节位点(核糖体结合位点和TATA盒),5)除去剪接位点和poly(A)位点,和6)减少或消除了哺乳动物转录因子结合序列。
下面的3个步骤描述了合成肾海鳃萤光素酶基因的计算机辅助设计方法,即通过反复多次的密码子优化并除去转录因子结合位点和其它调节位点、以及限制位点:
1.使用野生型肾海鳃萤光素酶基因作为亲代基因,优化密码子使用,改变了一个氨基酸(T→A)以产生Kozak共有序列,消除不需要的限制位点,由此产生合成基因Rlucver1。
2.除去原核调节位点、剪接位点、poly(A)位点和转录因子(TF)结合位点(第一遍)。再除去新产生的TF结合位点。再除去新产生的不需要的限制酶位点、原核调节位点、剪接位点和poly(A)位点,但不引入新的TF结合位点。由此产生Rlucver2。
3.改变Rlucver2的3个碱基,由此产生Rluc-fimal。
4.然后再由对应于Rluc-final设计序列的合成寡核苷酸来构建实际基因。装配或PCR过程所导致的所有突变都得以校正。该基因为Rluc-final。
密码子选择
从Genbank的肾海鳃(Renilla reniformis)萤光素酶序列(检索号M63501)开始,根据用于人体细胞优化表达的密码子使用并避免大肠杆菌低使用密码子,来选择密码子。对于所有超过1个密码子的氨基酸来说,选择用于人体细胞表达的最佳密码子(或者最佳的两个密码子,如果发现具有类似频率的话),参见Wada等,1990:
Arg:CGC          Lys:AAG
Leu:CTG          Asn:AAC
Ser:TCT/AGC      Gln:CAG
Thr:ACC          His:CAC
Pro:CCA/CCT      Glu:GAG
Ala:GCC          Asp:GAC
Gly:GGC          Tyr:TAC
Val:GTG          Cys:TGC
Ile:ATC/ATT      Phe:TTC
当一个氨基酸选择了两个密码子时,它们以择一方式使用。为了满足合成基因的其它标准,随后对起始最佳密码子选择进行某种程度的修饰。例如,引入Kozak序列需要使用GCT,用于第2位氨基酸的Ala(参见下文)。
除非必要,否则不使用以下哺乳动物细胞低使用密码子:Arg:CGA,CGU;Leu:CTA,UUA;Ser:TCG;Pro:CCG;Val:GTA;和Ile:ATA。如果可能的话,以下大肠杆菌低使用密码子也要避免(注意:其中3个匹配哺乳动物细胞的低使用表):Arg:CGA/CGG/AGA/AGG,Leu:CTA;Pro:CCC;Ile:ATA。
Kozak序列的引入
Kozak序列:5′aa ccATGGCT 3′(SEQ ID NO:63)(Nco I位点是下划线部分,编码区用大写字母表示)引入到合成肾海鳃萤光素酶基因中。引入Kozak序列,将第二氨基酸从Thr变成Ala(GCT)。
除去不需要的限制位点
按照实施例1所述,REBASE ver.808(1998年8月1日更新;限制酶数据库; www.neb.com/rebase)用于鉴定不需要的限制位点。按照实施例1所述方案,除去以下不需要的限制位点(除了实施例1所述之外):EcoICR I、NdeI、NsiI、SphI、SpeI、XmaI、PstI。
掺入所有这些变化的肾海鳃萤光素酶(Rluc)的形式为Rlucver1。
除去原核(大肠杆菌)调节序列、剪接位点和poly(A)位点
转录调节位点的优先权和消除方法按照实施例1所述。
除去TF结合位点
按照实施例1所述,使用同样的方法、工具和标准,但是采用更新的3.3版TRANSFAC数据库。
从Rlucver1上除去原核调节序列、剪接位点和poly(A)位点之后,第一次检索TF结合位点,得到约60次命中。消除所有位点,除了3个不能除去的位点之外,否则就会改变合成肾海鳃基因的氨基酸序列:
1.63位的位点,由W(T GGTGG)和CAC-结合蛋白T00076两个密码子组成:;
2.522位的位点,由KMV(A AN ATG GTN)、myc-DF1 T00517的密码子组成;
3.885位的位点,由EMG(G AR ATG GGN)、myc-DF1 T00517的密码子组成。
随后第2次检索(新引入的)TF结合位点,得到约20次命中。消除所有新位点,仅留下上述3个位点。最后,任何新引入的限制位点、原核调节序列、剪接位点和poly(A)位点都被除去,而不引入新TF结合位点,如果可能的话。
得到Rlucver2。
按照实施例1,指定较低严格性检索参数,用于TESS过滤字段检索(filtered string search),以进一步评价合成肾海鳃基因。
随着LLH从10下降到9,最小元件长度从5下降到4,TESS过滤字段检索不显示任何新的命中。除了以上列出的参数变化之外,当生物体分类从“哺乳动物”扩展到“脊索动物”时,检索仅得到4个以上的TF结合位点。当最小LLH进一步下降到8-0之间时,检索显示所结合的两个额外5-碱基位点(MAMAG和CTKTK)在Rlucver2中具有4个匹配,以及几个4-碱基位点。正如实施例1所述,检查Rlucver2,看是否命中EPD(真核启动子数据库(Eukaryotic PromoterDatabase,Release 45))中的条目。确定3次命中,一次是小家鼠(Musmusculus)启动子H-2L^d( Cell44,261(1986)),一次是单纯疱疹病毒1型启动子b′g′2.7kb,再一次是智人(Homo sapiens)DHFR启动子( J.Mol. Biol., 176,169(1984))。然而,对Rlucver2没有更多改变。
Rlucver2特性概述
-消除了所有30个低使用密码子。引入Kozak序列,将第二氨基酸从Thr变成Ala;
-碱基组成:55.7%GC(肾海鳃野生型亲代基因:36.5%);
-一个不需要的限制位点可以不被消除:488位的EcoR V;
-合成基因没有原核启动子序列,但是在位置867-73(Met密码子上游的约13个碱基上游)上具有一个潜在功能性核糖体结合位点(RBS)可以不被消除;
-消除了所有poly(A)位点;
-剪接位点:2个供体剪接位点可以不被消除(它们都共享氨基酸序列MGK);
-TF位点:消除了所有具有>4个明确碱基的共有序列的位点(约280个TF结合位点被除去),只有3个例外,因为优先避免氨基酸序列的变化。
当引入pGL3中时,Rluc-final具有Kozak序列(CACCATGGCT;SEQ ID NO:65)。在基因装配期间,相对于Rlucver2来说,引入Rluc-final的变化。一个变化在619位,C变成A,这消除了真核启动子序列并减少了用于装配基因的相应寡核苷酸发夹结构的稳定性。其它变化包括在218-220位从CGC变成AGA(导致对PCR来说更好的寡核苷酸)。
基因装配策略
用于合成肾海鳃萤光素酶的基因装配方案类似于实施例1所述。
有义链引物:
5′AACCATGGCTTCCAAGGTGTACGACCCCGAGCAACGCAAA 3′(SEQ ID NO:66)
反义链引物:
5′GCTCTAGAATTACTGCTCGTTCTTCAGCACGCGCTCCACG 3′(SEQ ID NO:67)
用Nco I和Xba I,将所得合成基因片段克隆到pRAM载体中。对具有正确大小插入序列的两个克隆进行测序。每个克隆的合成基因中发现了4-6个突变。这些突变通过定向诱变(Gene Editor,来自Promega Corp.,Madison,WI)并在这两个基因之间交换正确区域而固定。校正的基因经测序而得以证实。
其它载体
为了制备在pGL-3对照载体骨架中合成肾海鳃萤光素酶基因的表达载体,在含有各2μl酶和5μl 10X缓冲液B(用nanopure水将体积补足到50μl)的50μl终体积中,将5μg pGL3-对照用Nco I和Xba I消化。消化反应在37℃保温2小时,再将全部混合物在1%琼脂糖凝胶上、在1XTAE中进行电泳。用Qiagen的QIAquick凝胶提取试剂盒,纯化所需载体骨架片段。
使用两个寡核苷酸Nco I-RL-F和Xba L-RL-R,用pRL-CMV作为模板,通过PCR扩增天然肾海鳃萤光素酶基因,将天然肾海鳃萤光素酶基因片段克隆到pGL3-对照载体中。Nco I-RL-F序列为:
5′-CGCTAGCCATGGCTTCGAAAGTTTATGATCC-3′(SEQ IDNO:68);XbaI-RL-R序列为:
5′GGCCAGTAACTCTAGAATTATTGTT-3′(SEQ ID NO:69)。
PCR反应如下进行:
反应混合物(对于100μl):
DNA模板(质粒)          1.0μl(最终1.0ng/μl)
10X反应缓冲液          10.0μl(Stratagene公司)
dNTP(各25mM)           1.0μl(最终250μM)
引物1(10μM)           2.0μl(最终0.2μM)
引物2(10μM)           2.0μl(最终0.2μM)
Pfu DNA聚合酶          2.0μl(2.5U/μl,Stratagene公司)
                       82.0μl双蒸水
PCR反应:94℃加热2分钟;(94℃20秒;65℃1分钟;72℃2分钟;再在72℃5分钟)×25次循环,然后在冰上保温。从凝胶上切下PCR扩增片段,纯化DNA并贮存于-20℃。
为了将天然肾海鳃萤光素酶基因片段引入pGL3-对照载体中,将5μg天然肾海鳃萤光素酶基因(RAM-RL-合成)的PCR产物用Nco I和Xba I消化。纯化所需的肾海鳃萤光素酶基因片段并贮存于-20℃。
然后,将100ng插入片段和100ng pGL3-对照载体骨架用限制酶Nco I和Xba I消化,然后连接在一起。再将2μl连接混合物转化到JM109感受态细胞中。挑取8个氨苄青霉素抗性克隆,分离出它们的DNA。纯化来自pGL3-对照-天然和pGL3-对照-合成的各阳性克隆的DNA。载体中天然基因和合成基因的正确序列经DNA测序而得以证实。
为了确定合成肾海鳃萤光素酶基因是否在哺乳动物细胞具有改进的表达,将基因克隆到哺乳动物表达载体pGL3-对照载体中并处于SV40启动子和SV40早期增强子控制之下。将天然肾海鳃萤光素酶基因也克隆到pGL-3对照载体中,从而可以比较合成基因和天然基因的表达。再将表达载体转染到4种常用的哺乳动物细胞系(CHO、NIH3T3、HeLa和CV-1;表9)中,再比较具有合成基因的载体以及具有天然基因的载体之间的表达水平。所用的DNA量处于两个不同水平,以确定合成基因的表达在不同表达水平上持续升高。结果表明,在这些细胞中,合成肾海鳃萤光素酶基因的表达增加70-600倍(表4)。
                   表4
  细胞类型   载体量   表达增加倍数
  CHONIH3T3HeLaCV-1   0.2μg2.8μg0.2μg2.0μg0.2μg1.0μg0.2μg2.0μg   1421453265931851036872
萤光素酶报道基因的一个重要优势就是其蛋白质的短半寿期。增加的表达也可由延长的蛋白质半寿期引起,如果这样的话,这会产生新基因的不需要的缺点。通过放线菌酮跟踪(“CHX Chase”)实验,消除了这种可能性,这证明人源化肾海鳃萤光素酶基因不会引起蛋白质半寿期的增加。
为了确保表达的增加并不限于一个表达载体骨架,是启动子特异性和/或细胞特异性的,将合成肾海鳃基因(Rluc-final)以及天然肾海鳃基因克隆到不同载体骨架中并处于不同启动子之下。与野生型对应物相比,合成基因通常表现出表达增加(表5)。
                                   表5
  载体   NIH-3T3   HeLa   CHO
  pRL-tk,天然pRL-tk,合成pRL-CMV,天然pRL-CMV,合成pRL-SV40,天然pRL-SV40,合成pRL-null,天然pRL-null,合成pRGL3b,天然pRGL3b,合成pRGL3-tk,天然pRGL3-tk,合成pRL-tk无内含子,天然pRL-tk无内含子,合成   3,834.613,252.5168,062.22,168,129224,224.41,469,5882,853.89,151.1712130.527.96,778.231.86,665.5   922.49,040.2842,482.58,440,306346,787.62,632,510431.72,43921.8212.4155.58,782.51656,379   7,671.941,743.5153,539.52,532,57685,323.61,422,8302,43428,317.1171,094.5186.49,685.993.421,433.1
                           表6
  载体   对照载体百分率载体
  CHO细胞   NIH3T3细胞   HeLa细胞
  pRL-对照,天然pRL-对照,合成pRL-基础,天然pRL-基础,合成pRL-启动子,天然pRL-启动子,合成pRL-增强子,天然pRL-增强子,合成   1001004.10.45.915.042.12.6   1001005.60.17.89.9123.91.5   1001000.20.00.61.152.75.4
随着假表达减少,合成基因在无启动子载体中应表现出基础水平转录较低。将合成和天然的肾海鳃萤光素酶基因克隆到pGL3-基础载体中,以比较基础转录水平。因为合成基因本身具有表达效率增加,可以直接比较无启动子载体的活性,以判断基础转录的差异,而不是考虑到比较无启动子载体相对于对照载体的活性百分率(基础载体的表达除以同时具有启动子和增强子元件的完整功能性表达载体的表达)。数据表明,在哺乳动物细胞中,合成肾海鳃萤光素酶与天然基因相比,基础转录水平较低(表6)。
本领域技术人员众所周知,增强子可以充分刺激启动子活性。为了测试合成基因是否具有减少的不适当的转录特征的危险,将天然基因和合成基因引入到具有增强子元件的载体(pGL3-增强子载体)中。因为合成基因具有较高表达效率,所以两者的活性不能直接进行比较,以比较在增强子存在下的转录水平,然而,考虑到使用增强子载体相对于对照载体的活性百分率(增强子存在的表达除以同时具有启动子和增强子元件的完整功能性表达载体的表达)。结果表明,当天然基因存在时,增强子本身就能刺激转录,高出对照的42-124%,然而,在相同的载体中,当天然基因被合成基因取代时,活性仅为该数值的1-5%,当使用同样的增强子和强SV40启动子时,这清楚表明,合成基因具有降低的假表达的危险(表6)。
合成肾海鳃基因(Rluc-final)用于体外系统,以便与天然基因比较翻译效率。在T7快速偶联转录/翻译系统(Promega Corp.,Madison,WT)中,将pRL-null天然质粒(具有处于T7启动子控制之下的天然肾海鳃萤光素酶基因)或相同数量的pRL-null-合成质粒(具有处于T7启动子控制之下的合成肾海鳃萤光素酶基因)加入到TNT反应混合物中,在60分钟内每5分钟测定一次萤光素酶活性。用双重萤光素酶检测试剂盒(Promega公司)测定肾海鳃萤光素酶活性。数据表明,从合成基因中得到改进的表达。为了进一步证明合成基因的翻译效率增加,通过体外转录系统制备RNA,然后纯化。用BamHI将pRL-null(天然或合成)载体线性化。经过多次苯酚-氯仿抽提,再用乙醇沉淀,纯化DNA。用体外T7转录系统制备RNA。通过使用无RNA酶的DNA酶除去DNA模板,通过苯酚-氯仿抽提,再多次用异丙醇沉淀,纯化RNA。将相同数量的纯化RNA(无论来自合成基因还是来自天然基因)加入到兔网织红细胞裂解物或小麦胚芽裂解物中。此外,合成肾海鳃萤光素酶基因RNA比天然基因的RNA产生更多萤光素酶。这些数据表明,翻译效率因合成序列而得以改进。为了确定合成基因为什么在小麦胚芽中高度表达,测定了植物密码子的使用。高等植物中最低使用密码子与哺乳动物中使用的一致。
报道基因测定广泛用于研究转录调节事件。它通常在共转染实验中进行,其中,与含有测试启动子的第一报道构建体一起,让处于组成型启动子之下的第二对照报道基因转染细胞,作为内部对照,以使实验变异(包括样品间转染效率)标准化。对照报道基因信号、潜在启动子与对照报道基因和第一报道基因之间的相互干扰,以及实验条件对对照报道基因的潜在调节,都是选择可靠的共报道载体要考虑的重要方面。
如上所述,通过将合成肾海鳃萤光素酶基因克隆到不同载体骨架中并处于不同启动子之下,制备载体构建体。在3种所测哺乳动物细胞系中,所有构建体都表现出表达较高(表5)。因此,当合成肾海鳃萤光素酶转染哺乳动物细胞时,表达效率更好,发出的信号更强。
因为得到较强信号,所以需要较低的启动子活性就可得到同样的报道基因信号,这就降低了启动子干扰的危险。用50ng pGL3-对照(萤火虫luc+)加上5种不同数量的天然pRL-TK质粒(50ng、100ng、500ng、1000ng或2000ng)或合成pRL-TK(5ng、10ng、50ng、100ng或200ng)中的一种转染CHO细胞。对于每次转染,将pUC19载体DNA加入到共3μg的DNA中。减少10倍的pRL-TK DNA得到与天然基因类似或更强信号,同时具有减少的抑制最初报道pGL3-对照表达的危险。
实验处理有时可激活基因内的隐蔽位点,导致共报道基因表达的诱导或抑制,这破坏了它作为共报道基因用于使转染效率标准化的功能。一个实例是:当转染MCF-7细胞时,TPA诱导携带野生型基因的共报道基因载体的表达。用500ng pRL-TK(天然)、5μg天然和合成pRG-B、2.5μg天然和合成pRG-TK转染每孔的MCF-7细胞。用100ng/孔pGL3-对照(萤火虫luc+)与所有RL质粒一起共转染。载体DNA即pUC19,用于携带转染5.1μg/孔的总DNA。向各孔中加入15.3μlTransFast转染试剂(Promega Corp.,Madison,WI)。16小时后,细胞用胰蛋白酶水解,合并并分开加到6孔碟的6个孔中,让其贴壁8小时。然后,将3孔用0.2nM肿瘤启动子TPA(佛波醇-12-豆蔻酸-13-乙酸,Calbiochem #524400-S)处理,而3孔用20μl DMSO模拟处理。加入TPA 24小时后,用0.4ml Passive Lysis缓冲液收获细胞。结果显示,通过使用合成基因,避免了经实验刺激的共报道基因表达的不需要的变化(表7)。这证明,使用合成基因可降低异常表达的危险。
                          表7
  载体   Rlu   诱导倍数
  pRL-tk未处理(天然)pRL-tk TPA处理(天然)pRG-B未处理(天然)pRG-B TPA处理(天然)pRG-B未处理(最终)pRG-B TPA处理(最终)pRG-tk未处理(天然)pRG-tk TPA处理(天然)pRG-tk未处理(最终)pRG-tk TPA处理(最终)   184812181321954419212,81611,347 4.48.01.474.360.88
                         实施例3
                 合成萤火虫萤光素酶基因
用两种方法优化luc+基因(美国专利第5,670,356号)。在第1种方法(策略A)中,优化调节序列例如密码子,并同时除去转录因子结合位点(TFBS)(参见实施例4,尽管采用不同版本的程序和数据库)。第1种方法所得序列包括hluc+ver2AF1以及hluc+ver2AF8(名称中“F”表示构建体包含侧翼序列)。hluc+ver2AF1是密码子优化的,hluc+ver2AF2是第1轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的序列,hluc+ver2AF3是第2轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2AF4是第3轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2AF5是第4轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2AF6是除去启动子组件和RBS后得到的,hluc+ver2AF7是进一步除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2AF8是修饰限制酶识别位点后得到的。
不同萤火虫(P.pyralis)萤光素酶基因形式的配对DNA同一性:
                                         表8
  luc   luc+  hluc+   hluc+ver2A1   hluc+ver2B1  hluc+ver2A6  hluc+ver2B6
  Luc   100   95  76   73   77  74  75
  luc+   100  78   76   78  75  77
  hluc+  100   91   81  87  81
  hluc+ver2A1   100   74  91  78
  hluc+ver2B1   100  74  85
  hluc+ver2A6  100  80
  hluc+ver2B6  100
luc+具有下列序列:
atggaagacgccaaaaacataaagaaaggcccggcgccattctatccgctggaagatggaaccgctggagagca
actgcataaggctatgaagagatacgccctggttcctggaacaattgcttttttacagatgcacatatcgaggtggacatc
acttacgctgagtacttcgaaatgtccgttcggttggcagaagctatgaaacgatatgggctgaatacaaatcacaga
atcgtcgtatgcagtgaaaactctcttcaattctttatgccggtgttgggcgcgttatttatcggagttgcagttgcgccc
gcgaacgacatttataatgaacgtgaattgctcaacagtatgggcatttcgcagcctaccgtggtgttcgtttccaaaa
aggggttgcaaaaaattttgaacgtgcaaaaaaagctcccaatcatccaaaaaattattatcatggattctaaaacgga
ttaccagggatttcagtcgatgtacacgttcgtcacatctcatctacctcccggttttaatgaatacgattttgtgccaga
gtccttcgatagggacaagacaattgcactgatcatgaactcctctggatctactggtctgcctaaaggtgtcgctctg
cctcatagaactgcctgcgtgagattctcgcatgccagagatcctatttttggcaatcaaatcattccggatactgcgat
tttaagtgttgttccattccatcacggttttggaatgtttactacactcggatatttgatatgtggatttcgagtcgtcttaat
gtatagatttgaagaagagctgtttctgaggagccttcaggattacaagattcaaagtgcgctgctggtgccaacccta
ttctccttcttcgccaaaagcactctgattgacaaatacgatttatctaatttacacgaaattgcttctggtggcgctcccc
tctctaaggaagtcggggaagcggttgccaagaggttccatctgccaggtatcaggcaaggatatgggctcactga
gactacatcagctattctgattacacccgagggggatgataaaccgggcgcggtcggtaaagttgttccattttttgaa
gcgaaggttgtggatctggataccgggaaaacgctgggcgttaatcaaagaggcgaactgtgtgtgagaggtccta
tgattatgtccggttatgtaaacaatccggaagcgaccaacgccttgattgacaaggatggatggctacattctggag
acatagcttactgggacgaagacgaacacttcttcatcgttgaccgcctgaagtctctgattaagtacaaaggctatca
ggtggctcccgctgaattggaatccatcttgctccaacaccccaacatcttcgacgcaggtgtcgcaggtcttcccga
cgatgacgccggtgaacttcccgccgccgttgttgttttggagcacggaaagacgatgacggaaaaagagatcgtg
gattacgtcgccagtcaagtaacaaccgcgaaaaagttgcgcggaggagttgtgtttgtggacgaagtaccgaaag
gtcttaccggaaaactcgacgcaagaaaaatcagagagatcctcataaaggccaagaagggcggaaagatcgcc
gtgtaa(SEQ ID NO:43)
hluc+具有下列序列:
atggccgatgctaagaacattaagaagggccctgctcccttctaccctctggaggatggcaccgctggcgagcagc
tgcacaaggccatgaagaggtatgccctggtgcctggcaccattgccttcaccgatgcccacattgaggtggacatc
acctatgccgagtacttcgagatgtctgtgcgcctggccgaggccatgaagaggtacggcctgaacaccaaccacc
gcatcgtggtgtgctctgagaactctctgcagttcttcatgccagtgctgggcgccctgttcatcggagtggccgtgg
cccctgctaacgacatttacaacgagcgcgagctgctgaacagcatgggcatttctcagcctaccgtggtgttcgtgt
ctaagaagggcctgcagaagatcctgaacgtgcagaagaagctgcctatcatccagaagatcatcatcatggactct
aagaccgactaccagggcttccagagcatgtacacattcgtgacatctcatctgcctcctggcttcaacgagtacgac
ttcgtgccagagtctttcgacagggacaaaaccattgccctgatcatgaacagctctgggtctaccggcctgcctaag
ggcgtggccctgcctcatcgcaccgcctgtgtgcgcttctctcacgcccgcgaccctattttcggcaaccagatcatc
cccgacaaccgctattctgagcgtggtgccattccaccacggcttcggcatgttcaccaccctgggctacctgatttgc
ggctttcgggtggtgctgatgtaccgcttcgaggaggagctgttcctgcgcagcctgcaagactacaaaattcagtct
gccctgctggtgccaaccctgttcagcttcttcgctaagagcaccctgatcgacaagtacgacctgtctaacctgcac
gagattgcctctggcggcgccccactgtctaaggaggtgggcgaagccgtggccaagcgctttcatctgccaggca
tccgccagggctacggcctgaccgagacaaccagcgccattctgattaccccagagggcgacgacaagcctggc
gccgtgggcaaggtggtgccattcttcgaggccaaggtggtggacctggacaccggcaagaccctgggagtgaa
ccagcgcggcgagctgtgtgtgcgcggccctatgattatgtccggctacgtgaataaccctgaggccacaaacgcc
ctgatcgacaaggacggctggctgcactctggcgacattgcctactgggacgaggacgagcacttcttcatcgtgga
ccgcctgaagtctctgatcaagtacaagggctaccaggtggccccagccgagctggagtctatcctgctgcagcac
cctaacattttcgacgccggagtggccggcctgcccgacgacgatgccggcgagctgcctgccgccgtcgtcgtg
ctggaacacggcaagaccatgaccgagaaggagatcgtggactatgtggccagccaggtgacaaccgccaagaa
gctgcgcggcggagtggtgttcgtggacgaggtgcccaagggcctgaccggcaagctggacgcccgcaagatcc
gcgagatcctgatcaaggctaagaaaggcggcaagatcgccgtgtaa(SEQ ID NO:14).
                        表9
                       同一性(%)hluc+ver2A8  hluc+ver2B10  luc+    hluc+hluc+ver2A8                79.6          74      86.6趋异性  hluc+ver2B10  22.9                       75.9    80.1luc+          30.4         27.8                  77.4hluc+         14.7         22.5          25.7
                    表10
不同萤火虫(P.pyralis)萤光素酶基因形式的组成统计
  GC含量   CG二核苷酸
  智人(H.sapiens)   53%   --
  luc   45%   99
  luc+   47%   97
  hluc+   60%   111
  hluc+ver2A1   66%   151
  hluc+ver2B1   46%   1
  hluc+ver2A6   58%   133
  hlnc+ver2B6   49%   53
hluc+ver2A1-hluc+ver2A5具有下列序列(SEQ ID NO:16-20):
hluc+ver2A1
AAAGCCACCATGGAGGACGCCAAGAACATCAAGAAGGGCCCCGCCC
CCTTCTACCCCCTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAG
GCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTCACCGA
CGCCCACATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGA
GCGTGCGCCTGGCCGAGGCCATGAAGCGCTACGGCCTGAACACCAAC
CACCGCATCGTGGTGTGCAGCGAGAACAGCCTGCAGTTCTTCATGCC
CGTGCTGGGCGCCCTGTTCATCGGCGTGGCCGTGGCCCCCGCCAACG
ACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAG
CCCACCGTGGTGTTCGTGAGCAAGAAGGGCCTGCAGAAGATCCTGAA
CGTGCAGAAGAAGCTGCCCATCATCCAGAAGATCATCATCATGGACA
GCAAGACCGACTACCAGGGCTTCCAGAGCATGTACACCTTCGTGACC
AGCCACCTGCCCCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAG
CTTCGACCGCGACAAGACCATCGCCCTGATCATGAACAGCAGCGGCA
GCACCGGCCTGCCCAAGGGCGTGGCCCTGCCCCACCGCACCGCCTGC
GTGCGCTTCAGCCACGCCCGCGACCCCATCTTCGGCAACCAGATCAT
CCCCGACACCGCCATCCTGAGCGTGGTGCCCTTCCACCACGGCTTCG
GCATGTTCACCACCCTGGGCTACCTGATCTGCGGCTTCCGCGTGGTGC
TGATGTACCGCTTCGAGGAGGAGCTGTTCCTGCGCAGCCTGCAGGAC
TACAAGATCCAGAGCGCCCTGCTGGTGCCCACCCTGTTCAGCTTCTTC
GCCAAGAGCACCCTGATCGACAAGTACGACCTGAGCAACCTGCACGA
GATCGCCAGCGGCGGCGCCCCCCTGAGCAAGGAGGTGGGCGAGGCC
GTGGCCAAGCGCTTCCACCTGCCCGGCATCCGCCAGGGCTACGGCCT
GACCGAGACCACCAGCGCCATCCTGATCACCCCCGAGGGCGACGACA
AGCCCGGCGCCGTGGGCAAGGTGGTGCCCTTCTTCGAGGCCAAGGTG
GTGGACCTGGACACCGGCAAGACCCTGGGCGTGAACCAGCGCGGCG
AGCTGTGCGTGCGCGGCCCCATGATCATGAGCGGCTACGTGAACAAC
CCCGAGGCCACCAACGCCCTGATCGACAAGGACGGCTGGCTGCACAG
CGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGG
ACCGCCTGAAGAGCCTGATCAAGTACAAGGGCTACCAGGTGGCCCCC
GCCGAGCTGGAGAGCTCCTGCTGCAGCACCCCAACATCTTCGACGC
CGGCGTGGCCGGCCTGCCCGACGACGACGCCGGCGAGCTGCCCGCCG
CCGTGGTGGTGCTGGAGCACGGCAAGACCATGACCGAGAAGGAGAT
CGTGGACTACGTGGCCAGCCAGGTGACCACCGCCAAGAAGCTGCGCG
GCGGCGTGGTGTTCGTGCACGAGGTGCCCAAGGGCCTGACCGGCAAG
CTGGACGCCCGCAAGATCCGCGAGATCCTGATCAAGGCCAAGAAGG
GCGGCAAGATCGCCGTGTAATAATTCTAGA
hluc+ver2A2
AAAGCCACCATGGAGGACGCCAAGAACATCAAGAAGGGCCCAGCGC
CATTCTACCCCCTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAG
GCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTCACCGA
CGCACATATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGA
GCGTTCGGCTGGCAGAGGCTATGAAGCGCTATGGGCTGAACACCAAC
CATCGCATCGTGGTGTGCAGCGAGAACAGCTTGCAGTTCTTCATGCC
CGTGTTGGGTGCCCTGTTCATCGGCGTGGCTGTGGCCCCAGCTAACG
ACATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAG
CCCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTGAA
CGTGCAAAAGAAGCTGCCCATCATCCAAAAGATCATCATCATGGACA
GCAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACC
AGCCATTTGCCGCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAG
CTTCGACCGCGACAAGACCATCGCCCTGATCATGAACAGTAGTGGCA
GTACCGGCTTACCTAAGGGCGTGGCCCTACCGCACCGCACCGCCTGT
GTCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATC
CCCGACACCGCTATCCTGAGCGTGGTGCCATTTCACCACGGCTTCGGC
ATGTTCACCACCCTGGGCTACTTGATCTGCGGCTTCCGGGTCGTGCTG
ATGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTA
CAAGATTCAAAGCGCCCTGCTGGTGCCCACCCTGTTCAGTTTCTTCGC
CAAGAGCACCCTGATCGACAAGTACGACCTGAGCAACCTGCACGAG
ATCGCCAGCGGCGGCGCCCCGCTCAGCAAGGAGGTGGGCGAGGCCG
TGGCCAAGCGCTTCCACCTGCCAGGCATCCGCCAGGGCTACGGCCTG
ACCGAGACAACCAGCGCCATTCTGATCACCCCCGAGGGGGACGACA
AGCCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTG
GTGGACCTGGACACCGGTAAAACCCTGGGTGTGAACCAGCGCGGCG
AGCTGTGCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAAC
CCCGAGGCTACAAACGCCCTGATCGACAAGGACGGCTGGCTGCACAG
CGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGG
ACCGGCTGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCA
GCCGAACTGGAGAGCATCCTGCTGCAGCACCCCAACATCTTCGACGC
CGGGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCG
CAGTCGTGGTGCTGGAGCACGGTAAAACCATGACCGAGAAGGAGAT
CGTGGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCG
GCGGCGTGGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAG
TTGGACGCCCGCAAGATCCGCGAGATTCTGATCAAGGCCAAGAAGGG
CGGCAAGATCGCCGTGTAATAATTCTAGA
hluc+ver2A3
AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGC
CATTCTACCCACTGGAGGACGGCACCGCCGGCGAGCAGCTGCACAAA
GCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGA
CGCACATATCGAGGTGGACATCACCTACGCCGAGTACTTCGAGATGA
GCGTTCGGCTGGCAGAGGCTATGAAGCGCTTGGGCTGAATACCAAC
CATCGCATCGTGGTGTGCAGCGAGAATAGCTGCAGTTCTTCATGCCC
GTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGAC
ATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCC
CACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAACG
TGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAGC
AAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACCAG
CCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTT
CGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAGTA
CCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCCTGTGTC
CGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCC
GACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCATG
TTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCATG
TACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTATAA
GATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGCTTCTTCGCCAA
GAGCACTCTCATCGACAAGTACGACCTGAGCAACCTGCACGAGATCG
CCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGC
CAAGCGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGACAG
AAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAGCCT
GGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGA
CTTGGACACCGGTAAGACCCTGGGTGTGAACCAGCGCGGCGAGCTGT
GCGTCCGTGCCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAG
GCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCGGCGA
CATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGC
TGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCAGCCGA
ACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCGGGG
TCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTC
GTCGTGCTGGAGCACGGTAAAACCATGACCGAGAAGGAGATCGTGG
ACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTGGT
GTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGA
CGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCGGCA
AGATCGCCGTGTAATAATTCTAGA
hluc+ver2A4
AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGC
CATTCTACCCACTCGAAGACGGCACCGCCGGCGAGCAGCTGCACAAA
GCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGA
CGCACATATCGAGGTGGACATTACCTACGCCGAGTACTTCGAGATGA
GCGTTCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAACACCAAC
CATCGCATCGTGGTGTGCAGCGAGAATAGCTGCAGTTCTTCATGCCC
GTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGAC
ATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCC
CACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAACG
TGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAGC
AAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACTTC
CCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTT
CGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAGTA
CCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCTTGTGTC
CGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCCCC
GACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCATG
TTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCATG
TACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTATAA
GATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGTTTCTTCGCCAA
GAGCACTCTCATCGACAAGTACGACCTAAGCAACTTGCACGAGATCG
CCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTGGC
CAAACGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGACAG
AAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAGCCT
GGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGTGGA
CTTGGACACCGGTAAGACACTGGGTGTGAACCAGCGCGGCGAGCTGT
GCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAACCCCGAG
GCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCGGCGA
CATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGGC
TGAAGAGCCTGATCAAATACAAGGGCTACCAGGTAGCCCCAGCCGA
ACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCGGGG
TCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCAGTC
GTCGTGCTGGAACACGGTAAAACCATGACCGAGAAGGAGATCGTGG
ACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTGGT
GTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTGGA
CGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCGGCA
AGATCGCCGTGTAATAATTCTAGA
hluc+ver2A5
AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGCCCAGCGC
CATTCTACCCACTCGAAGACGGCACCGCCGGCGAGCAGCTGCACAAA
GCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTTACCGA
CGCACATATCGAGGTGGACATTACCTACGCCGAGTACTTCGAGATGA
GCGTTCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAACACCAAC
CATCGGATCGTGGTGTGCAGCGAGAATAGCTTGCAGTTCTTCATGCC
CGTGTTGGGTGCCCTGTTCATCGGTGTGGCTGTGGCCCCAGCTAACGA
CATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGC
CCACCGTCGTATTCGTGAGCAAGAAAGGGCTGCAAAAGATCCTCAAC
GTGCAAAAGAAGCTACCGATCATACAAAAGATCATCATCATGGATAG
CAAGACCGACTACCAGGGCTTCCAAAGCATGTACACCTTCGTGACTT
CCCATTTGCCACCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGC
TTCGACCGGGACAAAACCATCGCCCTGATCATGAACAGTAGTGGCAG
TACCGGATTGCCCAAGGGCGTAGCCCTACCGCACCGCACCGCTTGTG
TCCGATTCAGTCATGCCCGCGACCCCATCTTCGGCAACCAGATCATCC
CCGACACCGCTATCCTCAGCGTGGTGCCATTTCACCACGGCTTCGGCA
TGTTCACCACGCTGGGCTACTTGATCTGCGGCTTTCGGGTCGTGCTCA
TGTACCGCTTCGAGGAGGAGCTATTCTTGCGCAGCTTGCAAGACTAT
AAGATTCAAAGCGCCCTGCTGGTGCCCACACTGTTCAGTTTCTTCGCT
AAGAGCACTCTCATCGACAAGTACGACCTAAGCAACTTGCACGAGAT
CGCCAGCGGCGGGGCGCCGCTCAGCAAGGAGGTGGGCGAGGCCGTG
GCCAAACGCTTCCACCTACCAGGCATCCGCCAGGGCTACGGCCTGAC
AGAAACAACCAGCGCCATTCTGATCACCCCCGAAGGGGACGACAAG
CCTGGCGCAGTAGGCAAGGTGGTGCCCTTCTTCGAGGCTAAGGTGGT
GGACTTGGACACCGGTAAGACACTGGGTGTGAACCAGCGCGGCGAG
CTGTGCGTCCGTGGCCCCATGATCATGAGCGGCTACGTTAACAACCC
CGAGGCTACAAACGCTCTCATCGACAAGGACGGCTGGCTGCACAGCG
GCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGAC
CGGCTGAAGAGCCTGATCAATACAAGGGCTACCAGGTAGCCCCAGC
CGAACTGGAGAGCATCCTGCTGCAACACCCCAACATCTTCGACGCCG
GGGTCGCCGGCCTGCCCGACGACGATGCCGGCGAGCTGCCCGCCGCA
GTCGTCGTGCTGGAACACGGTAAAACCATGACCGAGAAGGAGATCGT
GGACTATGTGGCCAGCCAGGTTACAACCGCCAAGAAGCTGCGCGGTG
GTGTTGTGTTCGTGGACGAGGTGCCTAAAGGCCTGACGGGCAAGTTG
GACGCCCGCAAGATCCGCGAGATTCTCATTAAGGCCAAGAAGGGCG
GCAAGATCGCCGTGTAATAATTCTAGA
hluc+ver2A6具有下列序列:
AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAAGGGCCCaGCgCCaT
TCTACCCaCTcGAaGACGGCACCGCCGGCGAGCAGCTGCACAAaGCCA
TGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTtACCGACGCaC
AtATCGAGGTGGACATtACCTACGCCGAGTACTTCGAGATGAGCGTtCG
gCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtACaAACCAtCGgATCGT
GGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGCCCGTGtTGGGtGCC
CTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGACATCTACAACGAGC
GCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTcGTaTTCG
TGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTGCAaAAGAAGCTaCC
gATCATaCAaAAGATCATCATCATGGAtAGCAAGACCGACTACCAGGG
CTTCCAaAGCATGTACACCTTCGTGACttcCCAttTGCCaCCCGGCTTCAA
CGAGTACGACTTCGTGCCCGAGAGCTTCGACCGgGACAAaACCATCGC
CCTGATCATGAACAGtAGtGGCAGtACCGGatTgCCcAAGGGCGTaGCCC
TaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCCCGCGACCCCATCT
TCGGCAACCAGATCATCCCCGACACCGCtATCCTcAGCGTGGTGCCaTT
tCACCACGGCTTCGGCATGTTCACCACgCTGGGCTACtTGATCTGCGGC
TTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAGCTaTTCtTGCGCAG
CtTGCAaGACTAtAAGATtCAaAGCGCCCTGCTGGTGCCCACaCTGTTCA
GtTTCTTCGCtAAGAGCACtCTcATCGACAAGTACGACCTaAGCAACtTG
CACGAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGAGGTaGGtGAG
GCCGTGGCCAAaCGCTCCACCTaCCaGGCATCCGCCAGGGCTACGGC
CTGACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaGGgGACGACA
AGCCtGGCGCaGTaGGCAAGGTGGTGCCCTCTCGAGGCtAAGGTGGT
GGACtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCGCGGCGAGCTG
TGCGTcCGtGGCCCCATGATCATGAGCGGCTACGTtAACAACCCCGAG
GCtACaAACGCtCTcATCGACAAGGACGGCTGGCTGCACAGCGGCGAC
ATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGgCT
GAAGAGCCTGATCAAaTACAAGGGCTACCAGGTaGCCCCaGCCGAaCT
GGAGAGCATCCTGCTGCAaCACCCCAACATCTTCGACGCCGGgGTcGC
CGGCCTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCGCaGTcGTcGT
GCTGGAaCACGGtAAaACCATGACCGAGAAGGAGATCGTGGACTAtGT
GGCCAGCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGtGTtGTGTTC
GTGGACGAGGTGCCtAAaGGCCTGACgGGCAAGtTGGACGCCCGCAAG
ATCCGCGAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGATCGCCGTG
TAATAATTCTAGA(SEQ ID NO:21).
hluc+ver2A6序列经过修饰得到hluc+ver2A7:
AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAA
GGGCCCaGCgCCaTTCTACCCaCTcGAaGACGGgACCGCCGGCGAGCAG
CTGCACAAaGCCATGAAGCGCTACGCCCTGGTGCCCGGCACCATCGC
CTTtACCGACGCaCAtATCGAGGTGGACATtACCTACGCCGAGTACTTC
GAGATGAGCGTtCGgCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtAC
aAACCAtCGgATCGTGGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGC
CCGTGtTGGGtGCCCTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGAC
ATCTACAACGAGCGCGAGCTGCTGAACAGCATGGGCATCAGCCAGCC
CACCGTcGTaTTCGTGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTG
CAaAAGAAGCTaCCgATCATaCAaAAGATCATCATCATGGAtAGCAAGA
CCGACTACCAGGGCTTCCAaAGCATGTACACCTTCGTGACttcCCAttTG
CCaCCCGGCTTCAACGAGTACGACTTCGTGCCCGAGAGCTTCGACCGg
GACAAaACCATCGCCCTGATCATGAACAGtAGtGGCAGtACCGGatTgCC
cAAGGGCGTaGCCCTaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCC
CGCGACCCCATCTTCGGCAACCAGATCATCCCCGACACCGCtATCCTc
AGCGTGGTGCCaTTtCACCACGGCTTCGGCATGTTCACCACgCTGGGCT
ACtTGATCTGCGGCTTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAG
CTaTTCtTGCGCAGCtTGCAaGACTAtAAGATtCAatctGCCCTGCTGGTGC
CCACaCTaTTtAGcTTCTCGCtAAGAGCACtCTcATCGACAAGTACGACC
TaAGCAACtTGCACGAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGA
GGTaGGtGAGGCCGTGGCCAAaCGCTTCCACCTaCCaGGCATCCGCCAG
GGCTACGGCCTGACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaG
GgGACGACAAGCCtGGCGCaGTaGGCAAGGTGGTGCCCTTCTTCGAGG
CtAAGGTGGTGGACtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCG
CGGCGAGCTGTGCGTcCGTGGCCCCATGATCATGAGCGGCTACGTtAA
CAACCCCGAGGCtACaAACGCtCTcATCGACAAGGACGGCTGGCTGCA
CAGCGGCGACATCGCCTACTGGGACGAGGACGAGCACTTCTTCATCG
TGGACCGgCTGAAGAGCCTGATCAAaTACAAGGGCTACCAGGTaGCCC
CaGCCGAaCTGGAGAGCATCCTGCTGCAaCACCCCAACATCTTCGACG
CCGGgGTcGCCGGCCTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCG
CaGTcGTcGTGCTGGAaCACGGtAAaACCATGACCGAGAAGGAGATCGT
GGACTAtGTGGCCAGCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGt
GTtGTGTTCGTGGACGAGGTGCCtAAaGGCCTGACgGGCAAGtTGGACG
CCCGCAAGATCCGCGAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGA
TCGCCGTGTAATAATTCTAGA(SEQ ID NO:22).
对于在多克隆区具有BglI位点的载体来说,存在于萤火虫序列中的BglI位点可以被除去。来自hluc+ver2AF8并缺乏BglI位点的萤光素酶基因,当在4种哺乳动物细胞系(NIH3T3、CHO、HeLa和HEK293)中检测时,表现出表达平均增加7.2倍。
hluc+ver2A8具有下列序列:
AAAGCCACCATGGAaGAtGCCAAaAACATtAAGAAGGGCCCaGCgCCaT
TCTACCCaCTcGAaGACGGgACCGCCGGCGAGCAGCTGCACAAaGCCA
TGAAGCGCTACGCCCTGGTGCCCGGCACCATCGCCTTtACCGACGCaC
AtATCGAGGTGGACATtACCTACGCCGAGTACTTCGAGATGAGCGTtCG
gCTGGCaGAaGCtATGAAGCGCTAtGGgCTGAAtACaAACCAtCGgATCGT
GGTGTGCAGCGAGAAtAGCtTGCAGTTCTTCATGCCCGTGtTGGGtGCC
CTGTTCATCGGtGTGGCtGTGGCCCCaGCtAACGACATCTACAACGAGC
GCGAGCTGCTGAACAGCATGGGCATCAGCCAGCCCACCGTcGTaTTCG
TGAGCAAGAAaGGgCTGCAaAAGATCCTcAACGTGCAaAAGAAGCTaCC
gATCATaCAaAAGATCATCATCATGGAtAGCAAGACCGACTACCAGGG
CTTCCAaAGCATGTACACCTTCGTGACttcCCAttTGCCaCCCGGCTTCAA
CGAGTACGACTTCGTGCCCGAGAGCTTCGACCGgGACAAaACCATCGC
CCTGATCATGAACAGtAGtGGCAGtACCGGatTgCCcAAGGGCGTaGCCC
TaCCgCACCGCACCGCtTGtGTcCGaTTCAGtCAtGCCCGCGACCCCATCT
TCGGCAACCAGATCATCCCCGACACCGCtATCCTcAGCGTGGTGCCaTT
tCACCACGGCTTCGGCATGTTCACCACgCTGGGCTACtTGATCTGCGGC
TTtCGgGTcGTGCTcATGTACCGCTTCGAGGAGGAGCTaTTCtTGCGCAG
CtTGCAaGACTAtAAGATtCAatctGCCCTGCTGGTGCCCACaCTaTTtAGcT
TCTTCGCtAAGAGCACtCTcATCGACAAGTACGACCTaAGCAACtTGCAC
GAGATCGCCAGCGGCGGgGCgCCgCTcAGCAAGGAGGTaGGtGAGGCC
GTGGCCAAaCGCTTCCACCTaCCaGGCATCCGCCAGGGCTACGGCCTG
ACaGAaACaACCAGCGCCATtCTGATCACCCCCGAaGGgGACGACAAGC
CtGGCGCaGTaGGCAAGGTGGTGCCCTTCTTCGAGGCtAAGGTGGTGGA
CtTGGACACCGGtAAgACaCTGGGtGTGAACCAGCGCGGCGAGCTGTGC
GTcCGtGGCCCCATGATCATGAGCGGCTACGTtAACAACCCCGAGGCtA
CaAACGCtCTcATCGACAAGGACGGGTGGCTGCACAGCGGCGACATCG
CCTACTGGGACGAGGACGAGCACTTCTTCATCGTGGACCGgCTGAAG
AGCCTGATCAAaTACAAGGGCTACCAGGTaGCCCCaGCCGAaCTGGAG
AGCATCCTGCTGCAaCACCCCAACATCTTCGACGCCGGgGTcGCCGGC
CTGCCCGACGACGAtGCCGGCGAGCTGCCCGCCGCaGTcGTcGTGCTGG
AaCACGGtAAaACCATGACCGAGAAGGAGATCGTGGACTAtGTGGCCA
GCCAGGTtACaACCGCCAAGAAGCTGCGCGGtGGtGTtGTGTTCGTGGA
CGAGGTGCCtAAaGGaCTGACcGGCAAGtTGGACGCCCGCAAGATCCGC
GAGATtCTcATtAAGGCCAAGAAGGGCGGCAAGATCGCCGTGTAATAA
TTCTAGA(SEQ ID NG:23).
对于第2种方法,萤火虫萤光素酶luc+密码子经优化用于哺乳动物表达,并且减少了共有序列转录因子结合位点和CG二核苷酸(CG岛,潜在甲基化位点)的数目。第2种方法得到:hluc+ver2BF1到hluc+ver2BF5形式。hluc+ver2BF1是密码子优化的,hluc+ver2BF2是第1轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的序列,hluc+ver2BF3是第2轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2BF4是第3轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2BF5是第4轮除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2BF6是除去启动子组件和RBS后得到的,hluc+ver2BF7是进一步除去经鉴定的包含转录因子结合位点的不需要的序列后得到的,hluc+ver2BF8是修饰限制酶识别位点后得到的。
hluc+ver2B1-B5具有下列序列(SEQ ID NO:24-28):
hluc+ver2B1
AAAGCCACCATGGAGGATGCTAAGAATATTAAGAAGGGGCCTGCTCC
TTTTTATCCTCTGGAGGATGGGACAGCTGGGGAGCAGCTGCATAAGG
CTATGAAGAGATATGCTCTGGTGCCTGGGACAATTGCTTTTACAGATG
CTCATATTGAGGTGGATATTACATATGCTGAGTATTTTGAGATGTCTG
TGAGACTGGCTGAGGCTATGAAGAGATATGGGCTGAATACAAATCAT
AGAATTGTGGTGTGTTCTGAGAATTCTCTGCAGTTTTTTATGCCTGTG
CTGGGGGCTCTGTTTATTGGGGTGGCTGTGGCTCCTGCTAATGATATT
TATAATGAGAGAGAGCTGCTGAATTCTATGGGGATTTCTCAGCCTAC
AGTGGTGTTTGTGTCTAAGAAGGGGCTGCAGAAGATTCTGAATGTGC
AGAAGAAGCTGCCTATTATTCAGAAGATTATTATTATGGATTCTAAG
ACAGATTATCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTCAT
CTGCCTCCTGGGTTTAATGAGTATGATTTTGTGCCTGAGTCTTTTGAT
AGAGATAAGACAATTGCTCTGATTATGAATTCTTCTGGGTCTACAGG
GCTGCCTAAGGGGGTGGCTCTGCCTCATAGAACAGCTTGTGTGAGAT
TTTCTCATGCTAGAGATCCTATTTTTGGGAATCAGATTATTCCTGATA
CAGCTATTCTGTCTGTGGTGCCTTTTCATCATGGGTTTGGGATGTTTAC
AACACTGGGGTATCTGATTTGTGGGTTTAGAGTGGTGCTGATGTATAG
ATTTGAGGAGGAGCTGTTTCTGAGATCTCTGCAGGATTATAAGATTCA
GTCTGCTCTGCTGGTGCCTACACTGTTTTCTTTTTTTGCTAAGTCTACA
CTGATTGATAAGTATGATCTGTCTAATCTGCATGAGATTGCTTCTGGG
GGGGCTCCTCTGTCTAAGGAGGTGGGGGAGGCTGTGGCTAAGAGATT
TCATCTGCCTGGGATTAGACAGGGGTATGGGCTGACAGAGACAACAT
CTGCTATTCTGATTACACCTGAGGGGGATGATAAGCCTGGGGCTGTG
GGGAAGGTGGTGCCTTTTTTTGAGGCTAAGGTGGTGGATCTGGATAC
AGGGAAGACACTGGGGGTGAATCAGAGAGGGGAGCTGTGTGTGAGA
GGGCCTATGATTATGTCTGGGTATGTGAATAATCCTGAGGCTACAAA
TGCTCTGATTGATAAGGATGGGTGGCTGCATTCTGGGGATATTGCTTA
TTGGGATGAGGATGAGCATTTTTTTATTGTGGATAGACTGAAGTCTCT
GATTAAGTATAAGGGGTATCAGGTGGCTCCTGCTGAGCTGGAGTCTA
TTCTGCTGCAGCATCCTAATATTTTTGATGCTGGGGTGGCTGGGCTGC
CTGATGATGATGCTGGGGAGCTGCCTGCTGCTGTGGTGGTGCTGGAG
CATGGGAAGACAATGACAGAGAAGGAGATTGTGGATTATGTGGCTTC
TCAGGTGACAACAGCTAAGAAGCTGAGAGGGGGGGTGGTGTTTGTGG
ATGAGGTGCCTAAGGGGCTGACAGGGAAGCTGGATGCTAGAAAGAT
TAGAGAGATTCTGATTAAGGCTAAGAAGGGGGGGAAGATTGCTGTGT
AATAATTCTAGA
hluc+ver2B2
AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCC
TTTCTACCCTCTGGAGGATGGGACTGCCGGGGAGCAGCTGCATAAAG
CTATGAAGCGGTATGCTCTGGTGCCAGGCACAATTGCGTTCACGGAT
GCTCACATTGAGGTGGACATTACATACGCTGAGTATTTTGAGATGTCG
GTGCGGCTGGCTGAGGCTATGAAGCGATATGGGCTGAATACAAACCA
TAGAATTGTAGTGTGCTCTGAGAACTCGTTGCAGTTTTTTATGCCTGT
GCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACAT
TTACAATGAGAGAGAGCTTTTGAACTCGATGGGGATTTCTCAGCCTA
CAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGTG
CAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTAA
GACAGACTACCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTCA
TCTGCCTCCTGGGTTCAACGAGTATGACTTTGTGCCCGAGTCTTTCGA
CAGAGATAAGACAATTGCTCTGATTATGAATTCATCTGGGTCTACCG
GGCTGCCTAAGGGTGTAGCTCTGCCACATAGAACAGCTTGTGTGAGA
TTTTCTCATGCTAGGGACCCTATTTTTGGGAATCAGATTATTCCTGAT
ACTGCTATTCTGTCGGTTGTGCCCTTTCATCATGGGTTTGGGATGTTTA
CAACACTGGGCTACCTGATATGTGGGTTTAGAGTGGTGCTCATGTATA
GGTTTGAGGAGGAGCTTTTTTTTGCGCTCTCTGCAAGATTATAAGATTC
AGTCTGCTCTGCTGGTGCCTACACTGTTTTCTTTTTTTGCTAAGTCTAC
CCTGATCGATAAGTATGATCTGTCCAACCTGCACGAGATTGCTTCTGG
GGGGGCTCCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCGCT
TTCATCTGCCTGGAATCAGACAGGGGTATGGGCTAACAGAAACAACA
TCTGCTATTCTGATTACACCAGAGGGGGATGATAAGCCCGGGGCTGT
AGGGAAAGTGGTGCCCTTTTTTGAAGCTAAAGTAGTTGATCTTGATAC
CGGTAAGACACTGGGGGTGAATCAGCGAGGGGAACTGTGTGTGAGA
GGGCCTATGATTATGTCGGGGTATGTGAACAACCCTGAGGCTACAAA
TGCTCTGATTGATAAGGATGGGTGGCTGCATTCGGGCGATATTGCTTA
CTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCGT
TGATCAAATATAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAGTCC
ATTCTGCTTCAACATCCTAACATTTTCGATGCTGGGGTGGCTGGGCTG
CCTGATGATGATGCTGGGGAGCTGCCTGCTGCTGTAGTGGTGCTGGA
GCACGGTAAGACAATGACAGAGAAGGAGATTGTGGATTATGTGGCTT
CACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTG
GATGAGGTGCCTAAAGGGCTGACAGGCAAGCTGGATGCTAGAAAAA
TTCGAGAGATTCTGATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTG
TAATAGTTCTAGA
hluc+ver2B3
AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCC
TTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAG
CTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGAT
GCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTC
GGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACC
ATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCG
TGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACA
TCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATTTCTCAGCCT
ACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATCTCAATGT
GCAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTA
AGACCGACTACCAGGGGTTTCAGTCTATGTATACATTTGTGACATCTC
ATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCG
ACAGAGATAAGACAATTGCTCTGATCATGAATTCATCCGGGTCTACC
GGGCTGCCTAAGGGTGTAGCTCTGCCCCATAGAACAGCTTGTGTGAG
ATTTTCTCATGCTAGGGACCCTATTTTTGGGAATCAGATTATTCCTGA
CACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTT
TACAACACTGGGCTACCTAATATGTGGGTTTTAGAGTGGTGCTCATGTA
TAGGTTTGAAGAAGAGCTGTTCTTACGCTCTTTGCAAGATTATAAGAT
TCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCT
ACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCT
GGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCG
CTTTCATCTGCCTGGTATCAGACAGGGGTATGGGCTAACAGAAACAA
CATCTGCTATTCTGATTACACCAGAGGGGGATGATAAGCCCGGGGCT
GTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGAT
ACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGAG
AGGGCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAA
ATGCTCTGATTGATAAGGATGGCTGGCTGCATTCGGGCGACATTGCTT
ACTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCG
TTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAATC
CATTCTGCTCAACATCCCAACATTTTCGATGCTGGGGTGGCTGGGCT
GCCTGATGATGATGCTGGGGAGTTGCCTGCTGCTGTAGTGGTGCTTGA
GCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTT
CACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTG
GATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCTAGAAAAAT
TCGAGAGATTCTGATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGT
AATAGTTCTAGA
hluc+ver2B4
AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCC
CTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAG
CTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGAT
GCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTC
GGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACC
ATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCG
TGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACA
TCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCT
ACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGT
GCAAAAGAAGCTGCCTATTATTCAAAAGATTATTATTATGGACTCTA
AGACAGACTACCAGGGGTTTCAGTCCATGTATACATTTGTGACATCTC
ATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCG
ACAGAGATAAGACAATTGCTCTGATCATGAATTCATCCGGGTCTACC
GGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAG
ATTCTCTCATGCCAGGGACCCGATCTTTGGGAATCAGATTATTCCTGA
CACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTT
TACAACACTGGGATACCTAATATGTGGGTTTAGAGTGGTGCTCATGT
ATAGGTTTGAAGAAGAACTGTTCTTACGCTCTTTGCAAGATTATAAGA
TTCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTC
TACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTC
TGGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGC
GCTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACA
ACTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAGCCCGGGGC
TGTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGA
TACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGC
GGGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACA
AATGCTCTTATTGATAAGGATGGCTGGTTGCATTCGGGCGACATTGCC
TACTGGGATGAGGATGAGCATTTCTTCATC GTGGACAGACTGAAGTC
GTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAAT
CCATTCTGCTTCAACATCCAAACATTTTCGATGCTGGGGTGGCTGGGC
TGCCTGATGATGATGCTGGAGAGTTGCCTGCTGCTGTAGTAGTGCTTG
AGCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGC
TTCACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTG
TGGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAA
ATTCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGT
GTAATAGTTCTAGA
hluc+ver2B5
AAAGCCACCATGGAAGATGCTAAAAACATTAAGAAGGGGCCTGCTCC
CTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAAG
CTATGAAGCGGTATGCTCTTGTGCCAGGCACAATTGCGTTCACGGAT
GCTCACATTGAGGTGGACATCACATACGCTGAGTATTTTGAGATGTC
GGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACC
ATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCG
TGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACA
TCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCT
ACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGT
GCAAAAGAAGCTGCCTATTATACAAAAGATTATTATTATGGACTCTA
AGACCGACTACCAGGGGTTTCAGTCCATGTACACATTTGTAACCTCTC
ATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCG
ACAGGGACAAAACGATTGCTCTGATCATGAACTCATCCGGGTCTACC
GGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAG
ATTCTCTCATGCCAGGGACCCGATCTTTGGGAATCAGATTATTCCTGA
CACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTT
CACAACACTGGGATACCTCATTTGCGGGTTTAGAGTGGTGCTCATGTA
TAGGTTTGAAGAAGAACTATTCCTACGCTCTTTGCAAGATTATAAGAT
TCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCT
ACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCT
GGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCG
CTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACAA
CTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAACCCGGGGCT
GTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGAT
ACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGCG
GGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAA
ATGCTCTTATTGATAAGGATGGCTGGTTGCATTCGGGCGACATTGCCT
ACTGGGATGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTCG
TTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCTGAGCTGGAATC
CATTCTGCTTCAACATCCTAACATTTTCGATGCTGGGGTGGCTGGGCT
GCCTGATGATGATGCTGGAGAGTTGCCTGCTGCTGTAGTAGTGCTTGA
GCACGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCTT
CACAAGTGACAACAGCTAAGAAACTGAGAGGTGGCGTTGTGTTTGTG
GATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAAAT
TCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGTGT
AATAGTTCTAGA
hluc+ver2B6具有下列序列:
AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCc
TTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGA
AGcGgTATGCTCTtGTGCCaGGcACAATTGCgTTcACgGATGCTCAcATTG
AaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCa
GAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGT
GcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcAT
cGGGGTGGCTGTGGCTCCTGCTAAcGAcATcTAcAAcGAGcGAGAGCTgt
TGAAcTCggATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAA
aGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTGCCTATTATaCAaA
AGATTATTATTATGGAcTCtAAGACcGAcTAcCAGGGGTTTCAGTCcATG
TAcACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAcGAGTAcGAcTTc
GTGCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagc
TCcGGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGC
TTGTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATc
CCTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGAT
GTTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTA
TAGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAG
TCTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTc
ATaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCa
CCTCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGC
CTGGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTG
ATTACACCaGAGGGcGATGAcAAaCCcGGGGCTGTaGGGAAaGTGGTGC
CcTTTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGT
GAAcCAGcGtGGtGAaCTGTGTGTGcGgGGcCCTATGATTATGTCgGGGTA
cGTtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTt
CATagcGGcGAcATTGCcTAcTGGGAcGAGGATGAGCATTTcTTcATcGTG
GAcAGACTGAAGTCgtTGATcAAAaTAcAAGGGGTATCAaGTaGCTCCTGC
TGAGCTGGAaTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGT
GGCTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTa
GTGCTtGAGCAcGGtAAGACAATGACAGAGAAGGAGATcGTGGATTAT
GTGGCTTCaCAaGTGACAACAGCTAAGAAaCTGAGAGGtGGcGTtGTGT
TTGTGGATGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAA
aATTcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTG
TAATAgTTCTAGA(SEQ ID NO:29).
hluc+ver2BF8是通过从hluc+ver2BF7上除去Pts1共有序列转录因子结合位点而产生的。
hluc+ver2B7具有下列序列:
AAAGCCACCATGGAAGATGCCAAAAACATTAAGAAGGGGCCTGCTC
CCTTCTACCCTCTTGAAGATGGGACTGCTGGCGAGCAACTTCACAAA
GCTATGAAGCGGTATGCTCTTGTGCCAGGGACAATTGCGTTCACGGA
TGCTCACATTGAAGTAGACATCACATACGCTGAGTATTTTGAGATGTC
GGTGCGGCTGGCAGAAGCTATGAAGCGCTATGGGCTGAATACAAACC
ATAGAATTGTAGTGTGCAGTGAGAACTCGTTGCAGTTCTTTATGCCCG
TGCTGGGGGCTCTCTTCATCGGGGTGGCTGTGGCTCCTGCTAACGACA
TCTACAACGAGCGAGAGCTGTTGAACTCGATGGGGATCTCTCAGCCT
ACAGTGGTGTTTGTGAGTAAGAAAGGGCTTCAAAAGATTCTCAATGT
GCAAAAGAAGCTGCCTATTATACAAAAGATTATTATTATGGACTCTA
AGACAGACTACCAGGGGTTTTCAGTCCATGTACACATTTGTAACCTCTC
ATCTGCCTCCTGGCTTCAACGAGTACGACTTCGTGCCCGAGTCTTTCG
ACAGGGACAAAACGATTGCTCTGATCATGAACAGCTCCGGGTCTACC
GGGCTGCCTAAGGGTGTAGCTCTGCCCCATCGAACAGCTTGTGTGAG
ATTCTCTCATGCCAGGGACCCGATCTTTGGAAACCAGATCATCCCTGA
CACTGCTATTCTGTCGGTGGTGCCCTTTCATCATGGGTTTGGGATGTT
CACAACACTGGGATACCTCATTTGCGGGTTTAGAGTGGTGCTCATGTA
TAGGTTTGAAGAAGAACTATTCCTACGCTCTTTGCAAGATTATAAGAT
TCAGTCTGCTCTGCTGGTGCCAACACTATTCTCTTTTTTTGCTAAGTCT
ACGCTCATAGACAAGTATGACTTGTCCAACTTGCACGAGATTGCTTCT
GGCGGAGCACCTCTGTCTAAGGAGGTAGGTGAGGCTGTGGCTAAGCG
CTTTCATCTGCCTGGTATCAGACAGGGGTACGGGCTAACAGAAACAA
CTTCTGCTATTCTGATTACACCAGAGGGCGATGACAAACCCGGGGCT
GTAGGGAAAGTGGTGCCCTTTTTTGAAGCCAAAGTAGTTGATCTTGAT
ACCGGTAAGACACTAGGGGTGAACCAGCGTGGTGAACTGTGTGTGCG
GGGCCCTATGATTATGTCGGGGTACGTTAACAACCCCGAAGCTACAA
ATGCTCTCATAGACAAGGACGGGTGGCTTCATAGCGGCGACATTGCC
TACTGGGACGAGGATGAGCATTTCTTCATCGTGGACAGACTGAAGTC
GTTGATCAAATACAAGGGGTATCAAGTAGCTCCTGCCGAGCTTGAGT
CCATTCTGCTTCAACACCCCAATATCTTCGATGCTGGGGTGGCTGGGC
TGCCTGATGATGATGCTGGAGAGCTGCCTGCTGCTGTAGTAGTGCTTG
AGCATGGTAAGACAATGACAGAGAAGGAGATCGTGGATTATGTGGCT
TCACAAGTGACAACAGCTAAGAAACTCCGAGGTGGCGTTGTGTTTGT
GGATGAGGTGCCTAAAGGGCTCACTGGCAAGCTGGATGCCAGAAAA
ATTCGAGAGATTCTCATTAAGGCTAAGAAGGGTGGAAAGATTGCTGT
GTAATAGTTCTAGA(SEQ ID NO:94)
hluc+ver2B8具有下列序列:
AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCc
TTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGA
AGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTG
AaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCa
GAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGT
GcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcAT
cGGGGTGGCTGTGGCTCCTGCTAAcGAcATcTAcAAcGAGcGAGAGCTgt
TGAAcTCgATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAA
aGGGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAA
GATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTA
cACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAcGAGTAcGAcTTcGT
GCCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcTCc
GGGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTT
GTGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcC
CTGAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATG
TTcACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTAT
AGgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGT
CTGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcA
TaGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCC
TCTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCT
GGtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGAT
TACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcT
TTTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGA
AcCAGcGtGGtGAaCTGTGTGTGcGgGGcCCTATGATTATGTCgGGGTAcG
TtAAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtC
ATagcGGcGAcATTGCcTAcTGGGAcGAGGATGAGCATTTcTTcATcGTGG
AcAGACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCc
GAGCTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGG
CTGGGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGT
GCTtGAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGT
GGCTTCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTG
TGGATGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAAaAT
TcGAGAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTA
ATAgTTCTAGA(SEQ ID NO:31).
hluc+ver2BF8经过修饰得到hluc+ver2BF9。
hluc+ver2B9具有下列序列:
AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCc
TTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGA
AGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTG
AaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCa
GAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGT
GcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcAT
tGGGGTGGCTGTGGCTCCTGCTAAtGAcATcTAcAAcGAGcGAGAGCTgtT
GAAcagtATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaG
GGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAAG
ATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTAc
ACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAtGAGTAtGAcTTcGTG
CCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcagtG
GGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTG
TGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCT
GAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTT
cACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATA
GgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTC
TGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcAT
aGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCT
CTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTG
GtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATT
ACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcTT
TTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAA
cCAGaGaGGtGAatTGTGTGTGaGgGGcCCTATGATTATGTCgGGGTAcGTt
AAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCAT
agtGGaGAtATTGCcTAcTGGGAtGAaGATGAGCATTTcTTcATcGTGGAcA
GACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCcGAG
CTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTG
GGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTt
GAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCT
TCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTGTGGA
TGAGGTGCCTAAaGGGCTcACtGGcAAGCTGGATGCcAGAAAaATTcGA
GAGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgT
TCTAGA(SEQ ID NO:32).
hluc+ver2BF9中的BglI序列被除去,得到hluc+ver2BF10。hluc+ver2BF10表现出表达很差。
hluc+ver2B10具有下列序列:
AAAGCCACCATGGAaGATGCcAAaAAcATTAAGAAGGGGCCTGCTCCc
TTcTAcCCTCTtGAaGATGGGACtGCtGGcGAGCAaCTtCAcAAaGCTATGA
AGcGgTATGCTCTtGTGCCaGGgACAATTGCgTTcACgGATGCTCAcATTG
AaGTaGAcATcACATAcGCTGAGTATTTTGAGATGTCgGTGcGgCTGGCa
GAaGCTATGAAGcGcTATGGGCTGAATACAAAcCATAGAATTGTaGTGT
GcagTGAGAAcTCgtTGCAGTTcTTTATGCCcGTGCTGGGGGCTCTcTTcAT
tGGGGTGGCTGTGGCTCCTGCTAAtGAcATcTAcAAcGAGcGAGAGCTgtT
GAAcagtATGGGGATcTCTCAGCCTACAGTGGTGTTTGTGagTAAGAAaG
GGCTtCAaAAGATTCTcAATGTGCAaAAGAAGCTaCCgATcATaCAaAAG
ATcATcATcATGGAtagcAAGACcGAcTAcCAGGGGTTTCAGTCcATGTAc
ACATTTGTaACcTCTCATCTGCCTCCTGGcTTcAAtGAGTAtGAcTTcGTG
CCcGAGTCTTTcGAcAGgGAcAAaACgATTGCTCTGATcATGAAcagcagtG
GGTCTACcGGGCTGCCTAAGGGtGTaGCTCTGCCcCATcGAACAGCTTG
TGTGAGATTcTCTCATGCcAGgGAcCCgATcTTtGGaAAcCAGATcATcCCT
GAcACtGCTATTCTGTCgGTgGTGCCcTTTCATCATGGGTTTGGGATGTT
cACAACACTGGGaTAccTcATtTGcGGGTTTAGAGTGGTGCTcATGTATA
GgTTTGAaGAaGAaCTaTTccTacGcTCTtTGCAaGATTATAAGATTCAGTC
TGCTCTGCTGGTGCCaACACTaTTcTCTTTTTTTGCTAAGTCTACgCTcAT
aGAcAAGTATGActTGTCcAActTGCAcGAGATTGCTTCTGGcGGaGCaCCT
CTGTCTAAGGAGGTaGGtGAGGCTGTGGCTAAGcGcTTTCATCTGCCTG
GtATcAGACAGGGGTAcGGGCTaACAGAaACAACtTCTGCTATTCTGATT
ACACCaGAGGGcGATGAcAAaCCtGGGGCTGTaGGGAAaGTGGTGCCcTT
TTTTGAaGCcAAaGTaGTtGATCTtGATACcGGtAAGACACTaGGGGTGAA
cCAGaGaGGtGAatTGTGTGTGaGgGGcCCTATGATTATGTCgGGGTAcGTt
AAcAAcCCcGAaGCTACAAATGCTCTcATaGAcAAGGAcGGgTGGcTtCAT
agtGGaGAtATTGCcTAcTGGGAtGAaGATGAGCATTTcTTcATcGTGGAcA
GACTGAAGTCgtTGATcAAaTAcAAGGGGTATCAaGTaGCTCCTGCcGAG
CTtGAgTCcATTCTGCTtCAaCAcCCcAAtATcTTcGATGCTGGGGTGGCTG
GGCTGCCTGATGATGATGCTGGaGAGcTGCCTGCTGCTGTaGTaGTGCTt
GAGCAtGGtAAGACAATGACAGAGAAGGAGATcGTGGATTATGTGGCT
TCaCAaGTGACAACAGCTAAGAAaCTccGAGGtGGcGTtGTGTTTGTGGA
TGAGGTGCCTAAaGGaCTcACtGGcAAGCTGGATGCcAGAAAaATTcGAG
AGATTCTcATTAAGGCTAAGAAGGGtGGaAAGATTGCTGTGTAATAgTT
CTAGA(SEQ ID NO:33).
                              表11
                    萤火虫萤光素酶构建体概述
  萤火虫萤光素酶基因   共有序列转录因子结合位点的数目   启动子组件的数目*  CG二核苷酸(可能的甲基化位点)
  Luc+   287   7  97
  hluc+ver2AF8   3   0  132
  hluc+ver2BF10   3   0  43
*启动子组件定义为复合调节元件,具有被间隔区隔开的2个TFBS,已经表现出有协同或拮抗功能。
                            实施例4
                        合成选择性多肽基因
设计方法
定义序列
应该保留的蛋白质序列:
-Neo:来自pCI-neo(Promega)(SEQ ID NO:1)的neo基因
-Hyg:来自pcDNA3.1/Hygro(Invitrogen)(SEQ ID NO:6)DNA起始序列的DNA侧翼区:
-5′端:Kozak序列,来自pCI-neo(( GCCACCATGA;SEQ IDNO:34))的neo基因,PflMI位点(CCANNNNNTGG;SEQ ID NO:35),在末端添加Ns(以避免检索算法错误和保持ORF1):
neo/hyg:NNNNNCCAnnnnnTG GCCACC-ATG-G(SEQ ID NO:36)
变化:用SbfI取代PflMI(CCTGCAGG)
-3′端:两个终止密码子(至少一个TAA),PflMI位点(与5′端的不相容以允许直接克隆),在末端添加Ns(以避免检索算法错误):
neo/hyg:TAATAACCAnnnnnTGGNNN(SEQ ID NO:37)
变化:用AflII取代PflMI(CTTAAG)
定义密码子使用
密码子使用得自密码子使用数据库
( http://www.kazusa.or.jp/codon/):
根据:GenBank Release 131.0[2002年8月15日](Nakamura等,2000)。
下载密码子使用表:
HS:智人(Homo sapiens)[gbpri]50,031 CDS′s(21,930,294个密码子)
MM:小家鼠(Mus musculus)[gbrod]23,113 CDS′s(10,345,401个密码子)
EC:大肠杆菌(Escherichia coli[gbbct]11,985 CDS′s(3,688,954个密码子)
EC K12:大肠杆菌K12[gbbct]4,291 CDS′s(1,363,716个密码子)
=>比较HS和MM,发现非常相似,使用HS表
=>比较EC和EC K12,发现非常相似,使用EC K12表
密码子选择策略:
总体策略是使密码子使用适于在哺乳动物细胞中优化表达,同时又避免低使用大肠杆菌密码子。对于每个氨基酸,选出一个“最佳”密码子,用于在反向翻译(back-translate)所需蛋白质序列,得到起始基因序列。
选择策略A用于设计neo和hyg基因(参见表12)。(策略A:密码子偏倚优化:重点是在HS中显示最高使用频率的密码子。最佳密码子是在HS中具有最大使用的密码子,除非略低使用的密码子在大肠杆菌中具有更高使用)。
                        表12
  氨基酸   实施例1-2的密码子选择  密码子偏倚优化策略A中的密码子选择
  Gly   GGC/GGT  GGC
  Glu   GAG  GAG
  Asp   GAC  GAC
  Val   GTG/GTC  GTG
  Ala   GCC/GCT  GCC
  Arg   CGC/CGT  CGC
  Ser   TCT/AGC  AGC
  Lys   AAG  AAG
  Asn   AAC  AAC
  Ile   ATC/ATT  ATC
  Thr   ACC/ACT  ACC
  Cys   TGC  TGC
  Tyr   TAC  TAC
  Leu   CTG/TTG  CTG
  Phe   TTC  TTC
  Gln   CAG  CAG
  His   CAC  CAC
  Pro   CCA/CCT  CCC
产生起始基因序列
在载体NTI 8.0(Informax)中使用定制密码子使用表(“策略A”)
反向翻译neo和hyg蛋白质序列
Neo(根据来自Promega公司的pCI-neo中的新霉素基因)
MIEQDGLHAGSPAAWVERLFGYDWAQQTIGCSDAAVFRLSAQGRPVLF
VKTDLSGALNELQDEAARLSWLATTGVPCAAVLDVVTEAGRDWLLLGE
VPGQDLLSSHLAPAEKVSIMADAMRRLHTLDPATCPFDHQAKHRIERAR
TRMEAGLVDQDDLDEEHQGLAPAELFARLKARMPDGEDLVVTHGDAC
LPNIMVENGRFSGFIDCGRLGVADRYQDIALATRDIAEELGGEWADRFLV
LYGIAAPDSQRIAFYRLLDEFF(SEQ ID NO:2)
和由以下序列编码:
Atgattgaacaagatggattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcac
aacagacaatcggctgctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagacc
gacctgtccggtgccctgaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttcct
tgcgcagctgtgctcgacgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggat
ctcctgtcatctcaccttgctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatc
cggctacctgcccattcgaccaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgt
cgatcaggatgatctggacgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcat
gcccgacggcgaggatctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgctttt
ctggattcatcgactgtggccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctg
aagagcttggcggcgaatgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgcc
ttctatcgccttcttgacgagttcttctga(SEQ ID NO:1)
Hyg(根据来自Invitrogen的pcDNA3.1/Hygro的潮霉素基因)
MKKPELTATSVEKFLIEKFDSVSDLMQLSEGEESRAFSFDVGGRGYVLRV
NSCADGFYKDRYVYRHFASAALPIPEVLDIGEFSESLTYCISRRAQGVTLQ
DLPETELPAVLQPVAEAMDAIAAADLSQTSGFGPFGPQGIGQYTTWRDFI
CAIADPHVYHWQTVMDDTVSASVAQALDELMLWAEDCPEVRHLVHAD
FGSNNVLTDNGRITAVIDWSEAMFGDSQYEVANIFFWRPWLACMEQQT
RYFERRHPELAGSPRLRAYMLRIGLDQLYQSLVDGNFDDAAWAQGRCD
AIVRSGAGTVGRTQIARSAAVWTDGCVEVLADSGNRRPSTRPRAKE
(SEQ ID NO:7)
由以下序列编码
Atgaaaaagcctgaactcaccgcgacgtctgtcgagaagtttctgatcgaaaagttcgacagcgtctccgacctgat
gcagctctcggagggcgaagaatctcgtgctttcagcttcgatgtaggagggcgtggatatgtcctgcgggtaaata
gctgcgccgatggtttctacaaagatcgttatgtttatcggcactttgcatcggccgcgctcccgattccggaagtgctt
gacattggggaattcagcgagagcctgacctattgcatctcccgccgtgcacagggtgtcacgttgcaagacctgcc
tgaaaccgaactgcccgctgttctgcagccggtcgcggaggccatggatgcgatcgctgcggccgatcttagccag
acgagcgggttcggcccattcggaccgcaaggaatcggtcaatacactacatggcgtgatttcatatgcgcgattgc
tgatccccatgtgtatcactggcaaactgtgatggacgacaccgtcagtgcgtccgtcgcgcaggctctcgatgagc
tgatgctttgggccgaggactgccccgaagtccggcacctcgtgcacgcggatttcggctccaacaatgtcctgacg
gacaatggccgcataacagcggtcattgactggagcgaggcgatgttcggggattcccaatacgaggtcgccaac
atcttcttctggaggccgtggttggcttgtatggagcagcagacgcgctacttcgagcggaggcatccggagcttgc
aggatcgccgcggctccgggcgtatatgctccgcattggtcttgaccaactctatcagagcttggttgacggcaatttc
gatgatgcagcttgggcgcagggtcgatgcgacgcaatcgtccgatccggagccgggactgtcgggcgtacacaa
atcgcccgcagaagcgcggccgtctggaccgatggctgtgtagaagtactcgccgatagtggaaaccgacgcccc
agcactcgtccgagggcaaaggaat(SEQ ID NO:6).
                       表13
           示例性的neo和hyg基因形式的命名
  基因名称  描述
  neo  来自pCI-neo(Promega)
  hneo  人源化(密码子使用策略A)ORF
  hneo-F  具有5′和3′侧翼区的人源化ORF
  hneo-1F  第1次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hneo-2F  第2次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hneo-3F  第3次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hneo-3FB  改变的5′和3′侧翼克隆位点
  hyg  来自pcDNA3.1/Hygro(Invitrogen)
  bhyg  人源化(密码子使用策略A)ORF
  hhyg-F  具有5′和3′侧翼区的人源化ORF
  hhyg-1F  第1次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hhyg-2F  第2次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hhyg-3F  第3次除去不需要的序列匹配后,具有5′和3′侧翼区的人源化ORF
  hhyg-3FB  改变的5′和3′侧翼克隆位点
“h”表示人源化密码子,“F”表示存在5′和3侧翼序列。
产生起始(密码子优化的)基因序列:
hneo(在hneo-F中没有侧翼区的人源化起始基因序列)
CCACTCAGTGGCCACCATGATCGAGCAGGACGGCCTGCACGCCGGCA
GCCCCGCCGCCTGGGTGGAGCGCCTGTTCGGCTACGACTGGGCCCAG
CAGACCATCGGCTGCAGCGACGCCGCCGTGTTCCGCCTGAGCGCCCA
GGGCCGCCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGA
ACGAGCTGCAGGACGAGGCCGCCCGCCTGAGCTGGCTGGCCACCACC
GGCGTGCCCTGCGCCGCCGTGCTGGACGTGGTGACCGAGGCCGGCCG
CGACTGGCTGCTGCTGGGCGAGGTGCCCGGCCAGGACCTGCTGAGCA
GCCACCTGGCCCCCGCCGAGAAGGTGAGCATCATGGCCGACGCCATG
CGCCGCCTGCACACCCTGGACCCCGCCACCTGCCCCTTCGACCACCA
GGCCAAGCACCGCATCGAGCGCGCCCGCACCCGCATGGAGGCCGGC
CTGGTGGACCAGGACGACCTGGACGAGGAGCACCAGGGCCTGGCCC
CCGCCGAGCTGTTCGCCCGCCTGAAGGCCCGCATGCCCGACGGCGAG
GACCTGGTGGTGACCCACGGCGACGCCTGCCTGCCCAACATCATGGT
GGAGAACGGCCGCTTCAGCGGCTTCATCGACTGCGGCCGCCTGGGCG
TGGCCGACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCC
GAGGAGCTGGGCGGCGAGTGGGCCGACCGCTTCCTGGTGCTGTACGG
CATCGCCGCCCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTGG
ACGAGTTCTTCTAATAACCAGTCTCTGG(SEQ ID NO:3).
hhyg(没有侧翼区的人源化起始基因序列)
CCACTCAGTGGCCACCATGAAGAAGCCCGAGCTGACCGCCACCAGCG
TGGAGAAGTTCCTGATCGAGAAGTTCGACAGCGTGAGCGACCTGATG
CAGCTGAGCGAGGGCGAGGAGAGCCGCGCCTTCAGCTTCGACGTGG
GCGGCCGCGGCTACGTGCTGCGGGTGAACAGCTGCGCCGACGGCTTC
TACAAGGACCGCTACGTGTACCGCCACTTCGCCAGCGCCGCCCTGCC
CATCCCCGAGGTGCTGGACATCGGCGAGTTCAGCGAGAGCCTGACCT
ACTGCATCAGCCGCCGCGCCCAGGGCGTGACCCTGCAGGACCTGCCC
GAGACCGAGCTGCCCGCCGTGCTGCAGCCCGTGGCCGAGGCCATGGA
CGCCATCGCCGCCGCCGACCTGAGCCAGACCAGCGGCTTCGGCCCCT
TCGGCCCCCAGGGCATCGGCCAGTACACCACCTGGCGCGACTTCATC
TGCGCCATCGCCGACCCCCACGTGTACCACTGGCAGACCGTGATGGA
CGACACCGTGAGCGCCAGCGTGGCCCAGGCCCTGGACGAGCTGATGC
TGTGGGCCGAGGACTGCCCCGAGGTGCGCCACCTGGTGCACGCCGAC
TTCGGCAGCAACAACGTGCTGACCGACACGGCCGCATCACCGCCGT
GATCGACTGGAGCGAGGCCATGTTCGGCGACAGCCAGTACGAGGTGG
CCAACATCTTCTTCTGGCGCCCCTGGCTGGCCTGCATGGAGCAGCAG
ACCCGCTACTTCGAGCGCCGCCACCCCGAGCTGGCCGGCAGCCCCCG
CCTGCGCGCCTACATGCTGCGCATCGGCCTGGACCAGCTGTACCAGA
GCCTGGTGGACGGCAACTTCGACGACGCCGCCTGGGCCCAGGGCCGC
TGCGACGCCATCGTGCGCAGCGGCGCCGGCACCGTGGGCCGCACCCA
GATCGCCCGCCGCAGCGCCGCCGTGTGGACCGACGGCTGCGTGGAGG
TGCTGGCCGACAGCGGCAACCGCCGCCCCAGCACCCGCCCCCGCGCC
AAGGAGTAATAACCAGCTCTTGG(SEQ ID NO:8).
用于鉴定和除去序列基序的程序和数据库
全都来自Genomatix Software GmbH(德国,慕尼黑,http://www.genomatix.de):
GEMS Launcher Release 3.5.2(2003年6月)
MatInspector professional Release 6.2.1(2003年6月)
矩阵家族文库(Matrix Family Library,Ver 3.1.2(2003年6月))(包括128个家族的318个脊椎动物矩阵)
ModelInspector professional Release 4.8(2002年10月)
Model Library Ver 3.1(2003年3月)(226个模块)
Sequencehaper tool
用户定义矩阵(User Defined Matriees)
从起始基因序列中除去的序列基序
(按照优先权顺序)
限制酶识别序列:
参见用户定义矩阵子集neo和hyg。与hluc+version 2.0的设计中所用的相同
通常包括克隆(pGL4)所需的那些或通常用于克隆
变化:也是SbfI、AflI、AccIII
转录因子结合序列:
具有缺省分值或更高的启动子组件(2个带有指定方向的TF结合位点)
至少分值=0.75的脊椎动物TF结合序列/
矩阵=优化
真核转录调节位点:
Kozak序列
剪接供体/受体序列,(+)链
聚腺苷酸化添加序列,(+)链
原核转录调节序列:
大肠杆菌启动子
大肠杆菌RBS(如果Met密码子上游小于20bp)
用户定义的矩阵子集“neo+hyg”
格式:矩阵名称(核心相似性阈值/矩阵相似性阈值)
·U$AatII(0.75/1.00)
·U$BamHI(0.75/1.00)
·U$BglI(0.75/1.00)
·U$BglII(0.75/1.00)
·U$BsaI(0.75/1.00)
·U$BsmAI(0.75/1.00)
·U$BsmBI(0.75/1.00)
·U$BstEII(0.75/1.00)
·U$BstXI(0.75/1.00)
·U$Csp45I(0.75/1.00)
·U$CspI(0.75/1.00)
·U$EC-P-10(1.00/优化)
·U$EC-P-35(1.00/优化)
·U$EC-Prom(1.00/优化)
·U$EC-RBS(0.75/1.00)
·U$EcoRI(0.75/1.00)
·U$HindIII(0.75/1.00)
·U$Kozak(0.75/优化)
·U$KpnI(0.75/1.00)
·U$MluI(0.75/1.00)
·U$NcoI(0.75/1.00)
·U$NdeI(0.75/1.00)
·U$NheI(0.75/1.00)
·U$NotI(0.75/1.00)
·U$NsiI(0.75/1.00)
·U$PflMI(0.75/1.00)
·U$PmeI(0.75/1.00)
·U$PolyAsig(0.75/1.00)
·U$PstI(0.75/1.00)
·U$SacI(0.75/1.00)
·U$SacII(0.75/1.00)
·U$SalI(0.75/1.00)
·U$SfiI(0.75/1.00)
·U$SgfI(0.75/1.00)
·U$SmaI(0.75/1.00)
·U$SnaBI(0.75/1.00)
·U$SpeI(0.75/1.00)
·U$Splice-A(0.75/优化)
·U$Splice-D(0.75/优化)
·U$XbaI(0.75/1.00)
·U$XcmI(0.75/1.00)
·U$XhoI(0.75/1.00)
·所有脊椎动物文库(0.75/优化)
用户定义的矩阵子集“neo+hyg-EC”
格式:矩阵名称(核心相似性阈值/矩阵相似性阈值)
·U$AatII(0.75/1.00)
·U$BamHI(0.75/1.00)
·U$BglI(0.75/1.00)
·U$BgIII(0.75/1.00)
·U$BsaI(0.75/1.00)
·U$BsmAI(0.75/1.00)
·U$BsmBI(0.75/1.00)
·U$BstEII(0.75/1.00)
·U$BstXI(0.75/1.00)
·U$Csp45I(0.75/1.00)
·U$CspI(0.75/100)
·U$EcoRI(0.75/1.00)
·U$HindIII(0.75/1.00)
·U$Kozak(0.75/优化)
·U$KpnI(0.75/1.00)
·U$MluI(0.75/1.00)
·U$NcoI(0.75/1.00)
·U$NdeI(0.75/1.00)
·U$NheI(0.75/1.00)
·U$NotI(0.75/1.00)
·U$NsiI(0.75/1.00)
·U$PflMI(0.75/1.00)
·U$PmeI(0.75/1.00)
·U$PolyAsig(0.75/1.00)
·U$PstI(0.75/1.00)
·U$SacI(0.75/1.00)
·U$SacII(0.75/1.00)
·U$SalI(0.75/1.00)
·U$SfiI(0.75/1.00)
·U$SgfI(0.75/1.00)
·U$SmaI(0.75/1.00)
·U$SnabI(0.75/1.00)
·U$SpeI(0.75/1.00)
·U$Splice-A(0.75/优化)
·U$Splice-D(0.75/优化)
·U$XbaI(0.75/1.00)
·U$XcmI(0.75/1.00)
·U$XhoI(0.75/1.00)
·所有脊椎动物文库(0.75/优化)
用户定义的矩阵子集“pGL4-072503”
格式:矩阵名称(核心相似性阈值/矩阵相似性阈值)
·U$AatII(0.75/1.00)
·U$AccIII(0.75/1.00)
·U$AflII(0.75/1.00)
·U$BamHI(0.75/1.00)
·U$BglI(0.75/1.00)
·U$BglII(0.75/1.00)
·U$BsaI(0.75/1.00)
·U$BsmAI(0.75/1.00)
·U$BsmBI(0.75/1.00)
·U$BstEII(0.75/1.00)
·U$BstXI(0.75/1.00)
·U$Csp45I(0.75/1.00)
·U$CspI(0.75/1.00)
·U$EC-P-10(1.00/优化)
·U$EC-P-35(1.00/优化)
·U$EC-Prom(1.00/优化)
·U$EC-RBS(0.75/1.00)
·U$EcoRI(0.75/1.00)
·U$HindIII(0.75/1.00)
·U$Kozak(0.75/优化)
·U$KpnI(0.75/1.00)
·U$MluI(0.75/1.00)
·U$NcoI(0.75/1.00)
·U$NdeI(0.75/1.00)
·U$NheI(0.75/1.00)
·U$NotI(0.75/1.00)
·U$NsiI(0.75/1.00)
·U$PflMI(0.75/1.00)
·U$PmeI(0.75/1.00)
·U$PolyAsig(0.75/1.00)
·U$PstI(0.75/1.00)
·U$SacI(0.75/1.00)
·U$SacII(0.75/1.00)
·U$SalI(0.75/1.00)
·U$SbfI(0.75/1.00)
·U$SfiI(0.75/1.00)
·U$SgfI(0.75/1.00)
·U$SmaI(0.75/1.00)
·U$SnaBI(0.75/1.00)
·U$SpeI(0.75/1.00)
·U$Splice-A(0.75/优化)
·U$Splice-D(0.75/优化)
·U$XbaI(0.75/1.00)
·U$XcmI(0.75/1.00)
·U$XhoI(0.75/1.00)
·所有脊椎动物文库(ALL vertebrates.lib)
除去序列基序的策略
通过选择允许保留特定蛋白质和侧翼序列的可变密码子,从起始基因序列中除去以上指定的不需要的序列基序。选择可变密码子的方式是尽可能地符合总体密码子选择策略。
通用步骤:
-采用MatInspector,矩阵家族子集“neo+hyg”或“neo+hyg-EC”以及ModelInspector,缺省设置,鉴定不需要的序列匹配。
-采用SequenceShaper(保持ORF)鉴定可能的取代密码子,以除去不需要的序列匹配。
-将变化掺入到合成基因序列的新形式中,再用MatInspector和ModelInspector重新分析。
具体步骤:
-首先设法除去不需要的序列匹配,用子集“neo+hyg-EC”和SequenceShaper缺省保留阈值(0.70/Opt-0.20)。
-对于用该方法无法除去的序列匹配,使用较低SequenceShaper保留阈值(例如0.70/Opt-0.05)。
-对于仍无法除去的序列匹配,试用不同组合的手工选择取代密码子(尤其是当需要超过3个碱基变化时)。如果这引入新序列匹配,用上述步骤设法将其除去(不同的起始序列有时允许不同的除去方法)。
-使用子集“neo+hyg”来检查有疑问的大肠杆菌序列匹配是否引入,如果这样的话,用上述用于非大肠杆菌序列的类似方法设法将其除去。
对于侧翼(非ORF)序列使用类似策略。
在侧翼克隆位点变化后,最终用子集“pGL4-072503”来检查。
密码子优化neo和hyg后,得到hneo和hhyg。从hneo和hhyg中除去调节序列,得到hneo-1F和hhyg-1F(没有侧翼区的相应序列分别是SEQ ID NO:38和30)。从hueo-1F和hhyg-1F中除去调节序列,得到hneo-2F和hhyg-2F(没有侧翼区的相应序列分别是SEQ IDNO:39和42)。从hueo-2F和hhyg-2F中除去调节序列,得到hneo-3F和hhyg-3F。通过改变5′和3′克隆位点,进一步修饰hneo-3F和hhyg-3F,得到hneo-3FB和hhyg-3FB:
hneo-3(在第3轮除去序列后,子集neo+hyg)具有下列序列:
CCACTCcGTGGCCACCATGATCGAaCAaGACGGCCTcCAtGCtGGCAGtC
CCGCaGCtTGGGTcGAaCGCtTGTTCGGgTACGACTGGGCCCAGCAGAC
CATCGGaTGtAGCGAtGCgGCCGTGTTCCGtCTaAGCGCtCAaGGCCGgCC
CGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTtCA
aGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCCCTGC
GCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGgGACTGGCTGCTGCT
GGGCGAGGTcCCtGGCCAGGAtCTGCTGAGCAGCCACCTtGCCCCCGCt
GAGAAGGTttcCATCATGGCCGAtGCaATGCGgCGCCTGCACACCCTGG
ACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCAtCGgATCGAGCGt
GCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGA
CGAGGAGCAtCAGGGCCTGGCCCCCGCtGAaCTGTTCGCCCGCCTGAAa
GCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCAtGGtGAtGCCTG
CCTcCCtAACATCATGGTcGAGAAtGGcCGCTTCtcCGGCTTCATCGACTG
CGGtCGCCTaGGaGTtGCCGACCGCTACCAGGACATCGCCCTGGCCACC
CGCGACATCGCtGAGGAGCTtGGCGGCGAGTGGGCCGACCGCTTCtTaG
TctTGTACGGCATCGCaGCtCCCGACAGCCAGCGCATCGCCTTCTACCG
CCTGCTcGACGAGTTCTTtTAATGACCAGgCTCTGG(SEQ ID NO:4)
hneo-3FB(在5′端将PflMI位点变成SbfI,在3′端变成AflII)具有下列序列:
cctgcaggCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCG
CAGCTTGGGTCGAACGCTGTTCGGGTACGACTGGGCCCAGCAGACC
ATCGGATGTAGCGATGCGGCCGTGTCCGTCTAAGCGCTCAAGGCCG
GCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGC
TTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGTGTA
CCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTG
GCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACC
TTGCCCCCGCTGAGAAGGTTTCCATCATGGCCGATGCAATGCGGCGC
CTGCACACCCTGGACCCCGCTACATGCCCCTTCGACCACCAGGCTAA
GCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGG
ACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGA
ACTGTTCGCCCGCCTGAAAGCCCGCATGCCGGACGGTGAGGACCTGG
TTGTGACACATGGTGATGCCTGCCTCCCTAACATCATGGTCGAGAAT
GGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCGAC
CGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCT
TGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAG
CTCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTCGACGAGTTCT
TTTAATGAgcttaag(SEQ ID NO:5);
hhyg-3(在第3轮除去序列后,子集neo+hyg)具有下列序列:
CCACTCcGTGGCCACCATGAAGAAGCCCGAGCTGACCGCtACCAGCGT
tGAaAAaTTtCTcATCGAGAAGTTCGACAGtGTGAGCGACCTGATGCAGt
TgtcgGAGGGCGAaGAgAGCCGaGCCTCAGCTTCGAtGTcGGCGGaCGC
GGCTAtGTaCTGCGgGTGAAtAGCTGCGCtGAtGGCTTCTACAAaGACCG
CTACGTGTACCGCCACTTCGCCAGCGCtGCaCTaCCCATCCCCGAaGTGt
TGGACATCGGCGAGTTCAGCGAGAGCCTGACaTACTGCATCAGtaGaCG
CGCCCAaGGCGTtACtCTcCAaGACCTcCCCGAaACaGAGCTGCCtGCtGT
GtTaCAGCCtGTcGCCGAaGCtATGGAtGCtATtGCCGCCGCCGACCTcAGt
CAaACCAGCGGCTTCGGCCCaTTCGGgCCCCAaGGCATCGGCCAGTAC
ACaACCTGGCGgGAtTTCATtTGCGCCATtGCtGAtCCCCAtGTcTACCACT
GGCAGACCGTGATGGACGACACCGTGtcCGCCAGCGTaGCtCAaGCCCT
GGACGAaCTGATGCTGTGGGCCGAaGACTGtCCCGAGGTGCGCCAcCTc
GTcCAtGCCGACTTCGGCAGCAACAACGTcCTGACCGACAACGGCCGC
ATCACCGCCGTaATCGACTGGtcCGAaGCtATGTTCGGgGACAGtCAGTA
CGAGGTGGCCAACATCTTCTTCTGGCGgCCCTGGCTGGCtTGCATGGA
GCAGCAGACtCGCTACTTCGAGCGCCGgCAtCCCGAGCTGGCCGGCAG
CCCtCGtCTGCGaGCCTACATGCTGCGCATCGGCCTGGAtCAGCTcTACC
AGAGCCTcGTGGACGGCAACTTCGACGAtGCtGCCTGGGCtCAaGGCCG
CTGCGAtGCCATCGTcCGCAGCGGgGCCGGCACCGTcGGtCGCACaCAaA
TCGCtCGCCGgAGCGCCGCCGTaTGGACCGACGGCTGCGTcGAGGTGCT
GGCCGACAGCGGCAACCGCGgCCCAGtACaCGaCCgCGCGCtAAGGAG
TAgTAACCAGgctcTGG(SEQ ID NO:9);
hhyg-3FB(在5′端将PflMI位点变成SbfI,在3′端变成AflII)具有下列序列:
cctgcaggCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCGTTGAAA
AATTTCTCATCGAGAAGTTCGACAGTGTGAGCGACCTGATGCAGTTG
TCGGAGGGCGAAGAGAGCCGAGCCTTCAGCTTCGATGTCGGCGGACG
CGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTTCTACAAAG
ACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTACCCATCCCC
GAAGTGTTGGACATCGGCGAGTTCAGCGAGAGCCTGACATACTGCAT
CAGTAGACGCGCCCAAGGCGTTACTCTCCAAGACCTCCCCGAAACAG
AGCTGCCTGCTGTGTTACAGCCTGTCGCCGAAGCTATGGATGCTATTG
CCGCCGCCGACCTCAGTCAAACCAGCGGCTTCGGCCCATTCGGGCCC
CAAGGCATCGGCCAGTACACAACCTGGCGGGATTTCATTTGCGCCAT
TGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGACGACACCG
TGTCCGCCAGCGTAGCTCAAGCCCTGGACGAACTGATGCTGTGGGCC
GAAGACTGTCCCGAGGTGCGCCACCTCGTCCATGCCGACTTCGGCAG
CAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTAATCGACT
GGTCCGAAGCTATGTTCGGGGACAGTCAGTACGAGGTGGCCAACATC
TTCTTCTGGCGGCCCTGGCTGGCTTGCATGGAGCAGCAGACTCGCTAC
TTCGAGCGCCGGCATCCCGAGCTGGCCGGCAGCCCTCGTCTGCGAGC
CTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAGCCTCGTGG
ACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCTGCGATGCC
ATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAAATCGCTCG
CCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGTGCTGGCCG
ACAGCGGGCAACCGCCGGCCCAGTACACGACCGCGCGCTAAGGAGTA
GTAActtaag(SEQ ID NO:10).
对hneo-3FB和hhyg-3FB的分析
hneo-3FB没有转录因子结合序列,包括启动子组件,匹配(GEMSrelease 3.5.2(2003年6月);脊椎动物TF结合序列家族(核心相似性:0.75/矩阵相似性:opt);启动子组件(缺省参数:优化阈值或80%最大分值)),同时hhyg-3FB具有4个转录因子结合序列匹配,但不保留启动子组件(表10)。在hhyg-3FB中发现了以下转录因子结合序列:
1)V$MINI
家族:肌肉起始因子(Muscle Iuitiator)(2个成员)
最佳匹配:肌肉起始序列1(Muscle Initiator sequence 1)
参考文献:Laura L.Lopez & James W.Fickett“Muscle-SpecificRegulation of Transcription:A Catalog of Regulatory Elements”
http://www.cbil.upenn.edu/MTIR/HomePage.html
                ORF中的位置:-7至11
2)V$PAX5
家族:PAX-5/PAX-9B-细胞特异性激活蛋白(4个成员)
最佳匹配:B-细胞特异性激活蛋白
参考文献:MEDLINE  94010299
                ORF中的位置:271至299
3)V$AREB
家族:Atplal调节元件结合(4个成员)
最佳匹配:AREB6
参考文献:MEDLINE  96061934
            ORF中的位置:310至322
4)V$VMYB
家族:AMV-病毒myb癌基因(2个成员)
最佳匹配:v-Myb
参考文献:MEDLINE  94147510
            ORF中的位置:619至629
hneo-3F中保留的其它序列包括一个Met上游的大肠杆菌RBS 8碱基(ORF位置334-337);hneo-3FB包括剪接受体位点(+)和PstI位点(对于SbfI,作为5′克隆位点部分)和一个Met上游的大肠杆菌RBS 8碱基(ORF位置:334-337);hhyg-3F没有其它序列匹配;hhyg-3FB包括剪接受体位点(+)和PstI位点(对于SbfI,作为5′克隆位点部分)。
然后,从hneo-3F和hhyg-3F中除去调节序列,得到hneo-4和hhyg-4。再从hneo-4中除去调节序列,得到hneo-5。
                           表14
  基因名称   TF结合序列5′F/ORF/3′F   启动子组件5′F/ORF/3′F
  Neo   --/53/--   --/0/--
  hneo-F   1/61/2   0/2/0
  hneo-3F   0/0/0   0/0/0
  hneo-3FB   0/0/0   0/0/0
  Hyg   --/74/--   --/3/--
  hhyg-F   1/94/1   0/4/0
  hhyg-3F   1/3/0   0/0/0
  hhyg-3FB   1/3/0   0/0/0
*启动子组件定义为复合调节元件,具有被间隔区隔开的2个转录因子结合位点,已经表现出有协同或拮抗功能。
表15概述了不同基因的同一性。
                                表15
                         不同基因形式的配对同一性
比较可读框(ORF)
  neo   hneo   hneo-3   hneo-4   hneo-5   Final hNeo
  Neo   --   79   78   78   78   77
  hneo   --   90   90   90   89
  hneo-3   --   100   99   98
  hneo-4   --   99   98
  hneo-5   --   99
  Final hNeo   --
  hyg   hhyg   hhyg-3   hHygro   hhyg-4   Final hHyg
  Hyg   --   79   78   73   76   78
  hhyg   --   88   83   86   88
  hhyg-3   --   94   96   98
  hHygro   --   96   94
  hhyg-4   --   97
  Final hHyg   --
Figure A20058003928201171
具有合成新霉素基因并邻接SV40启动子和合成聚腺苷酸化位点的表达盒(hNeo-盒)如下所示。
GGATCCGTTTGCGTATTGGGCGCTCTTCCGCTGATCTGCGCAGCACCA
TGGCCTGAAATAACCTCTGAAAGAGGAACTTGGTTAGCTACCTTCTG
AGGCGGAAAGAACCAGCTGTGGAATGTGTGTCAGTTAGGGTGTGGAA
AGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTC
AATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGG
CAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCC
CGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCC
ATTCTCCGCCCCATGGCTGACTAATTTTTTTTATTTATGCAGAGGCCG
AGGCCGCCTCTGCCTCTGAGCTATTCCAGAAGTAGTGAGGAGGCTTT
TTTGGAGGCCTAGGCTTTTGCAAAAAGCTCGATTCTTCTGACACTAGC
GCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCCCGCAGC
TTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGACCATCG
GATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGCCGGCCC
GTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTTCA
AGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGCGTACCCT
GCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGACTGGCTG
CTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCACCTTGC
CCCCGCTGAGAAGGTTTCTATCATGGCCGATGCAATGCGGCGCCTGC
ACACCCTGGACCCCGCTACCTGCCCCTTCGACCACCAGGCTAAGCAT
CGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGTGGACCA
GGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCTGAACTGT
TCGCCCGACTGAAAGCCCGCATGCCGGACGGTGAGGACCTGGTTGTC
ACACACGGAGATGCCTGCCTCCCTAACATCATGGTCGAGAATGGCCG
CTTCTCCGGCTTCATCCACTGCGGTCGCCTAGGAGTTGCCGACCGCTA
CCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAGCTTGGCG
GCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGCAGCTCCC
GACAGCCAGCGCATCGCCTTCTACCGCTTGCTCGACGAGTTCTTTTAA
TGATCTAGAACCGGTCATGGCCGCAATAAAATATCTTTATTTTCATTA
CATCTGTGTGTTGGTTTTTTGTGTGTTCGAACTAGATGCTGTCGAC
(SEQ ID NO:44).
具有合成嘌呤霉素基因并邻接SV40启动子和合成聚腺苷酸化位点的表达盒(hPuro-盒)如下所示。
GGATCCGTTTGCGTATTGGGCGCTCTTCCGCTGATCTGCGCAGCACCA
TGGCCTGAAATAACCTCTGAAAGAGGAACTTGGTTAGCTACCTTCTG
AGGCGGAAAGAACCAGCTGTGGAATGTGTGTCAGTTAGGGTGTGGAA
AGTCCCCAGGCTCCCCAGCAGGCAGAAGTATGCAAAGCATGCATCTC
AATTAGTCAGCAACCAGGTGTGGAAAGTCCCCAGGCTCCCCAGCAGG
CAGAAGTATGCAAAGCATGCATCTCAATTAGTCAGCAACCATAGTCC
CGCCCCTAACTCCGCCCATCCCGCCCCTAACTCCGCCCAGTTCCGCCC
ATTCTCCGCCCCATGGCTGACTTAATTTTTTTTATTTATGCAGAGGCCG
AGGCCGCCTCTGCCTCTGAGCTATTGCAGAAGTAGTGAGGAGGCTTT
TTTGGAGGCCTAGGCTTTTGCAAAAAGCTCGATTCTTCTGACACTAGC
GCCACCATGACCGAGTACAAGCCTACCGTGCGCCTGGCCACTCGCGA
TGATGTGCCCCGCGCCGTCCGCACTCTGGCCGCCGCTTTCGCCGACTA
CCCCGCTACCCGGCACACCGTGGACCCCGACCGGCACATCGAGCGTG
TGACAGAGTTGCAGGAGCTGTTCCTGACCCGCGTCGGGCTGGACATC
GGCAAGGTGTGGGTAGCCGACGACGGCGCGGCCGTGGCCGTGTGGA
CTACCCCCGAGAGCGTTGAGGCCGGCGCCGTGTTCGCCGAGATCGGC
CCCCGAATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCCAGCAGCA
AATGGAGGGCCTGCTTGCCCCCCATCGTCCCAAGGAGCCTGCCTGGT
TTCTGGCCACTGTAGGAGTGAGCCCCGACCACCAGGGCAAGGGCTTG
GGCAGCGCCGTCGTGTTGCCCGGCGTAGAGGCCGCCGAACGCGCCGG
TGTGCCCGCCTTTCTCGAAACAAGCGCACCAAGAAACCTTCCATTCTA
CGAGCGCCTGGGCTTCACCGTGACCGCCGATGTCGAGGTGCCCGAGG
GACCTAGGACCTGGTGTATGACACGAAAACCTGGCGCCTAATGATCT
AGAACCGGTCATGGCCGCAATAAAATATCTTTATTTTCATTACATCTG
TGTGTTGGTTTTTTGTGTGTTCGAACTAGATGCTGTCGAC(SEQ IDNO:11);
hpuro:
GCTAGCGCCACCATGACCGAGTACAAGCCCACCGTGCGCCTGGCCAC
CCGCGACGACGTGCCCCGCGCCGTGCGCACCCTGGCCGCCGCCTTCG
CCGACTACCCCGCCACCCGCCACACCGTGGACCCCGACCGCCACATC
GAGCGCGTGACCGAGCTGCAGGAGCTGTTCCTGACCCGCGTGGGCCT
GGACATCGGCAAGGTGTGGGTGGCCGACGACGGCGCCGCCGTGGCC
GTGTGGACCACCCCCGAGAGCGTGGAGGCCGGCGCCGTGTTCGCCGA
GATCGGCCCCCGCATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCC
AGCAGCAGATGGAGGGCCTGCTGGCCCCCCACCGCCCCAAGGAGCCC
GCCTGGTTCCTGGCCACCGTGGGCGTGAGCCCCGACCACCAGGGCAA
GGGCCTGGGCAGCGCCGTGGTGCTGCCCGGCGTGGAGGCCGCCGAGC
GCGCCGGCGTGCCCGCCTTCCTGGAGACCAGCGCCCCCCGCAACCTG
CCCTTCTACGAGCGCCTGGGCTTCACCGTGACCGCCGACGTGGAGGT
GCCCGAGGGCCCCCGCACCTGGTGCATGACCCGCAAGCCCGGCGCCT
AATGATCTAGA(SEQ ID NO:91);
hpuro-1:
gctagcgccaccatgaccgagtacaagcctaccgtgcgcctggccactcgcgatgatgtgccccgcgccgtccgc
actctggccgccgctttcgccgactaccccgctacccggcacaccgtggaccccgaccggcacatcgagcgtgtg
acagagttgcaggagctgttcctgacccgcgtcgggctggacatcggcaaggtgtgggtagccgacgacggcgc
ggccgtggccgtgtggactacccccgagagcgttgaggccggcgccgtgttcgccgagatcggcccccgaatgg
ccgagctgagcggcagccgcctggccgcccagcagcaaatggagggcctgcttgccccccatcgtcccaaggag
cccgcctggtttctggccactgtaggagtgagccccgaccaccagggcaagggcttgggcagcgccgtcgtgttg
cccggcgtagaggccgccgaacgcgccggtgtgcccgcctttctggagacaagcgctccgcgtaaccttccattct
acgagcgcctgggcttcaccgtgaccgccgatgtcgaggtgcccgagggaccccggacctggtgcatgactcgc
aagcctggcgcctaatgatctaga(SEQ ID NO:92);和
bpuro-2
GCTAGCGCCACCATGACCGAGTACAAGCCTACCGTGCGCCTGGCCAC
TCGCGATGATGTGCCCCGCGCCGTCCGCACTCTGGCCGCCGCTTTCGC
CGACTACCCCGCTACCCGGCACACCGTGGACCCCGACCGGCACATCG
AGCGTGTGACAGAGTTGCAGGAGCTGTTCCTGACCCGCGTCGGGCTG
GACATCGGCAAGGTGTGGGTAGCCGACGACGGCGCGGCCGTGGCCG
TGTGGACTACCCCCGAGAGCGTTGAGGCCGGCGCCGTGTTCGCCGAG
ATCGGCCCCCGAATGGCCGAGCTGAGCGGCAGCCGCCTGGCCGCCCA
GCAGCAAATGGAGGGCCTGCTTGCCCCCCATCGTCCCAAGGAGCCTG
CCTGGTTTCTGGCCACTGTAGGAGTGAGCCCCGACCACCAGGGCAAG
GGCTTGGGCAGCGCCGTCGTGTTGCCCGGCGTAGAGGCCGCCGAACG
CGCCGGTGTGCCCGCCTTTCTCGAACAAGCGCACCAAGAAACCTTC
CATTCTACGAGCGCCTGGGCTTCACCGTGACCGCCGATGTCGAGGTG
CCCGAGGGACCTAGGACCTGGTGTATGACACGAAAACCTGGCGCCTA
ATGATCTAGA(SEQ ID NO:93)
起始puro序列(来自psi STRIKE)具有SEQ ID NO:15
(atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc ccgggccgta
cgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgacccggac
cgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgac
atcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggag
agcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcgtggccga gttgagcggt
tcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggag
cccgcgtggt tcctggccac cgtcggcgtg tcgcccgacc accagggcaa gggtctgggc
agcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctg
gagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgcc
gacgtcgagg tgcccgaagg accgcgcacc tggtgcatga cccgcaagcc cggtgcc).
其它合成hyg和neo基因包括
hneo-1:
CCACTCAGTGGCCACCATGATCGAGCAGGACGGCCTcCAtGCtGGCAGt
CCCGCaGCCTGGGTcGAGCGCtTGTTCGGgTACGACTGGGCCCAGCAG
ACCATCGGaTGtAGCGAtGCCGCaGTGTTCCGCCTGAGCGCtCAaGGCCG
gCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGGCGCCCTGAACGAGC
TtCAaGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCC
CTGCGCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGCGACTGGCTGC
TGCTGGGCGAGGTGCCtGGCCAGGACCTGCTGAGCAGCCACCTGGCC
CCCGCtGAGAAGGTGAGCATCATGGCCGACGCCATGCGgCGCCTGCAC
ACCCTGGACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCACCGC
ATCGAGCGgGCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGAC
GACCTGGACGAGGAGCACCAGGGCCTGGCCCCCGCtGAaCTGTTCGCC
CGCCTGAAaGCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCACG
GCGACGCCTGCCTcCCtAACATCATGGTcGAGAACGGgCGCTTCtcCGGC
TTCATCGACTGCGGCCGCCTGGGCGTtGCCGACCGCTACCAGGACATC
GCCCTGGCCACCCGCGACATCGCCGAGGAGCTGGGCGGCGAGTGGG
CCGACCGCTTCCTGGTctTGTACGGCATCGCaGCtCCCGACAGCCAGCG
CATCGCCTTCTACCGCCTGCTGGACGAGTTCTTCTAgTAACCAGgCTCT
GG(SEQ ID NO:38);
hneo-2
CCACTCcGTGGCCACCATGATCGAaCAaGACGGCCTcCAtGCtGGCAGtC
CCGCaGCtTGGGTcGAaCGCtTGTTCGGgTACGACTGGGCCCAGCAGAC
CATCGGaTGtAGCGAtGCgGCCGTGTTCCGtCTaAGCGCtCAaGGCCGgCC
CGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGAGCTtCA
aGACGAGGCtGCCCGCCTGAGCTGGCTGGCCACCACCGGtGTaCCCTGC
GCCGCtGTGtTGGAtGTtGTGACCGAaGCCGGCCGgGACTGGCTGCTGCT
GGGCGAGGTcCCtGGCCAGGAtCTGCTGAGCAGCCACCTtGCCCCCGCt
GAGAAGGTttcCATCATGGCCGAtGCaATGCGgCGCCTGCACACCCTGG
ACCCCGCtACaTGCCCCTTCGACCACCAGGCtAAGCAtCGgATCGAGCGt
GCtCGgACCCGCATGGAGGCCGGCCTGGTGGACCAGGACGACCTGGA
CGAGGAGCAtCAGGGCCTGGCCCCCGCtGAaCTGTTCGCCCGCCTGAAa
GCCCGCATGCCgGACGGtGAGGACCTGGTtGTGACaCAtGGaGAtGCCTG
CCTcCCtAACATCATGGTcGAGAAtGGcCGCTTCtcCGGCTTCATCGACTG
CGGtCGCCTaGGaGTtGCCGACCGCTACCAGGACATCGCCCTGGCCACC
CGCGACATCGCtGAGGAGCTtGGCGGCGAGTGGGCCGACCGCTTCtTaG
TctTGTACGGCATCGCaGCtCCCGACAGCCAGCGCATCGCCTTCTACCG
CCTGCTcGACGAGTTCTTtTAATGACCAGgCTCTGG(SEQ ID NO:39);
hhyg-1
CCACTCAGTGGCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCG
TTGAGAAGTTCCTGATCGAGAAGTTCGACAGCGTGAGCGACCTGATG
CAGTTAAGCGAGGGCGAGGAAAGCCGCGCCTTCAGCTTCGATGTCGG
CGGACGCGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTCT
ACAAAGACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTGCCC
ATCCCCGAGGTGCTGGACATCGGCGAGTTCAGCGAGAGCCTGACATA
CTGCATCAGCCGCCGCGCTCAAGGCGTGACTCTCCAAGACCTGCCCG
AGACAGAGCTGCCCGCTGTGCTACAGCCTGTCGCCGAGGCTATGGAC
GCTATTGCCGCCGCCGACCTGAGCCAGACCAGCGGCTTCGGCCCATT
CGGGCCCCAAGGCATCGGCCAGTACACCACCTGGCGCGACTTCATCT
GCGCCATTGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGAC
GACACCGTGAGCGCCAGCGTAGCTCAAGCCCTGGACGAGCTGATGCT
GTGGGCCGAGGACTGCCCCGAGGTGCGCCATCTCGTCCATGCCGACT
TCGGCAGCAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTA
ATCGACTGGAGCGAGGCCATGTTCGGGGACAGTCAGTACGAGGTGGC
CAACATCTTCTTCTGGCGGCCCTGGCTGGCCTGCATGGAGCAGCAAA
CCCGCTACTTCGAGCGCCGCCATCCCGAGCTGGCCGGCAGCCCCCGT
CTGCGAGCCTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAG
CCTCGTGGACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCT
GCGATGCCATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAA
ATCGCTCGCCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGT
GCTGGCCGACAGCGGCAACCGCCGGCCCAGTACACGACCGCGCGCTA
AGGAGTAGTAACCAGCTCTTGG(SEQ ID NO:30);
hhyg-2:
CCACTCCGTGGCCACCATGAAGAAGCCCGAGCTGACCGCTACCAGCG
TTGAAAAATTTCTCATCGAGAAGTTCGACAGTGTGAGCGACCTGATG
CAGTTGTCGGAGGGCGAAGAGAGCCGAGCCTTCAGCTTCGATGTCGG
CGGACGCGGCTATGTACTGCGGGTGAATAGCTGCGCTGATGGCTTCT
ACAAAGACCGCTACGTGTACCGCCACTTCGCCAGCGCTGCACTACCC
ATCCCCGAAGTGTTGGACATCGGCGAGTTCAGCGAGAGCCTGACATA
CTGCATCAGTAGACGCGCCCAAGGCGTTACTCTCCAAGACCTCCCCG
AAACAGAGCTGCCTGCTGTGTTACAGCCTGTCGCCGAAGCTATGGAT
GCTATTGCCGCCGCCGACCTCAGTCAAACCAGCGGCTTCGGCCCATT
CGGGCCCCAAGGCATCGGCCAGTACACAACCTGGCGGGATTTCATTT
GCGCCATTGCTGATCCCCATGTCTACCACTGGCAGACCGTGATGGAC
GACACCGTGTCCGCCAGCGTAGCTCAAGCCCTGGACGAACTGATGCT
GTGGGCCGAAGACTGTCCCGAGGTGCGCCACCTCGTCCATGCCGACT
TCGGCAGCAACAACGTCCTGACCGACAACGGCCGCATCACCGCCGTA
ATCGACTGGAGCGAGGCTATGTTCGGGGACAGTCAGTACGAGGTGGC
CAACATCTTCTTCTGGCGGCCCTGGCTGGCTTGCATGGAGCAGCAGA
CTCGCTACTTCGAGCGCCGGCATCCCGAGCTGGCCGGCAGCCCTCGT
CTGCGAGCCTACATGCTGCGCATCGGCCTGGATCAGCTCTACCAGAG
CCTCGTGGACGGCAACTTCGACGATGCTGCCTGGGCTCAAGGCCGCT
GCGATGCCATCGTCCGCAGCGGGGCCGGCACCGTCGGTCGCACACAA
ATCGCTCGCCGGAGCGCCGCCGTATGGACCGACGGCTGCGTCGAGGT
GCTGGCCGACAGCGGCAACCGCCGGCCCAGTACACGACCGCGCGCTA
AGGAGTAGTAACCAGCTCTTGG(SEQ ID NO:42);
hHygro(SacI位点在ORF中靠近5′端,在3′端符合读框地插入的接头编码12个氨基酸,SnaBI位点添加到ORF的3′端)
aagcttgctagcgccaccatgaagaagcccgagctcaccgctaccagcgttgaaaaatttctcatcgagaagttcga
cagtgtgagcgacctgatgcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcgg
ctatgtactgcgggtgaatagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgc
actacccatccccgaagtgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaa
ggcgttactctccaagacctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctatt
gccgccgccgacctcagtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctg
gcgggatttcatttgcgccattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccag
cgtagctcaagccctggacgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgac
ttcggcagcaacaacgtcctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcgggg
acagtcagtacgaggtggccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttc
gagcgccggcatcccgagctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctc
taccagagcctcgtggacggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagc
ggggccggcaccgtctgtcgcacacaaatcgctcgccggagcgccgccgtatggaccgacggctgcgtcgaggt
gctggccgacagcggcaaccgccggcccagtacacgaccgcgcgctaaggagggtggcggagggagcggtgg
cggaggttcctacgtatagtctagactcgag(SEQ ID NO:70);
hhyg-4
atgaagaagcccgagctcaccgctaccagcgttgaaaaatttctcatcgagaagttcgacagtgtgagcgacctgat
gcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcggctatgtactgcgggtgaa
tagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgcactacccatccccgaag
tgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaaggcgttactctccaaga
cctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctattgccgccgccgacctca
gtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctggcgggatttcatttgcgc
cattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccagcgtagctcaagccctgg
acgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgacttcggcagcaacaacgt
cctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcggggacagtcagtacgaggtg
gccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttcgagcgccggcatcccga
gctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctctaccagagcctcgtggac
ggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagcggggccggcaccgtcggt
cgcacacaaatcgctcgccggagcgcagccgtatggaccgacggctgcgtcgaggtgctggccgacagcggca
accgccggcccagtacacgaccgcgcgctaaggaaggcggtggaggtagtggtggcggaggtagctacgta
(SEQ ID NO:71);
hneo-4:
GCTAGCGCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCC
CGCAGCTTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGA
CCATCGGATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGC
CGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGA
GCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGTG
TACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGAC
TGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCA
CCTTGCCCCCGCTGAGAAGGTTTCCATCATGGCCGATGCAATGCGGC
GCCTGCACACCCTGGACCCCGCTACATGCCCCTTCGACCACCAGGCT
AAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGT
GGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCT
GAACTGTTCGCCCGCCTGAAAGCCCGCATGCCGGACGGTGAGGACCT
GGTTGTGACACATGGTGATGCCTGCCTCCCTAACATCATGGTCGAGA
ATGGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCG
ACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAG
CTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGC
AGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCCTGCTCGACGAGT
TCTTTTAATCTAGA
(SEQ ID NO:72);
hneo-5:
GCTAGCGCCACCATGATCGAACAAGACGGCCTCCATGCTGGCAGTCC
CGCAGCTTGGGTCGAACGCTTGTTCGGGTACGACTGGGCCCAGCAGA
CCATCGGATGTAGCGATGCGGCCGTGTTCCGTCTAAGCGCTCAAGGC
CGGCCCGTGCTGTTCGTGAAGACCGACCTGAGCGGCGCCCTGAACGA
GCTTCAAGACGAGGCTGCCCGCCTGAGCTGGCTGGCCACCACCGGCG
TACCCTGCGCCGCTGTGTTGGATGTTGTGACCGAAGCCGGCCGGGAC
TGGCTGCTGCTGGGCGAGGTCCCTGGCCAGGATCTGCTGAGCAGCCA
CCTTGCCCCCGCTGAGAAGGTTTCTATCATGGCCGATGCAATGCGGC
GCCTGCACACCCTGGACCCCGCTACCTGCCCCTTCGACCACCAGGCT
AAGCATCGGATCGAGCGTGCTCGGACCCGCATGGAGGCCGGCCTGGT
GGACCAGGACGACCTGGACGAGGAGCATCAGGGCCTGGCCCCCGCT
GAACTGTTCGCCCGACTGAAAGCCCGCATGCCGGACGGTGAGGACCT
GGTTGTCACACACGGAGATGCCTGCCTCCCTAACATCATGGTCGAGA
ATGGCCGCTTCTCCGGCTTCATCGACTGCGGTCGCCTAGGAGTTGCCG
ACCGCTACCAGGACATCGCCCTGGCCACCCGCGACATCGCTGAGGAG
CTTGGCGGCGAGTGGGCCGACCGCTTCTTAGTCTTGTACGGCATCGC
AGCTCCCGACAGCCAGCGCATCGCCTTCTACCGCTTGCTCGACGAGTT
CTTTTAATGATCTAGA(SEQ ID NO:73).
本发明的合成核苷酸序列可用于融合构建体。例如,选择性多肽的合成序列可以与野生型序列或编码不同多肽的其它合成序列融合。例如,在合成肾海鳃萤光素酶-neo序列的以下实例中的neo序列可以被本发明的合成neo序列取代:
atggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcctcagtggtgggctcgctgcaagc
aaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccgagaacgccgtgatttttctgcatgg
taacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccgtggctagatgcatcatccctgatct
gatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctggatcactacaagtacctcaccgctt
ggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactggggggcttgtctggcctttcactactc
ctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtggacgtgatcgagtcctgggacga
gtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcgagaaaatgtgcttgagaataacttc
ttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgaggagttcgctgcctacctggagccatt
caaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagatccctctcgttaagggaggcaagcc
cgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgacgatctgcctaagatgttcatcgagtc
cgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaacaccgagttcgtgaaggtgaaggg
cctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaagagcttcgtggagcgcgtgctgaag
aacgagcagaccggtggtgggagcggaggtggcggatcaggtggcggaggctccggagggattgaacaagatg
gattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcacaacagacaatcggctg
ctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagaccgacctgtccggtgccct
gaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttccttgcgcagctgtgctcga
cgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggatctcctgtcatctcaccttg
ctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatccggctacctgcccattcg
accaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgtcgatcaggatgatctgga
cgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcatgcccgacggcgaggat
ctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgcttttctggattcatcgactgtg
gccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctgaagagcttggcggcga
atgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgccttctatcgccttcttgacg
agttcttctaa(hrl-neo融合;SEQ ID NO:12)
atgattgaacaagatggattgcacgcaggttctccggccgcttgggtggagaggctattcggctatgactgggcaca
acagacaatcggctgctctgatgccgccgtgttccggctgtcagcgcaggggcgcccggttctttttgtcaagaccg
acctgtccggtgccctgaatgaactgcaggacgaggcagcgcggctatcgtggctggccacgacgggcgttcctt
gcgcagctgtgctcgacgttgtcactgaagcgggaagggactggctgctattgggcgaagtgccggggcaggatc
tcctgtcatctcaccttgctcctgccgagaaagtatccatcatggctgatgcaatgcggcggctgcatacgcttgatcc
ggctacctgcccattcgaccaccaagcgaaacatcgcatcgagcgagcacgtactcggatggaagccggtcttgtc
gatcaggatgatctggacgaagagcatcaggggctcgcgccagccgaactgttcgccaggctcaaggcgcgcat
gcccgacggcgaggatctcgtcgtgacccatggcgatgcctgcttgccgaatatcatggtggaaaatggccgctttt
ctggattcatcgactgtggccggctgggtgtggcggaccgctatcaggacatagcgttggctacccgtgatattgctg
aagagcttggcggcgaatgggctgaccgcttcctcgtgctttacggtatcgccgctcccgattcgcagcgcatcgcc
ttctatcgccttcttgacgagttcttcaccggtggtgggagcggaggtggcggatcaggtggcggaggctccggag
gggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcctcagtggtgggctcgctgcaagc
aaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccgagaacgccgtgatttttctgcatgg
taacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccgtggctagatgcatcatccctgatct
gatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctggatcactacaagtacctcaccgctt
ggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactggggggcttgtctggcctttcactactc
ctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtggacgtgatcgagtcctgggacga
gtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcgagaaaatggtgcttgagaataacttc
ttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgaggagttcgctgcctacctggagccatt
caaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagatccctctcgttaagggaggcaagcc
cgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgacgatctgcctaagatgttcatcgagtc
cgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaacaccgagttcgtgaaggtgaaggg
cctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaagagcttcgtggagcgcgtgctgaag
aacgagcagtaa(neo-hrl·融合;SEQ ID NO:13).
                            实施例5
          转录因子结合位点用于鉴定所选合成序列中的位点
TF结合位点文库
TF结合位点文库(“矩阵家族文库(Matrix Family Library)”)是GEMS Launcher软件包的组成部分。表16显示用于设计特定序列的矩阵家族文库的版本,表17显示矩阵家族文库24版中所有脊椎动物TF结合位点(“矩阵”)列表,以及在更新至4.1版中脊椎动物矩阵中的所有变化(“GENOMATIX MATRIX FAMILY LIBRARYINFORMATION 2.4版-4.1版”部分)。(Genomatix拥有对所有矩阵家族文库信息的版权)。
                 表16
  合成DNA序列  Genomatix矩阵家族文库
  pGL4B-NN3*   2.4版,2002年5月
  luc2A8和luc2B10   3.0版,2002年11月3.1.1版,2003年4月
  hhyg3hneo3   3.1.2版,2003年6月
  hhyg4   3.3版,2003年8月
  SpeI-NcoI-Ver2**   4.0版,2003年11月
  hneo5hpuro2   4.1版,2004年2月
*NotI-NcoI片段,在pGL4中,包括amp基因(pGL4B-NN3)
**SpeI-NcoI-Ver2(取代pGL4B-NN3中的SpeI-NcoI片段)
                                表17
                    GENOMATEX矩阵家族文库信息
                              2.4-4.1版
A.矩阵家族文库2.4版
矩阵家族文库2.4版(2002年5月)包括193个家族的412个权重矩阵
(脊椎动物:106个家族的275个矩阵)
脊椎动物
  家族   家族信息   矩阵名称   信息
V$AHRR   AHR-arnt异型二聚体和AHR-相关因子 V$AHRARNT.01   芳烃受体/Arnt异型二聚体
V$AHR.01 芳烃/二_英受体
V$AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$AP1F   AP1和相关因子   V$AP1.01   AP1结合位点
  V$AP1.02   激活蛋白1
  V$AP1.03   激活蛋白1
  V$AP1FJ.01   激活蛋白1
V$NFE2.01 NF-E2p45
  V$VMAF.01   v-Maf
V$TCF11MAFG.01   TCF11/MafG异型二聚体,能结合AP1位点亚类
  V$BEL1.01   Bel-1相似区
  V$AP2F   激活蛋白2   V$AP2.01   激活蛋白2
  V$AP4R   AP4和相关蛋白   V$AP4.01   激活蛋白4
  V$AP4.02   激活蛋白4
  家族   家族信息   矩阵名称   信息
V$TH1E47.01   Thingl/E47异型二聚体,TH1 bHLH在各种胚胎组织中的成员特异性表达
  V$TAL1ALPHAE47.01   Tal-1α/E47异型二聚体
  V$TAL1BETAE47.01   Tal-1β/E47异型二聚体
  V$TAL1BETAITF2.01   Tal-1β/ITF-2异型二聚体
  V$AP4.03   激活蛋白4
V$AREB Atpla1调节元件结合 V$AREB6.04   AREB6(Atpla1调节元件结合因子6)
  V$AREB6.02   AREB6(Atpla1调节元件结合因子6)
V$AREB6.03   AREB6(Atpla1调节元件结合因子6)
V$AREB6.01   AREB6(Atpla1调节元件结合因子6)
V$ARP1   载脂蛋白aI和cIII基因阻遏蛋白 V$ARP1.01 载脂蛋白AI调节蛋白1
V$BARB   巴比妥酸诱导的E1.盒,来自原核基因+真核基因 V$BARBIE.01 巴比妥酸诱导元件
V$BCL6 B-细胞表达的POZ域锌指 V$BCL6.01   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
V$BCL6.02 POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  家族  家族信息   矩阵名称  信息
V$BRAC 短尾(Brachyury)基因,中胚层发育因子 V$TBX5.01  T-框因子5位点(TBX5),Holt-Oram综合征相关突变
  V$BRACH.01  短尾
V$BRNF Brn POU域因子   V$BRN3.01  POU转录因子Brn-3
  V$BRN2.01  POU因子Brn-2(N-Oct 3)
V$CABL C-abl DNA结合位点 V$CABL.01  多功能c-Abl src型酪氨酸激酶
V$CART Cart-1(软骨发育同源蛋白1) V$XVENT2.01  非洲蟾蜍(Xenopus)同源域因子Xvent-2;早期BMP信号响应
V$CART1.01  Cart-1(软骨发育同源蛋白1)
V$CDXF   脊椎动物尾相关同源域蛋白 V$CDX2.01  Cdx-2哺乳动物尾相关肠转录因子
V$CEBP Ccaat/增强子结合蛋白   V$CEBPB.01  CCAAT/增强子结合蛋白β
  V$CEBP.02  C/EBP结合位点
V$CHOP CHOP结合蛋白 V$CHOP.01  CHOP和C/EBPα异型二聚体
V$CLOX   CLOX和CLOX同源性(CDP)因子   V$CDPCR3HD.01  cut样同源域蛋白
  V$CDP.01  cut样同源域蛋白
V$CDP.02 转录阻遏蛋白CDP
  V$CDPCR3.01  cut样同源域蛋白
  V$CLOX.01  Clox
  家族 家族信息   矩阵名称   信息
V$CMYB C-MYB,细胞转录激活蛋白 V$CMYB.01 c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
V$COMP 与生肌蛋白合作的因子 V$COMP1.01   COMP1,与多组分复合物中的生肌蛋白合作
V$COUP Repr.ofRXR介导的活化&视黄酸反应 V$COUP.01   COUP通过结合位点竞争而拮抗HNF-4,或通过直接蛋白-蛋白相互作用而与HNF-4协同作用
V$CP2F CP2-红细胞因子涉及果蝇(Drosophila)Elf1 V$CP2.01 CP2
V$CREB Camp-应答元件结合蛋白 V$CREBP1.01   cAMP-应答元件结合蛋白1
V$CREBP1CJUN.01   CRE-结合蛋白1/c-Jun异型二聚体
  V$CREB.01   cAMP-应答元件结合蛋白
  V$HLF.01   肝性白血病因子
V$E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$CREB.02   cAMP-应答元件结合蛋白
  V$CREB.03   cAMP-应答元件结合蛋白
  V$CREB.04   cAMP-应答元件结合蛋白
  V$CREBP1.02   CRE-结合蛋白1
  V$ATF.02   ATF结合位点
  V$ATF.01   激活转录因子
  家族   家族信息   矩阵名称  信息
  V$TAXCREB.01  Tax/CREB复合物
  V$TAXCREB.02  Tax/CREB复合物
  V$VJUN.01  v-Jun
V$E2FF   E2F-myc激活物/细胞周期调节物 V$E2F.02  E2F,参与细胞周期调节,与Rb p107蛋白相互作用
V$E2F.03  E2F,参与细胞周期调节,与Rb p107蛋白相互作用
V$E2F.01  E2F,参与细胞周期调节,与Rb p107蛋白相互作用
V$E2TF   乳头瘤病毒E2转录激活物   V$E2.01  BPV牛乳头瘤病毒调节物E2
  V$E2.02  乳头瘤病毒调节物E2
V$EBOR E-框相关因子   V$DELTAEF1.01  δEF1
  V$XBP1.01  X-框-结合蛋白1
  V$EBOX   E-框结合因子   V$USF.02  上游刺激因子
  V$USF.03  上游刺激因子
  V$MYCMAX.03  MYC-MAX结合位点
  V$SREBP.03  固醇调节元件结合蛋白
  V$SREBP.02  固醇调节元件结合蛋白
  V$MYCMAX.02  c-Myc/Max异型二聚体
  V$NMYC.01  N-Myc
V$ATF6.01  b-zip家族成员,由ER损伤/应激诱导
  家族   家族信息  矩阵名称   信息
 V$USF.01   上游刺激因子
 V$MYCMAX.01   c-Myc/Max异型二聚体
 V$MAX.01   Max
V$ARNT.01   AhR核易位蛋白同型二聚体
V$SREBP.01   固醇调节元件结合蛋白1和2
V$ECAT   增强子-CcAaT结合因子  V$NFY.02   核因子Y(Y-框结合因子)
V$NFY.03 核因子Y(Y-框结合因子)
 V$NFY.01   核因子Y(Y-框结合因子)
V$EGRF   EGR/神经生长因子诱导蛋白C & rel.FAct. V$EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
 V$EGR2.01   Egr-2/Krox-20早期生长应答基因产物
V$EGR3.01 早期生长应答基因3产物
 V$NGFIC.01   神经生长因子诱导蛋白C
 V$WT1.01   Wilms肿瘤抑制物
V$EKLF 红细胞krueppel样因子 V$EKLF.01   红细胞krueppel样因子(EKLF)
  V$ETSF   人和鼠ETS1因子  V$CETS1P54.01   c-Ets-1(p54)
 V$NRF2.01   核呼吸因子2
 V$GABP.01   GABP:GA结合蛋白
 V$ELK1.02   Elk-1
  家族   家族信息   矩阵名称  信息
  V$FLI.01  ETS家族成员FLI
  V$ETS2.01  c-Ets-2结合位点
  V$ETS1.01  c-Ets-1结合位点
  V$ELK1.01  Elk-1
V$PU1.01  在淋巴样B-细胞中鉴定的Pu.1(Pu120)Ets样转录因子
V$EVI1 EVI1-myleoid转化蛋白 V$EVI1.06  亲嗜性病毒整合位点1编码的因子
V$EVI1.02  亲嗜性病毒整合位点1编码的因子
V$EVI1.03  亲嗜性病毒整合位点1编码的因子
V$EVI1.05  亲嗜性病毒整合位点1编码的因子
V$EVI1.04  亲嗜性病毒整合位点1编码的因子
V$EVI1.01  亲嗜性病毒整合位点1编码的因子
  V$FKHD   Fork Head域因子   V$HFH1.01  HNF-3/Fkh同源物1
  V$HFH2.01  HNF-3/Fkh同源物2
V$HFH3.01  HNF-3/Fkh同源物3(=Freac-6)
  V$HFH8.01  HNF-3/Fkh同源物-8
  家族   家族信息   矩阵名称   信息
V$XFD1.01   非洲蟾蜍fork head域因子1
V$XFD2.01   非洲蟾蜍fork head域因子2
V$XFD3.01   非洲蟾蜍fork head域因子3
  V$HNF3B.01   肝细胞核因子3β
  V$FREAC2.01   Fork head相关激活物-2
  V$FREAC3.01   Fork head相关激活物-3
  V$FREAC4.01   Fork head相关激活物-4
  V$FREAC7.01   Fork head相关激活物-7
V$GATA GATA结合因子 V$LMO2COM.02   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点2
  V$GATA1.04   GATA-结合因子1
  V$GATA1.05   GATA-结合因子1
  V$GATA2.01   GATA-结合因子2
  V$GATA2.02   GATA-结合因子2
  V$GATA3.01   GATA-结合因子3
  V$GATA3.02   GATA-结合因子3
V$GATA.01   GATA结合位点(共有序列)
  V$GATA1.03   GATA-结合因子1
  V$GATA1.01   GATA-结合因子1
  家族   家族信息   矩阵名称   信息
  V$GATA1.02   GATA-结合因子1
V$GFI1   生长因子非依赖性转录阻遏蛋白 V$GFI1.01   生长因子非依赖性1锌指蛋白作为转录阻遏蛋白
V$GKLF   肠富含的Krueppel样结合因子 V$GKLF.01 肠富含的Krueppel样因子
V$GREF 糖皮质激素应答和相关元件 V$GRE.01   糖皮质激素受体,C2C2锌指蛋白结合依赖于GRE的糖皮质激素
V$ARE.01 雄激素受体结合位点
  V$PRE.01   孕酮受体结合位点
V$HAML   人急性骨髓性白血病因子 V$AML1.01 侏儒因子AML-1
  V$HEAT   热激因子   V$HSF1.01   热激因子1
V$HEN1   E-框结合因子,无转录物活化   V$HEN1.01   HEN1
V$HEN1.02 HEN1
V$HMTB   人体肌肉特异性Mt结合位点 V$MTBF.01 肌肉特异性Mt结合位点
V$HNF1 肝细胞核因子1   V$HNF1.01   肝细胞核因子1
  V$HNF1.02   肝细胞核因子1
V$HNF4 肝细胞核因子4   V$HNF4.01   肝细胞核因子4
  V$HNF4.02   肝细胞核因子4
  V$HOMS   同源域亚家族S8   V$S8.01   S8型同源域的结合位点
V$HOXF   对同源域共有序列具有中等活性的因子 V$HOXA9.01   脊椎动物同源框因子HOX-簇成员
  家族   家族信息   矩阵名称   信息
V$HOX1-3.01   Hox-1.3,脊椎动物同源框蛋白
V$IKRS Ikaros锌指家族 V$LYF1.01   LyF-1(Ikaros 1),在B和T淋巴细胞中富集
  V$IK2.01   Ikaros 2,淋巴细胞分化潜在调节物
V$IK1.01   Ikaros 1,淋巴细胞分化潜在调节物
V$IK3.01   Ikaros 3,淋巴细胞分化潜在调节物
  V$IRFF   干扰素调节因子   V$IRF1.01   干扰素调节因子1
  V$IRF2.01   干扰素调节因子2
  V$ISRE.01   干扰素刺激应答元件
V$LEFF LEF1/TCF V$LEF1.01   TCF/LEF-1,涉及Wnt信号转导途径
  V$LTUP   慢病毒Tata上游元件   V$TAACC.01   慢病毒TATA上游元件
  V$MEF2   MEF2-肌细胞特异性增强子结合因子   V$MEF2.05   MEF2
  V$MEF2.01   生肌增强子因子2
  V$HMEF2.01   肌细胞增强子因子
  V$MMEF2.01   肌细胞增强子因子
  V$RSRFC4.01   涉及血清应答因子,C4
  V$RSRFC4.02   涉及血清应答因子,C4
  V$AMEF2.01   肌细胞增强子因子
  V$MEF2.02   生肌MADS因子MEF-2
  家族   家族信息   矩阵名称   信息
  V$MEF2.03   生肌MADS因子MEF-2
  V$MEF2.04   生肌MADS因子MEF-2
V$MEF3 MEF3结合位点 V$MEF3.01   MEF3结合位点,存在于骨骼肌特异性转录增强子
V$MEIS   骨髓性白血病中异常表达的同源域因子 V$MEIS1.01   同源框蛋白MEIS1结合位点
  V$MINI   肌肉起始因子   V$MUSCLE_INI.01   肌肉起始序列
  V$MUSCLE_INI.02   肌肉起始序列
  V$MUSCLE_INI.03   肌肉起始序列
V$MOKF 小鼠Krueppel样因子 V$MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2
  V$MTF1   金属诱导的转录因子   V$MTF-1.01   金属转录因子1,MRE
V$MYOD 成肌细胞决定因子   V$MYOD.02   成肌细胞决定因子
  V$MYF5.01   Myf5生肌bHLH蛋白
V$MYOD.01 成肌细胞决定基因产物
V$LMO2COM.01   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点1
V$E47.01   MyoD/E47和MyoD/E12二聚体
  V$E47.02   TAL1/E47二聚体
  V$MYOF   生肌因子   V$NF1.01   核因子1
V$MYOGNF1.01   成肌蛋白/核因子1或相关因子
  家族   家族信息   矩阵名称   信息
V$MYT1 非洲蟾蜍MYT1 C2HC锌指蛋白   V$MYT1.02   MyT1锌指转录因子,参与初生神经发生
V$MYT1.01   MyT1锌指转录因子,参与初生神经发生
  V$MZF1   骨髓性锌指1因子   V$MZF1.01   MZF1
  V$NFAT   活化T-细胞的核因子   V$NFAT.01   活化T-细胞的核因子
V$NFKB 核因子κB/c-rel   V$CREL.01   c-Rel
  V$NFKAPPAB.01   NF-κB
  V$NFKAPPAB65.01   NF-κB(p65)
  V$NFKAPPAB50.01   NF-κB(p50)
  V$NFKAPPAB.02   NF-κB
  V$NFKAPPAB.03   NF-κB
  V$NKXH   NKX-同源域位点 V$NKX25.01   同源域因子Nkx-2.5/Csx,tinman同源物,高亲和性位点
V$NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
V$NKX31.01   前列腺特异性同源域蛋白NKX3.1
V$NOLF   神经元特异性嗅觉因子 V$OLF1.01 嗅神经元特异性因子
V$NRSF   神经元限制性沉默因子   V$NRSF.01   神经元限制性沉默因子
V$NRSE.01 神经限制性沉默元件
  家族   家族信息   矩阵名称   信息
V$OAZF 嗅觉相关的锌指蛋白 V$ROAZ.01   大鼠C2H2Zn指蛋白,参与嗅神经元分化
  V$OCT1   八聚体结合蛋白   V$OCT1.02   八聚体-结合因子1
  V$OCT1.06   八聚体-结合因子1
V$OCT.01   八聚体结合位点(OCT1/OCT2共有序列)
V$OCT1.05 八聚体-结合因子1
  V$OCT1.04   八聚体-结合因子1
  V$OCT1.03   八聚体-结合因子1
  V$OCT1.01   八聚体-结合因子1
V$OCTB   OCT6结合因子_星形细胞+恶性胶质瘤细胞 V$TST1.01 POU-因子Tst-1/Oct-6
V$OCTP   OCT1结合因子(POU特异性域) V$OCT1P.01   八聚体-结合因子1,POU特异性域
V$P53F   p53肿瘤抑制基因-肿瘤抑制基因Rb负调节 V$P53.01 肿瘤抑制基因p53
V$PAX1 PAX-1结合位点 V$PAX1.01   Pax1配对域蛋白,在小鼠胚胎的发育脊柱中表达
V$PAX3 PAX-3结合位点 V$PAX3.01   Pax-3配对域蛋白,在胚胎发生中表达,突变与Waardenburg综合征有关
V$PAX4 异源PAX-4结合位点 V$PAX4.01   Pax-4配对域蛋白,与PAX-6一起参与胰腺发育
  V$PAX5   PAX-5/PAX-9B-细胞特异性激活蛋白   V$PAX9.01   斑马鱼PAX9结合位点
  V$PAX5.01   B-细胞特异性激活蛋白
  家族   家族信息   矩阵名称   信息
  V$PAX5.02   B-细胞特异性激活蛋白
V$PAX6   活化,参与小鼠眼的虹膜发育 V$PAX6.01 Pax-6配对域蛋白
  V$PAX8   PAX-2/5/8结合位点   V$PAX8.01   PAX 2/5/8结合位点
  V$PBXF   同源域因子PBX-1   V$PBX1.01   同源域因子Pbx-1
V$PCAT   启动子-CcAaT结合因子   V$ACAAT.01   禽类C-型LTR CCAAT框
  V$CAAT.01   细胞和病毒CCAAT框
V$CLTR_CAAT.01   哺乳动物C-型LTRCCAAT框
V$PDX1   胰和肠同源域转录因子   V$PDX1.01   Pdx1(IDX1/IPF1)胰和肠同源域TF
  V$ISL1.01   胰和肠lim-同源域因子
V$PERO   过氧化物酶体增殖物激活受体 V$PPARA.01 PPAR/RXR异型二聚体
V$PIT1   GHF-1垂体特异性pou域转录因子 V$PIT1.01   Pit1,GHF-1垂体特异性pou域转录因子
  V$RARF   视黄酸核受体   V$RAR.01   视黄酸受体,核受体成员
V$RTR.01   视黄酸受体相关的睾丸-结合受体(GCNF/RTR)
V$RBIT   B-细胞IgH转录调节物 V$Bright.01   Brigbt,IgH转录的B细胞调节物
V$RBPF RBPJ-κ V$RBPJK.01   哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
V$REBV   Epstein-Barr病毒转录因子R V$EBVR.01   Epstein-Barr病毒转录因子R
  家族   家族信息   矩阵名称   信息
V$RORA   雌激素受体和rar-Rel.孤儿受体α   V$RORA1.01   RAR-相关孤儿受体α1
V$RORA2.01 RAR-相关孤儿受体α2
  V$ER.01   雌激素受体
V$RREB   Ras-应答元件结合蛋白 V$RREB1.01 Ras-应答元件结合蛋白1
V$RXRF RXR异型二聚体结合位点 V$FXRE.01   类法尼醇X-激活受体(RXR/FXR二聚体)
V$VDR_RXR.01   VDR/RXR维生素D受体RXR异型二聚体位点
V$VDR_RXR.02   VDR/RXR维生素D受体RXR异型二聚体位点
V$LXRE.01   核受体,参与调节脂质体内稳态
V$SATB 特异性富含AT的序列结合蛋白 V$SATB1.01   特异性富含AT的序列结合蛋白1,主要在胸腺细胞中表达,与基质附着区(MAR)结合
V$SEF1   小鼠逆转录病毒SL3-3的SEF1蛋白 V$SEF1.01 SEF1结合位点
V$SF1F   脊椎动物类固醇生成因子 V$SF1.01 SF1类固醇生成因子1
V$SMAD   转录因子的脊椎动物SMAD家族 V$SMAD3.01   Smad3转录因子,参与TGF-β信号传导
V$SMAD4.01   Smad4转录因子,参与TGF-β信号传导
  家族   家族信息   矩阵名称   信息
V$FAST1.01   FAST-1 SMAD相互作用蛋白
V$SORY   SOx/sRY-性别/睾丸决定和相关HMG框因子   V$SOX5.01   Sox-5
  V$SRY.01   性别决定区Y基因产物
V$HMGIY.01   HMGI(Y)高迁移率族蛋白I(Y),组织核蛋白-DNA转录复合物构架的构筑转录因子
  V$SOX9.01   SOX(SRY相关HMG框)
V$SP1F GC-框因子_SP1/GC   V$SP1.01   刺激性蛋白1 SP1,遍在锌指转录因子
  V$GC.01   GC框元件
V$SRFF   血清应答元件结合因子   V$SRF.02   血清应答因子
V$SRF.03 血清应答因子
  V$SRF.01   血清应答因子
V$STAT   信号转导及转录激活因子   V$STAT.01   信号转导及转录激活蛋白
V$STAT5.01   STAT5:信号转导及转录激活蛋白5
  V$STAT6.01   STAT6:信号转导及转录激活蛋白6
V$STAT1.01   信号转导及转录激活蛋白1
V$STAT3.01   信号转导及转录激活蛋白3
  家族  家族信息   矩阵名称   信息
V$T3RH 甲状腺激素受体α1(AEV vErbA)的病毒同源物 V$T3R.01 vErbA,甲状腺激素受体α1的病毒同源物
  V$TBPF  Tata-结合蛋白因子 V$TATA.02   哺乳动物C-型LTRTATA框
  V$ATATA.01   禽类C-型LTR TATA框
  V$TATA.01   细胞和病毒TATA框元件
  V$MTATA.01   肌肉TATA框
V$TCFF TCF11转录因子 V$TCF11.01   TCF11/KCR-F1/Nrf1同型二聚体
V$TEAF  TEA/ATTS DNA结合域因子 V$TEF1.01 TEF-1相关肌肉因子
V$TTFF 甲状腺转录因子-1 V$TTF1.01   甲状腺转录因子-1(TTF1)结合位点
V$VBPF  鸡卵黄原蛋白基因结合蛋白因子 V$VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
V$VMYB AMV-病毒myb癌基因   V$VMYB.02   v-Myb
  V$VMYB.01   v-Myb
V$WHZF  翼状螺旋和ZF5结合位点 V$WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$XBBF  X-框结合因子   V$RFX1.01   X-框结合蛋白RFX1
  V$RFX1.02   X-框结合蛋白RFX1
  V$MIF1.01   MIBP-1/RFX1复合物
V$XSEC  非洲蟾蜍SElenoCystein t-RNA活化因 V$STAF.02   Se-Cys tRNA基因转录激活因子
  家族   家族信息   矩阵名称  信息
  子 V$STAF.01  Se-Cys tRNA基因转录激活因子
V$YY1F   结合转录起始位点的激活/阻遏蛋白 V$YY1.01 Yin和Yang 1
  V$ZBPF   锌结合蛋白因子   V$ZBP89.01  锌指转录因子ZBP-89
V$ZFIA   具有相互作用域因子的锌指 V$ZID.01 具有相互作用域的锌指
  _Genomatix Software GmbH 1998-2002-版权所有。
B.家族文库2.4版到3.0版的变化
矩阵家族文库3.0版(2002年11月)含有216个家族的452权重矩阵
(脊椎动物:128个家族的314矩阵)
新权重矩阵—脊椎动物
  家族   家族信息   矩阵名称   矩阵信息
V$AP1F AP1和相关因子 V$BACH1.01   BTB/POZ-bZIP转录因子BACH1构成具有小Maf蛋白家族的异型二聚体
V$CIZF   CAS相互作用锌指蛋白 V$NMP4.01   NMP4(核基质蛋白4)/CIZ(Cas-相互作用锌指蛋白)
V$CREB   Camp-应答元件结合蛋白 V$ATF6.02   激活转录因子6,b-zip家族成员,由ER应激诱导
V$E4FF   遍在GLI-Krueppel样锌指,参与细胞周期调节 V$E4F.01   GLI-Krueppel-相关转录因子,腺病毒E4启动子的调节物
V$GFI1   生长因子非依赖性转录阻遏蛋白 V$GfI1B.01   生长因子非依赖性1锌指蛋白Gfi-1B
  V$GLIF   GLI锌指家族   V$GLI1.01   锌指转录因子GLI1
V$HAML   人急性骨髓性白血病因子 V$AML3.01   Runt-相关转录因子2/CBFA1(核心-结合因子,runt域,α亚基1)
  家族   家族信息   矩阵名称   矩阵信息
V$HESF   断裂复合物增强子的脊椎动物同源物 V$HES1.01   果蝇hairy和断裂同源物1增强子(HES-1)
  V$HIFF   低氧诱导因子,bHLH/PAS蛋白家族   V$HIF1.01   低氧诱导因子-1(HIF-1)
V$HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
V$HNF6   Onecut同源域因子HNF6 V$HNF6.01   肝富集的Cut-同源域转录因子HNF6(ONECUT)
V$HOXF   对同源域共有序列具有中等活性的因子   V$CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
  V$EN1.01   同源框蛋白engrailed(en-1)
  V$PTX1.01   垂体同源框1(Ptx1)
V$IRFF 干扰素调节因子   V$IRF3.01   干扰素调节因子3(IRF-3)
  V$IRF7.01   干扰素调节因子7(IRF-7)
  V$MAZF   Myc结合的锌指   V$MAZ.01   Myc结合的锌指蛋白(MAZ)
V$MAZR.01   MYC-结合的锌指蛋白相关转录因子
V$MEIS   骨髓性白血病中异常表达的同源域因子 V$MEIS1.01   单体Meis1同源域蛋白的结合位点
  V$MITF   小眼转录因子   V$MIT.01   MIT(小眼转录因子)和TFE3
V$MOKF   小鼠Krueppel样因子 V$MOK2.02   核糖核蛋白结合的锌指蛋白MOK-2(人)
V$NEUR   NeuroD,β2,HLH域 V$NEUROD1.01   NEUROD1(β-2/E47二聚体)的DNA结合位点
  V$NF1F   核因子1   V$NF1.02   核因子1(CTF1)
V$NKXH   NKX/DLX-同源域位点   V$DLX1.01   DLX-1,-2和-5结合位点
  V$DLX3.01   Distal-less 3同源域转录因子
  V$HMX3.01   H6同源域HMX3/Nkx5.1转录因子
  V$MSX.01   同源域蛋白MSX-1和MSX-2
V$MSX2.01   肌肉区段同源框2,果蝇同源物(HOX 8)
V$NRLF   神经视网膜亮氨酸拉链 V$NRL.01   神经视网膜碱性亮氨酸拉链因子(bZIP)
  家族   家族信息   矩阵名称   矩阵信息
  V$PARF   PAR/bZIP家族   V$DBP.01   白蛋白D-框结合蛋白
V$PBXC   PBX1-MEIS1复合物 V$PBX1_MEIS1.01   Pbx1/Meis1异型二聚体的结合位点
V$PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合位点
V$PBX1_MEIS1.03   Pbx1/Meis1异型二聚体结合位点
V$PLZF   C2H2锌指蛋白PLZF V$PLZF.01   早幼粒细胞性白血病zink指(具有9个Krueppel样zink指的TF)
V$PXRF 孕烷X受体 V$PXRCAR.01   PXR(孕烷X受体)/RXR受体CAR(组成型雄甾烷受体)/RXR异型二聚体结合位点的半位点
V$RORA   v-ERB和rar-相关孤儿受体α V$NBRE.01   核受体nur亚家族的单体(nur77,nurr1,nor-1)
V$SF1F   脊椎动物类固醇生成因子 V$FTF.01   α(1)-甲胎蛋白转录因子(FTF),肝受体同源物-1(LHR-1)
V$SIXF   Sine oculis(SIX)同源域因子 V$SIX33.01   SIX3/SIX域(SD)和同源域(HD)转录因子
V$TALE   TALE同源域类识别TG基序 V$TGIF.01   TG-相互作用因子,属于同源域因子的TALE类
  V$ZF5F   ZF5 POZ域锌指   V$ZF5.01   锌指/POZ域转录因子
权重矩阵重命名
·V$MEIS1.01重命名为V$MEIS1_HOXA9.01
权重矩阵移至其它家族
·V$BEL1.01从V$AP1F移至V$BEL1
·V$NF1.01从V$MYOF移至V$NF1
·V$ER.01从V$RORA移至V$EREF
·V$T3R.01从V$T3RH移至V$RORA
·V$CLTR_CAAT.01从V$PCAT移至V$RCAT
·V$FAST1.01从V$SMAD移至V$FAST
权重矩阵除去
·V$MUSCLE_INI.03
C.家族文库3.0版到3.1版的变化
矩阵家族文库3.1版含有216个家族的456权重矩阵
(脊椎动物:128个家族的318矩阵)
新权重矩阵—脊椎动物
  家族   家族信息   矩阵名称  矩阵信息
V$LEFF LEF1/TCF V$LEF1.02  TCF/LEF-1,涉及Wnt信号转导途径
  V$PAX2   PAX-2结合位点   V$PAX2.01  斑马鱼PAX2配对域蛋白
V$PAX5   PAX-5/PAX-9B-细胞特异性激活蛋白 V$PAX5.03 PAX5配对域蛋白
  V$PAX6   PAX-4/PAX-6配对域结合位点   V$PAX4_PD.01  PAX4配对域结合位点
V$PAX6.02  PAX6配对域和同源域是该位点结合所需的
  V$ZBPF   锌结合蛋白因子   V$ZF9.01  具有3 Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
权重矩阵修饰
·V$AML1.01
·V$AML3.01
权重矩阵移至其它家族
·V$ARNT.01从V$EBOX移至V$HIFF(ARNT是HIF1 B的同义词)
权重矩阵除去
·V$SEF1.01
·V$OCT1.03
3.1.1版(2003年4月)
矩阵V$IRF3.01和V$IRF7.01经校正。
3.1.2版(2003年6月)
矩阵V$GfI1B.01经校正。
D.家族文库3.1版到3.3版的变化
矩阵家族文库3.3版(2003年8月)含有233个家族的485权重矩阵
(脊椎动物:130个家族的326矩阵)
新权重矩阵—脊椎动物
  家族   家族信息   矩阵名称  矩阵信息
V$EREF 雌激素应答元件 V$ER.02  正则复发雌激素应答元件(ERE)
V$SP1F   GC-框因子SP1/GC V$BTEB3.01  基础转录元件(BTE)结合蛋白,BTEB3,FKLF-2
V$CDEF   细胞周期调节物:细胞周期依赖性元件 V$CDE.01  细胞周期依赖性元件,CDF-1结合位点(CDE/CHR串联元件调节细胞周期依赖性阻遏)
V$CHRF   细胞周期调节物:细胞周期同源元件 V$CHR.01  细胞周期基因同源区(CDE/CHR串联元件调节细胞周期依赖性阻遏)
V$HIFF   低氧诱导因子,bHLH/PAS蛋白家族 V$CLOCK_BMAL1.01  Clock/BMAL1异型二聚体,NPAS2/BMAL 1异型二聚体的结合位点
V$FKHD   ForkHead域因子 V$FKHRL1.01 Fkh-域因子FKHRL1(FOXO)
  V$P53F   p53肿瘤抑制基因-肿瘤抑制基因Rb的负调节   V$P53.02  肿瘤抑制基因p53(5′半位点)
V$P53.03 肿瘤抑制基因p53(3′半位点)
权重矩阵修饰
·V$GFI1.01
E.家族文库3.3版到4.0版的变化
矩阵家族文库4.0版(2003年11月)含有253个家族的535权重矩阵
(脊椎动物:136个家族的339个矩阵)
新权重矩阵—脊椎动物
  家族  家族信息   矩阵名称   矩阵信息
V$AARF AARE结合因子 V$AARE.01   氨基酸应答元件,ATF4结合位点
  V$AP1R  MAF和AP1相关因子   V$BACH2.01   Bach2结合的TRE
V$NFE2L2.01   核因子(红细胞衍生2)样2,NRF2
V$CDXF  脊椎动物尾相关同源域蛋白 V$CDX1.01 肠特异性同源域因子CDX-1
V$DEAF  来自黑腹果蝇(D.melanogaster)的畸形表皮自我调节因子-1的同源物 V$NUDR.01   NUDR(核DEAF-1相关转录调节蛋白
  V$ETSF  人和鼠ETS1因子   V$ELF2.01   Ets-家族成员ELF-2(NFRF1a)
  V$GABF  GA-框   V$GAGA.01   GAGA-框
  V$HNF1  肝细胞核因子1   V$HNF1.03   肝细胞核因子1
V$HOXF  对同源域共有序列具有中等活性的因子 V$GSC.01   脊椎动物bicoid-型同源域蛋白Goosecoid
V$LHXF Lim同源域因子 V$LHX3.01   LIM/同源域因子LHX3中的同源域结合位点
V$NKXH NKX/DLX-同源域位点 V$NKX32.01   同源域蛋白NKX3.2(BAPX1,NKX3B,Bagpipe同源物)
V$RBPE RBPJ-κ V$RBPJK.02   哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
V$RP58 RP58(ZFP238)锌指蛋白 V$RP58.01   锌指蛋白RP58(ZNF238),优先与异染色质结合
权重矩阵修饰
·V$GRE.01
·V$NFY.03
权重矩阵移至其它家族
·V$BACH1.01从V$AP1F移至V$AP1R
·V$NFE2.01从V$AP1F移至V$AP1R
·V$TCF11MAFG.01从V$AP1F移至V$AP1R
·V$VMAF.01从V$AP1F移至V$AP1R
E.家族文库4.0版到4.1版的变化
矩阵家族文库4.1版(2004年2月)含有262个家族的564权重矩阵
(脊椎动物:138个家族的356个矩阵)
新权重矩阵—脊椎动物
  家族  家族信息   矩阵名称   矩阵信息
V$BNCF  碱核蛋白rDNA转录因子(PolI) V$BNC.01   碱核蛋白,与USF1共同作用于rDNA PolI转录
V$CMYB  C-myb,细胞转录激活蛋白 V$CMYB.02   c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
V$CP2F  CP2-红细胞因子涉及果蝇Elf1 V$CP2.02   LBP-1c(前导序列-结合蛋白-1c),LSF(晚期SV40因子),CP2,SEF(SAA3增强子因子)
V$EKLF  碱性和红细胞Krueppel样因子 V$BKLF.01 碱性krueppel样因子(KLF3)
V$HAND  HAND2和E12的bHLH转录因子二聚体 V$HAND2_E12.01   bHLH转录因子HAND2(Thing2)和E12的异型二聚体
V$HIFF  低氧诱导因子,bHLH/PAS蛋白家族 V$DEC1.01   碱性螺旋-环-螺旋蛋白,称为Dec1,Stra13或Sharp2
V$HNF6  Onecut同源域因子HNF6 V$OC2.01 CUT-同源域转录因子Onecut-2
V$HOXF  对同源域共有序列具有中等活性的因子 V$OTX2.01   同源域转录因子Otx2(果蝇正常小齿的同源物)
  V$GSH1.01   同源框转录因子Gsh-1
V$IRFF 干扰素调节因子 V$IRF4.01   干扰素调节因子(IRF)-相关蛋白(NF-EM5,PIP,LSIRF,ICSAT)
  V$LHXF  Lim同源域因子   V$LMX1B.01   LIM-同源域转录因子
V$MYT1  MYT1 C2HC锌指蛋白 V$MYT1L.01   髓磷脂转录因子1样,神经元C2HC锌指因子1
  家族 家族信息   矩阵名称   矩阵信息
V$NEUR NeuroD,β2,HLH域 V$NEUROG.01   神经生成素(Neurogenin)1和3(ngn1/3)结合位点
V$VMYB AMV-病毒myb癌基因   V$VMYB.03   v-Myb,病毒myb变异体,来自转化的BM2细胞
  V$VMYB.04   v-Myb,AMV v-myb
  V$VMYB.05   v-Myb,AMV v-myb的变异体
V$ZBPF 锌结合蛋白因子 V$ZNF202.01   转录阻遏蛋白,与主要发现在参与脂质代谢的基因上的元件结合
权重矩阵修饰
·V$CMYB.01
·V$PTX1.01
版权_Genomatix Software GmbH 1998-2004-版权所有
                          实施例6
                    特定可选择基因设计概述
TF结合位点和检索参数
各TF结合位点(“矩阵”)属于矩阵家族,其中功能相似的矩阵合在一起,用MatInspector professional(检索程序)除去冗余匹配。检索局限于脊椎动物TF结合位点。通过矩阵家族进行检索,即结果仅表明各位点的家族最佳匹配。MatInspector缺省参数用作核心和矩阵相似性取值(核心相似性=0.75,矩阵相似性=优化)。
                            表18
                          基因命名
A.合成潮霉素基因
  序列  描述   矩阵文库
  hyg  来自pcDNA3.1/Hygro   未应用
  hhyg  人源化ORF   未应用
  hhyg-1  第1次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hhyg-2  第2次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hhyg-3  第3次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hHygro  变成ORF并添加接头   Ver 3.3,2003年8月
  hhyg-4  第4次除去不需要的序列匹配   Ver 3.3,2003年8月
B.合成新霉素基因
  序列   描述   矩阵文库
  neo   来自pCI-neo或psiSTRIKE neo   未应用
  hneo   人源化ORF   未应用
  hneo-1   第1次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hneo-2   第2次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hneo-3   第3次除去不需要的序列匹配   Ver 3.1.2,2003年6月
  hneo-4   改变的5′和3′侧翼区/克隆位点   Ver 4.1,2004年2月
  hneo-5   第4次除去不需要的序列匹配   Ver 4.1,2004年2月
C.合成嘌呤霉素基因
  序列  描述   矩阵文库
  puro  来自psiSTRIKE嘌呤霉素   未应用
  hpuro  人源化ORF   未应用
  hpuro-1  第1次除去不需要的序列匹配   Ver 4.1,2004年2月
  hpuro-2  第2次除去不需要的序列匹配   Ver 4.1,2004年2月
注意:以上序列名称仅指ORF(除了包含侧翼序列的Hhygro之外)。序列名称中加上“F”表示存在上游和下游侧翼序列。外加的字母(例如“B”)表示仅对侧翼区进行改变。
                                表19
                        合成潮霉素基因的序列
hhyg中的TFBS
从hhyg中除去TFBS之前(94匹配)
  家族/矩阵**   其他信息
  V$PCAT/CAAT.01   细胞和病毒CCAAT框
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$MINI/MUSCLE_INI.01   肌肉起始序列
V$ETSF/PU1.01   淋巴样B-细胞中鉴定的Pu.1(Pu120)Ets样转录因子
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$AP4R/AP4.01   激活蛋白4
  V$EGRF/NGFIC.01   神经生长因子诱导蛋白C
  V$MAZF/MAZ.01   Myc结合的锌指蛋白(MAZ)
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$CREB/ATF6.02   激活转录因子6,b-zip家族成员,由ER应激诱导
  V$EGRF/EGR3.01   早期生长应答基因3产物
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
V$E2FF/E2F.01   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  V$AP4R/AP4.01   激活蛋白4
  V$HEN1/HEN1.02   HEN1
  V$MYOD/E47.01   MyoD/E47和MyoD/E12二聚体
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$MOKF/MOK2.02   核糖核蛋白结合的锌指蛋白MOK-2(人)
  V$SP1F/GC.01   GC框元件
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$RORA/RORA2.01   RAR-相关孤儿受体α2
  家族/矩阵**   其他信息
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$AP1F/TCF11MAFG.01   TCF11/MafG异型二聚体,结合AP1位点亚类
  V$EKLF/EKLF.01   红细胞krueppel样因子(EKLF)
  V$NRSF/NRSF.01   神经元限制性沉默因子
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$EBOX/MYCMAX.03   MYC-MAX结合位点
  V$RXRF/FXRE.01   类法尼醇X-激活受体(RXR/FXR二聚体)
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$EGRF/EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
  V$SMAD/SMAD3.01   Smad3转录因子,参与TGF-β信号传导
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$MYOD/MYOD.02   成肌细胞决定因子
V$E4FF/E4F.01   GLI-Krueppel-相关转录因子,腺病毒E4启动子调节物
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$EGRF/EGR2.01   Egr-2/Krox-20早期生长应答基因产物
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$EBOX/USF.02   上游刺激因子
  V$HIFF/ARNT.01   AhR核易位蛋白同型二聚体
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,结合与NF-Y连接的ERSE
  V$BEL1/BEL1.01   Bel-1相似区(限定在慢病毒LTR中)
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$MYOD/MYOD.01   成肌细胞决定基因产物
  V$NEUR/NEUROD1.01   NEUROD1(β-2/E47二聚体)的DNA结合位点
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  家族/矩阵**   其他信息
V$HIFF/ARNT.01 AhR核易位蛋白同型二聚体
  V$VMYB/VMYB.02   v-Myb
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合位点
  V$MYOF/MYOGNF1.01   成肌蛋白/核因子1或相关因子
  V$SRFF/SRF.03   血清应答因子
  V$CP2F/CP2.01   CP2
  V$OAZF/ROAZ.01   大鼠C2H2 Zn指蛋白,参与嗅神经元分化
  V$AHRR/AHR.01   芳烃/二_英受体
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,结合与NF-Y连接的ERSE
  V$EGRF/NGFIC.01   神经生长因子诱导蛋白C
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$AP4R/AP4.02   激活蛋白4
  V$XBBF/MIF1.01   MIBP-1/RFX1复合物
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$PAX5/PAX5.03   PAX5配对域蛋白
  V$PAX5/PAX5.03   PAX5配对域蛋白
  V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$CP2F/CP2.01   CP2
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$AP2F/AP2.01   激活蛋白2
  家族/矩阵**   其他信息
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$SP1F/SP1.01   刺激蛋白1 SP1,遍在锌指转录因子
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$EGRF/EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$SP1F/SP1.01   刺激蛋白1 SP1,遍在锌指转录因子
  V$RCAT/CLTR_CAAT.01   哺乳动物C-型LTR CCAAT框
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$NF1F/NF1.01   核因子l
  V$PDX1/PDX1.01   Pdxl(IDX1/IPF1)胰和肠同源域TF
**匹配按照相应序列出现的顺序列出
hhyg3中的TFBS
从hhyg2中除去TFBS之后(3匹配)
  家族/矩阵**   其他信息
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
  V$VMYB/VMYB.02   v-Myb
**匹配按照相应序列出现的顺序列出
hHygro中的TFBS
从hHygro中除去TFBS之前(5匹配,不包括接头)
  家族/矩阵**   其他信息
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
  V$AREB/AREB6.04   AREB6(Atpla1调节元件结合因子6)
  V$VMYB/VMYB.02   v-Myb
V$CDEF/CDE.01   细胞周期依赖性元件,CDF-1结合位点(CDE/CHR串联元件调节细胞周期依赖性阻遏)
**匹配按照相应序列出现的顺序列出
hhyg4中的TFBS
从hHygro中除去TFBS之后(4匹配)
  家族/矩阵** 其他信息
  V$MINI/MUSCLE_INI.02 肌肉起始序列
  V$PAX5/PAX5.02 B-细胞特异性激活蛋白
  V$AREB/AREB6.04 AREB6(Atpla1调节元件结合因子6)
  V$VMYB/VMYB.02 v-Myb
**匹配按照相应序列出现的顺序列出
                        表20
                合成新霉素基因的序列
hneo中的TFBS
从hneo中除去TFBS之前(69匹配)
  家族/矩阵**   其他信息
  V$PCAT/CAAT.01   细胞和病毒CCAAT框
  V$ZFIA/ZID.01   具有相互作用域的锌指
V$AP1F/TCF11MAFG.01   TCF11/MafG异型二聚体,结合AP1位点亚类
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  家族/矩阵**   其他信息
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$SP1F/GC.01   GC框元件
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$CP2F/CP2.01   CP2
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
V$CREB/ATF6.02   激活转录因子6,b-zip家族成员,由ER应激诱导
V$RXRF/VDR_RXR.01   VDR/RXR维生素D受体RXR异型二聚体位点
  V$PCAT/CAAT.01   细胞和病毒CCAAT框
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$P53F/P53.01   肿瘤抑制基因p53
V$NEUR/NEUROD1.01   NEUROD1(β-2/F47二聚体)的DNA结合位点
  V$EBOX/USF.03   上游刺激因子
  V$MYOD/MYOD.02   成肌细胞决定因子
  V$NRSF/NRSE.01   神经限制性沉默元件
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$EBOX/MYCMAX.03   MYC-MAX结合位点
  V$HESF/HES1.01   果蝇hairy和断裂同源物1增强子(HES-1)
  V$NEUR/NEUROD1.01   NEUROD1(β-2/E47二聚体)的DNA结合
  家族/矩阵**   其他信息
  位点
  V$MYOD/MYOD.02   成肌细胞决定因子
  V$REBV/EBVR.01   Epstein-Barr病毒转录因子R
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$EGRF/WT1.01   Wilms肿瘤抑制物
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$NRSF/NRSF.01   神经元限制性沉默因子
  U$Pf1MI/PflMI   RE II-IP
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$MOKF/MOK2.02   核糖核蛋白结合的锌指蛋白MOK-2(人)
  V$AP2F/AP2.01   激活蛋白2
  V$AP1F/AP1FJ.01   激活蛋白1
  V$PAX5/PAX5.03   PAX5配对域蛋白
  V$EGRF/EGR3.01   早期生长应答基因3产物
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$PAX6/PAX4_PD.01   PAX4配对域结合位点
  V$VMYB/VMYB.02   v-Myb
  V$BEL1/BEL1.01   Bel-1相似区(限定在慢病毒LTR中)
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$EGRF/EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$ETSF/ETS1.01   c-Ets-1结合位点
  V$NRSF/NRSF.01   神经元限制性沉默因子
  家族/矩阵**   其他信息
  V$SP1F/SP1.01   刺激蛋白1 SP1,遍在锌指转录因子
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
  V$PAX5/PAX5.03   PAX5配对域蛋白
  V$GREF/ARE.01   雄激素受体结合位点
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  V$CLOX/CDP.01   cut样同源域蛋白
**匹配按照相应序列出现的顺序列出
hneo3中的TFBS
从hneo2中除去TFBS之后=从hneo3中除去TFBS之前(0匹配)
hneo4中的TFBS
从hneo3中除去TFBS之后=从hneo4中除去TFBS之前(7匹配)
  家族/矩阵**  其他信息
V$PAX5/PAX9.01 斑马鱼PAX9结合位点
  V$AARF/AARE.01  氨基酸应答元件,ATF4结合位点
  V$P53F/P53.02  肿瘤抑制基因p53(5半位点)
  V$AP1R/BACH2.01  Bach2结合的TRE
  V$NEUR/NEUROG.01  神经生成素1和3(ngn1/3)结合位点
V$CMYB/CMYB.01  c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
  V$HOXF/CRX.01  含有锥-杆同源框的转录因子/otx样同源框基因
**匹配按照相应序列出现的顺序列出
hneo5中的TFBS
从hneo4中除去TFBS之后(0匹配)
                        表21
                合成嘌呤霉素基因的序列
hpuro中的TFBS匹配
从hpuro中除去TFBS之前(68匹配)
  家族/矩阵**  其他信息
V$CDEF/CDE.01  细胞周期依赖性元件,CDF-1结合位点(CDE/CHR串联元件调节细胞周期依赖性阻遏)
V$PAX3/PAX3.01  Pax-3配对域蛋白,在胚胎发生中表达,突变与Waardenburg综合征有关
V$CREB/ATF6.02  激活转录因子6,b-zip家族成员,由ER应激诱导
  V$EBOR/XBP1.01  X-框-结合蛋白1
  V$P53F/P53.03  肿瘤抑制基因p53(3′半位点)
V$HESF/HES1.01  果蝇hairy和断裂同源物1增强子(HES-1)
  V$MTF1/MTF-1.01  金属转录因子1,MRE
  V$EKLF/EKLF.01  红细胞krueppel样因子(EKLF)
V$EGRF/EGR1.01  Egr-1/Krox-24/NGFI-A即时早期基因产物
V$EBOX/ATF6.01  b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
V$EBOX/ATF6.01  b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
V$CMYB/CMYB.01  c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
  V$AHRR/AHRARNT.01  芳烃受体/Arnt异型二聚体
  V$EBOX/MYCMAX.03  MYC-MAX结合位点
  V$RORA/RORA2.01  RAR-相关孤儿受体α2
  V$EBOX/MYCMAX.03  MYC-MAX结合位点
  V$HIFF/HIF1.02  低氧诱导因子,bHLH/PAS蛋白家族
  V$EGRF/EGR3.01  早期生长应答基因3产物
  家族/矩阵**   其他信息
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$HAML/AML3.01   Runt-相关转录因子2/CBFA1(核心-结合因子,runt域,α亚基1)
  V$PAX5/PAX5.03   PAX5配对域蛋白
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
V$OAZF/ROAZ.01   大鼠C2H2 Zn指蛋白,参与嗅神经元分化
  V$GABF/GAGA.01   GAGA-框
  V$EBOX/MYCMAX.03   MYC-MAX结合位点
  V$MYOD/MYF5.01   Myf5生肌bHLH蛋白
  V$AP4R/TAL1BETAE47.01   Tal-1β/E47异型二聚体
  V$NEUR/NEUROG.01   神经生成素1和3(ngn1/3)结合位点
V$HAND/HAND2_E12.01   bHLH转录因子HAND2(Thing2)和E12的异型二聚体
V$MAZF/MAZR.01 MYC-结合的锌指蛋白相关转录因子
V$ZBPF/ZNF202.01   转录阻遏蛋白,与主要发现在参与脂质代谢的基因上的元件结合
  V$SP1F/SP1.01   刺激蛋白1 SP1,遍在锌指转录因子
  V$AP2F/AP2.01   激活蛋白2
  V$RREB/RREB1.01   Ras-应答元件结合蛋白1
  V$XBBF/MIF1.01   MIBP-1/RFX1复合物
  V$CREB/TAXCREB.01   Tax/CREB复合物
  V$EGRF/EGR3.01   早期生长应答基因3产物
V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$MINI/MUSCLE_INI.02   肌肉起始序列
家族/矩阵** 其他信息
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$DEAF/NUDR.01   NUDR(核DEAF-1相关转录调节蛋白)
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$EGRF/EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$ETSF/ETS1.01   c-Ets-1结合位点
  V$STAT/STAT1.01   信号转导及转录激活蛋白1
V$BCL6/BCL6.01   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
V$ZF5F/ZF5.01 锌指/POZ域转录因子
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  V$EGRF/EGR3.01   早期生长应答基因3产物
V$CREB/ATF6.02   激活转录因子6,b-zip家族成员,由ER应激诱导
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$EBOR/XBP1.01   X-框-结合蛋白1
  V$DEAF/NUDR.01   NUDR(核DEAF-1相关转录调节蛋白)
V$RXRF/VDR_RXR.01   VDR/RXR维生素D受体RXR异型二聚体位点
  V$AP2F/AP2.01   激活蛋白2
  V$REBV/EBVR.01   Epstein-Barr病毒转录因子R
V$ZBPF/ZF9.01   具有3Krueppel-型锌指的核心启动子-结合蛋白(CPBP)
V$MYOD/LMO2COM.01   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点1
  V$AREB/AREB6.03   AREB6(Atpla1调节元件结合因子6)
V$RXRF/FXRE.01   类法尼醇X-激活受体(RXR/FXR二聚体)
  V$AHRR/AHR.01   芳烃/二_英受体
**匹配按照相应序列出现的顺序列出
hpuro1中的TFBS匹配
从hpuro中除去TFBS之后=从hpuro1除去TFBS之前(4匹配)
  家族/矩阵**   其他信息
  V$NEUR/NEUROG.01   神经生成素1和3(ngn1/3)结合位点
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
  V$REBV/EBVR.01   Epstein-Barr病毒转录因子R
  V$AHRR/AHR.01   芳烃/二_英受体
**匹配按照相应序列出现的顺序列出
hpuro2中的TFBS匹配
从hpuro1中除去TFBS之后(2匹配)
  家族/矩阵**   其他信息
  V$NEUR/NEUROG.01   神经生成素1和3(ngn1/3)结合位点
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
**匹配按照相应序列出现的顺序列出
                        实施例7
                合成萤火虫萤光素酶基因设计概述
TF结合位点和检索参数
TF结合位点来自TF结合位点文库(“矩阵家族文库”),该文库是GEMS Launcher软件包的组成部分。各TF结合位点(“矩阵”)属于矩阵家族,其中功能相似的矩阵合在一起,用MatInspectorprofessional(检索程序)除去冗余匹配。检索局限于脊椎动物TF结合位点。通过矩阵家族进行检索,即结果仅表明各位点的家族最佳匹配。MatInspector缺省参数用作核心和矩阵相似性取值(核心相似性=0.75,矩阵相似性=优化)。
                                 表22
                              Luc基因命名
合成luc基因(形式A和B)
  序列* 描述   矩阵文库
  Luc 野生型基因   (未应用)
  luc+ 来自Promega公司的pGL3载体中的改良基因   (未应用)
  hluc+ 来自Promega公司的pGL3(R2.1)-基础中的改良基因   (未应用)
密码子优化策略A
  hluc+ver2A1 密码子优化luc+(策略A)   Ver 3.0,2002年11月
  hluc+ver2A2 第1次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2A3 第2次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2A4 第3次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2A5 第4次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2A6 第5次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2A7 第6次除去不需要的序列匹配   Ver 3.1.1,2003年4月
  hluc+ver2A8 除去BglI(RE)位点   Ver 3.1.1,2003年4月
密码子优化策略B
  hluc+ver2B1 密码子优化luc+(策略B)   Ver 3.0,2002年11月
  hluc+ver2B2 第1次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2B3 第2次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2B4 第3次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2B5 第4次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2B6 第5次除去不需要的序列匹配   Ver 3.0,2002年11月
  hluc+ver2B7 第6次除去不需要的序列匹配   Ver 3.1.1,2003年4月
  hluc+ver2B8 除去SmaI(RE),Ptx1(TF)位点   Ver 3.1.1,2003年4月
  hluc+ver2B9 除去另外的CpG序列   Ver 3.1.1,2003年4月
  hluc+ver2B10 除去BglI(RE)位点   Ver 3.1.1,2003年4月
*序列名称是指可读框,RE=限制酶识别序列。
                                   表23
                          合成Luc基因的序列(形式A)
hluc+ver2A1中的TFBS
从hluc+ver2A1中除去TFBS之前(110匹配)
  家族/矩阵**   其他信息
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$GREF/PRE.01   孕酮受体结合位点
  V$MAZF/MAZR.01   MYC-结合的锌指蛋白相关转录因子
  V$SP1F/SP1.01   刺激蛋白1 SP1,遍在锌指转录因子
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
  V$SF1F/SF1.01   SF1类固醇生成因子1
  V$EGRF/NGFIC.01   神经生长因子诱导蛋白C
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$EGRF/EGR2.01   Egr-2/Krox-20早期生长应答基因产物
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$HESF/HES1.01 果蝇hairy和断裂同源物1增强子(HES-1)
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$PAX5/PAX5.02   B-细胞特异性激活蛋白
V$HAML/AML3.01   Runt-相关转录因子2/CBFA1(核心-结合因子,runt域,α亚基1)
  V$GREF/PRE.01   孕酮受体结合位点
  V$P53F/P53.01   肿瘤抑制基因p53
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$NF1F/NF1.01   核因子1
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$REBV/EBVR.01   Epstein-Barr病毒转录因子R
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$PBXC/PBX1_MEIS1.01   Pbx1/Meis1异型二聚体的结合位点
  家族/矩阵**   其他信息
  V$XSEC/STAF.01   Se-CystRNA基因转录激活因子
  V$COMP/COMP1.01   COMP1,与多组分复合物中的生肌蛋白合作
  V$MYOF/MYOGNF1.01   成肌蛋白/核因子1或相关因子
  V$NEUR/NEUROD1.01   NEUROD1(β-2/E47二聚体)的DNA结合位点
V$MYOD/MYOD.02 成肌细胞决定因子
  V$AP2F/AP2.01   激活蛋白2
  V$EVI1/EVI1.02   亲嗜性病毒整合位点1编码的因子
  V$SMAD/SMAD4.01   Smad4转录因子,参与TGF-β信号传导
  V$MYOD/MYF5.01   Myf5生肌bHLH蛋白
  V$HESF/HES1.01   果蝇hairy和断裂同源物1增强子(HES-1)
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$SP1F/GC.01   GC框元件
  V$MAZF/MAZR.01   MYC-结合的锌指蛋白相关转录因子
  V$RREB/RREB1.01   Ras-应答元件结合蛋白1
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$YY1F/YY1.01   Yin和Yang 1
  V$ETSF/GABP.01   GABP:GA结合蛋白
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$ETSF/ELK1.02   Elk-1
  V$EBOX/MYCMAX.03   MYC-MAX结合位点
V$E4FF/E4F.01   GLI-Krueppel-相关转录因子,腺病毒E4启动子的调节物
  V$XBBF/RFX1.01   X-框结合蛋白RFX1
  V$EVI1/EVI1.06   亲嗜性病毒整合位点1编码的因子
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$NF1F/NF1.01   核因子1
  家族/矩阵**   其他信息
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合位点
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$HESF/HES1.01   果蝇hairy和断裂同源物1增强子(HES-1)
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$ETSF/GABP.01   GABP:GA结合蛋白
  V$MYOD/MYOD.02   成肌细胞决定因子
  V$XSEC/STAF.01   Se-Cys tRNA基因转录激活因子
  V$OAZF/ROAZ.01   大鼠C2H2Zn指蛋白,参与嗅神经元分化
  V$AP2F/AP2.01   激活蛋白2
V$PAX3/PAX3.01   Pax-3配对域蛋白,在胚胎发生中表达,突变与Waardenburg综合征有关
  V$AP2F/AP2.01   激活蛋白2
  V$MTF1/MTF-1.01   金属转录因子1,MRE
V$SF1F/FTF.01   α(1)-甲胎蛋白转录因子(FTF),肝受体同源物-1(LHR-1)
  V$SMAD/SMAD4.01   Smad4转录因子,参与TGF-β信号传导
  V$NFKB/NFKAPPAB.01   NF-κB
  V$EKLF/EKLF.01   红细胞krueppel样因子(EKLF)
  V$CREB/TAXCREB.01   Tax/CREB复合物
  V$E2FF/E2F.03   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  V$CP2F/CP2.01   CP2
  V$AHRR/AHRARNT.01   芳烃受体/Arnt异型二聚体
  V$EGRF/EGR2.01   Egr-2/Krox-20早期生长应答基因产物
  V$ZF5F/ZF5.01   锌指/POZ域转录因子
  V$EBOR/XBP1.01   X-框-结合蛋白1
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
  V$AP2F/AP2.01   激活蛋白2
  V$EGRF/NGFIC.01   神经生长因子诱导蛋白C
  V$PCAT/ACAAT.01   禽类C-型LTRCCAAT框
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合位点
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  家族/矩阵**   其他信息
V$GREF/GRE.01   糖皮质激素受体,C2C2锌指蛋白结合糖皮质激素依赖于GRE
  V$NEUR/NEUROD1.01   NEUROD1(β-2/E47二聚体)的DNA结合位点
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$EGRF/EGR3.01   早期生长应答基因3产物
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$AP2F/AP2.01   激活蛋白2
  V$HIFF/HIF1.02   低氧诱导因子,bHLH/PAS蛋白家族
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$ZFIA/ZID.01   具有相互作用域的锌指
  V$SMAD/SMAD4.01   Smad4转录因子,参与TGF-β信号传导
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$EBOX/MYCMAX.01   c-Myc/Max异型二聚体
  V$EBOX/USF.03   上游刺激因子
  V$EGRF/EGR1.01   Egr-1/Krox-24/NGFI-A即时早期基因产物
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$NF1F/NF1.01   核因子1
  V$SF1F/SF1.01   SF1类固醇生成因子1
**匹配按照相应序列出现的顺序列出
hluc+ver2A3中的TFBS
从hluc+ver2A2中除去TFBS之后=从hluc+ver2A3中除去TFBS之前(8匹配)
家族/矩阵** 其他信息
V$EGRF/EGR2.01 Egr-2/Krox-20早期生长应答基因产物
V$HAML/AML3.01 Runt-相关转录因子2/CBFA1(核心-结合因子,runt域,α亚基1)
V$MYOF/MYOGNF1.01 成肌蛋白/核因子1或相关因子
V$NF1F/NF1.01 核因子1
V$ETSF/GABP.01 GABP:GA结合蛋白
V$NFKB/NFKAPPAB.01 NF-κB
V$EKLF/EKLF.01 红细胞krueppel样因子(EKLF)
V$FKHD/XFD3.01 非洲蟾蜍fbrk head域因子3
**匹配按照相应序列出现的顺序列出
hluc+ver2A6中的TFBS
从Hluc+ver2A5中除去TFBS之后(2匹配)
家族/矩阵** 其他信息
V$HAML/AML3.01 Runt-相关转录因子2/CBFA1(核心-结合因子,runt域,α亚基1)
V$FKHD/XFD3.01 非洲蟾蜍fork head域因子3
**匹配按照相应序列出现的顺序列出
hluc+ver2A6中的TFBS
从hluc+ver2A6中除去TFBS之前(4匹配)
家族/矩阵** 其他信息
V$PAX5/PAK5.03 PAX5配对域蛋白
V$LEFF/LEF1.02 TCF/LEF-1,涉及Wnt信号转导途径
V$IRF/IRF7.01 干扰素调节因子7(IRF-7)
V$FKHD/XFD3.01 非洲蟾蜍fbrk head域因子3
**匹配按照相应序列出现的顺序列出
hluc+ver2A7中的TFBS
从hluc+ver2A6中除去TFBS之后=从hluc+ver2A7中除去TFBS之前(1匹配)
  家族/矩阵 其他信息
  V$FKHD/XFD3.01 非洲蟾蜍fork head域因子3
hluc+ver2A8中的TFBS
从hluc+ver2A7中除去TFBS之后(1匹配)
  家族/矩阵   其他信息
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
                           表24
                  合成Luc基因的序列(形式B)
hluc+ver2B1中的TFBS
从hluc+ver2B1中除去TFBS之前(187匹配)
  家族/矩阵**   其他信息
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$OCT1/OCT1.04   八聚体-结合因子1
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
  V$BARB/BARBIE.01   巴比妥酸诱导元件
  V$TBPF/TATA.01   细胞和病毒TATA框元件
  V$GATA/GATA.01   GATA结合位点(共有序列)
  V$AP4R/AP4.01   激活蛋白4
  V$HEN1/HEN1.02   HEN1
  V$SRFF/SRF.01   血清应答因子
  V$PARF/DBP.01   白蛋白D-框结合蛋白
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$EVI1/EVI1.04   亲嗜性病毒整合位点1编码的因子
  家族/矩阵**  其他信息
  V$GFI1/GfI1B.01  生长因子非依赖性1锌指蛋白Gfi-1B
  V$RBPF/RBPJK.01  哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
  V$TBPF/TATA.02  哺乳动物C-型LTRTATA框
  V$AP4R/TAL1ALPHAE47.01  Tal-1α/E47异型二聚体
  V$SRFF/SRF.01  血清应答因子
  V$OCTP/OCT1P.01  八聚体-结合因子1,POU特异性域
  V$BRNF/BRN2.01  POU因子Brn-2(N-Oct 3)
  V$CREB/E4BP4.01  E4BP4,bZIP域,转录阻遏蛋白
  V$VBPF/VBP.01  PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$EVI1/EVI1.04  亲嗜性病毒整合位点1编码的因子
  V$CLOX/CDPCR3.01  cut样同源域蛋白
  V$GFI1/GfI1B.01  生长因子非依赖性1锌指蛋白Gfi-1B
V$GATA/LMO2COM.02  Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点2
  V$SRFF/SRF.01  血清应答因子
  V$HOXT/MEIS1_HOXA9.01  同源框蛋白MEIS1结合位点
  V$OCT1/OCT1.03  八聚体-结合因子1
V$GFI1/GFI1.01  生长因子非依赖性1锌指蛋白作为转录阻遏蛋白
V$HNF6/HNF6.01  肝富集的Cut-同源域转录因子HNF6(ONECUT)
  V$HAML/AML1.01  侏儒因子AML-1
  V$GREF/PRE.01  孕酮受体结合位点
  V$STAT/STAT5.01  STAT5:信号转导及转录激活蛋白5
  V$TBPF/TATA.01  细胞和病毒TATA框元件
  V$CLOX/CDP.01  cut样同源域蛋白
  V$FKHD/HFH8.01  HNF-3/Fkh同源物-8
  V$FAST/FAST1.01  FAST-1 SMAD相互作用蛋白
  V$GFI1/GfI1B.01  生长因子非依赖性1锌指蛋白Gfi-1B
  V$CART/CART1.01  Cart-1(软骨发育同源蛋白1)
  V$HMTB/MTBF.01  肌肉特异性Mt结合位点
  V$TBPF/TATA.01  细胞和病毒TATA框元件
  家族/矩阵**   其他信息
  V$FKHD/XFD2.01   非洲蟾蜍fork head域因子2
  V$BRNF/BRN2.01   POU因子Brn-2(N-Oct 3)
  V$MEF2/AMEF2.01   肌细胞增强子因子
  V$BRNF/BRN2.01   POU因子Brn-2(N-Oct 3)
  V$BEL1/BEL1.01   Bel-1相似区(限定在慢病毒LTR中)
  V$NOLF/OLF1.01   嗅神经元特异性因子
  V$OCT1/OCT1.06   八聚体-结合因子1
  V$NFKB/NFKAPPAB.02   NF-κB
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$HEAT/HSF1.01   热激因子1
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
  V$PIT1/PIT1.01   Pit1,GHF-1垂体特异性pou域转录因子
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
V$HNF6/HNF6.01   肝富集的Cut-同源域转录因子HNF6(ONECUT)
  V$CLOX/CLOX.01   Clox
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$GATA/GATA1.02   GATA-结合因子1
  V$FKHD/FREAC4.01   Fork head相关激活物-4
V$E4FF/E4F.01   GLI-Krueppel-相关转录因子,腺病毒E4启动子的调节物
  V$PDX1/ISL1.01   胰和肠lim-同源域因子
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
V$GFI1/GFI1.01   生长因子非依赖性1锌指蛋白作为转录阻遏蛋白
  V$IRFF/IRF3.01   干扰素调节因子3(IRF-3)
  V$BARB/BARBIE.01   巴比妥酸诱导元件
  家族/矩阵** 其他信息
  V$PBXF/PBX1.01 同源域因子Pbx-1
  V$EVI1/EVI1.02 亲嗜性病毒整合位点1编码的因子
  V$GATA/GATA2.01 GATA-结合因子2
  V$BRNF/BRN2.01 POU因子Brn-2(N-Oct 3)
  V$PARF/DBP.01 白蛋白D-框结合蛋白
  V$BRNF/BRN3.01 POU转录因子Brn-3
  V$ZBPF/ZBP89.01 锌指转录因子ZBP-89
  V$CREB/TAXCREB.02 Tax/CREB复合物
  V$GREF/PRE.01 孕酮受体结合位点
  V$RBPF/RBPJK.01 哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
  V$GATA/GATA3.02 GATA-结合因子3
  V$STAT/STAT.01 信号转导及转录激活蛋白
  V$IKRS/IK2.01 Ikaros 2,淋巴细胞分化潜在调节物
  V$SRFF/SRF.01 血清应答因子
  V$SEF1/SEF1.01 SEF1结合位点
  V$HAML/AML1.01 侏儒因子AML-1
  V$MOKF/MOK2.02 核糖核蛋白结合的锌指蛋白MOK-2(人)
  V$FKHD/FREAC2.01 Fork head相关激活物-2
  V$HMTB/MTBF.01 肌肉特异性Mt结合位点
V$GFI1/GFI1.01 生长因子非依赖性1锌指蛋白作为转录阻遏蛋白
  V$ECAT/NFY.03 核因子Y(Y-框结合因子)
  V$HOXT/MEIS1_HOXA9.01 同源框蛋白MEIS1结合位点
  V$PCAT/ACAAT.01 禽类C-型LTRCCAAT框
V$HNF6/HNF6.01 肝富集的Cut-同源域转录因子HNF6(ONECUT)
  V$CLOX/CLOX.01 Clox
  V$GATA/GATA3.02 GATA-结合因子3
  V$AREB/AREB6.04 AREB6(Atpla1调节元件结合因子6)
  V$GATA/GATA3.02 GATA-结合因子3
  V$FKHD/HNF3B.01 肝细胞核因子3β
  V$IRFF/IRF1.01 干扰素调节因子1
  家族/矩阵**   其他信息
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$PBXF/PBX1.01   同源域因子Pbx-1
  V$ECAT/NFY.03   核因子Y(Y-框结合因子)
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合蛋白
  V$CLOX/CDP.02   转录阻遏蛋白CDP
  V$HOXT/MEIS1_HOXA9.01   同源框蛋白MEIS1结合位点
  V$HOXF/HOXA9.01   脊椎动物同源框因子HOX-簇成员
  V$GATA/GATA.01   GATA结合位点(共有序列)
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$GATA/GATA3.02   GATA-结合因子3
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
  V$OCT1/OCT1.02   八聚体-结合因子1
  V$MAZF/MAZR.01   MYC-结合的锌指蛋白相关转录因子
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
  V$GATA/GATA3.02   GATA-结合因子3
  V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
  V$CLOX/CDPCR3.01 cut样同源域蛋白
  V$AP1F/VMAF.01   v-Maf
  V$AP4R/TAL1ALPHAE47.01   Tal-1α/E47异型二聚体
  V$PAX8/PAX8.01   PAX 2/5/8结合位点
  V$BRAC/BRACH.01   短尾
  V$GATA/GATA1.02   GATA-结合因子1
  V$RREB/RREB1.01   Ras-应答元件结合蛋白1
  V$MZF1/MZF1.01   MZF1
  V$MOKF/MOK2.02   核糖核蛋白结合的锌指蛋白MOK-2(人)
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$LTUP/TAACC.01   慢病毒TATA上游元件
V$AP4R/TH1E47.01   Thing1/E47异型二聚体,TH1 bHLH在各种胚胎组织中的成员特异性表达
  家族/矩阵**   其他信息
  V$XSEC/STAF.01   Se-Cys tRNA基因转录激活因子
  V$IKRS/IK3.01   Ikaros 3,淋巴细胞分化潜在调节物
  V$AP1F/AP1.01   AP1结合位点
  V$MAZF/MAZ.01   Myc结合的锌指蛋白(MAZ)
  V$MZF1/MZF1.01   MZF1
  V$CLOX/CDPCR3.01   cut样同源域蛋白
  V$P53F/P53.01   肿瘤抑制基因p53
  V$SMAD/SMAD3.01   Smad3转录因子,参与TGF-β信号传导
  V$HMTB/MTBF.01   肌肉特异性Mt结合位点
  V$OCT1/OCT1.03   八聚体-结合因子1
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
  V$PIT1/PIT1.01   Pit1,GHF-1垂体特异性pou域转录因子
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
  V$HOXF/HOX1-3.01   Hox-1.3,脊椎动物同源框蛋白
  V$PBXF/PBX1.01   同源域因子Pbx-1
  V$ECAT/NFY.03   核因子Y(Y-框结合因子)
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合蛋白
  V$CLOX/CDP.02   转录阻遏蛋白CDP
V$HOXT/MEIS1_HOXA9.01 同源框蛋白MEIS1结合位点
  V$HOXF/HOXA9.01   脊椎动物同源框因子HOX-簇成员
  V$GATA/GATA1.02   GATA-结合因子1
  V$PCAT/ACAAT.01   禽类C-型LTR CCAAT框
  V$XSEC/STAF.01   Se-Cys tRNA基因转录激活因子
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
  V$CLOX/CDP.01   cut样同源域蛋白
  V$FAST/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$ECAT/NFY.01   核因子Y(Y-框结合因子)
  V$MEF2/MMEF2.01   肌细胞增强子因子
  V$TBPF/TATA.02   哺乳动物C-型LTR TATA框
  V$FAST/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$LTUP/TAACC.01   慢病毒TATA上游元件
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  家族/矩阵**   其他信息
  V$BRNF/BRN2.01   POU因子Brn-2(N-Oct 3)
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$HEN1/HEN1.01   HEN1
  V$BEL1/BEL1.01   Bel-1相似区(限定在慢病毒LTR中)
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$BRNF/BRN2.01   POU因子Brn-2(N-Oct 3)
  V$NFKB/NFKAPPAB.01   NF-κB
  V$HAML/AML1.01   侏儒因子AML-1
  V$ZFIA/ZID.01   具有相互作用域的锌指
  V$XSEC/STAF.02   Se-Cys tRNA基因转录激活因子
  V$IKRS/IK1.01   Ikaros 1,淋巴细胞分化潜在调节物
  V$FAST/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$BEL1/BEL1.01   Bel-1相似区(限定在慢病毒LTR中)
  V$EGRF/WT1.01   Wilms肿瘤抑制物
  V$MAZF/MAZR.01   MYC-结合的锌指蛋白相关转录因子
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
  V$ZBPF/ZBP89.01   锌指转录因子ZBP-89
  V$SP1F/GC.01   GC框元件
  V$RREB/RREB1.01   Ras-应答元件结合蛋白1
  V$MOKF/MOK2.01   核糖核蛋白结合的锌指蛋白MOK-2(小鼠)
  V$MEIS/MEIS1.01   单体Meis1同源域蛋白的结合位点
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
  V$GATA/GATA3.02   GATA-结合因子3
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
  V$MAZF/MAZR.01   MYC-结合的锌指蛋白相关转录因子
  家族/矩阵**  其他信息
  V$MZF1/MZF1.01  MZF1
  V$PDX1/PDX1.01  Pdx1(IDX1/IPF1)胰和肠同源域TF
**匹配按照相应序列出现的顺序列出
hluc+ver2B3中的TFBS
从hluc+ver2B2中除去TFBS之后=从hluc+ver2B3中除去TFBS之前(35匹配)
  家族/矩阵**  其他信息
  V$OCT1/OCT1.04  八聚体-结合因子1
  V$BARB/BARBIE.01  巴比妥酸诱导元件
  V$NFKB/NFKAPPAB.02  NF-κB
  V$OCTP/OCT1P.01  八聚体-结合因子1,POU特异性域
  V$PIT1/PIT1.01  Pit1,GHF-1垂体特异性pou域转录因子
  V$HOXF/PTX1.01  垂体同源框1(Ptx1)
  V$FKHD/FREAC4.01  Fork head相关激活物-4
V$EFF/E4F.01  GLI-Krueppel-相关转录因子,腺病毒E4启动子的调节物
  V$EVI1/EVI1.02  亲嗜性病毒整合位点1编码的因子
  V$GATA/GATA2.01  GATA-结合因子2
  V$GREF/PRE.01  孕酮受体结合位点
  V$RBPF/RBPJK.01  哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
  V$STAT/STAT.01  信号转导及转录激活蛋白
  V$IKRS/IK2.01  Ikaros 2,淋巴细胞分化潜在调节物
  V$FKHD/FREAC2.01  Fork head相关激活物-2
  V$SRFF/SRF.01  血清应答因子
  V$GREF/PRE.01  孕酮受体结合位点
  V$CLOX/CDPCR3.01  cut样同源域蛋白
  V$AP4R/TAL1ALPHAE47.01  Tal-1α/E47异型二聚体
  V$GATA/GATA1.02  GATA-结合因子1
  V$FKHD/XFD3.01  非洲蟾蜍fork head域因子3
  家族/矩阵**   其他信息
  V$PBXF/PBX1.01   同源域因子Pbx-1
  V$ECAT/NFY.03   核因子Y(Y-框结合因子)
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合蛋白
  V$CLOX/CDP.02   转录阻遏蛋白CDP
  V$HOXT/MEIS1_HOXA9.01   同源框蛋白MEIS1结合位点
  V$HOXF/HOXA9.01   脊椎动物同源框因子HOX-簇成员
  V$GATA/GATA1.02   GATA-结合因子1
  V$MINI/MUSCLE_INI.01   肌肉起始序列
  V$CLOX/CDP.01   cut样同源域蛋白
  V$BRNF/BRN2.01   POU因子Brn-2(N-Oct 3)
  V$NFKB/NFKAPPAB.01   NF-κB
  V$ZFIA/ZID.01   具有相互作用域的锌指
V$BCL6/BCL6.02   POZ/锌指蛋白,转录阻遏蛋白,易位,在弥散性大细胞淋巴瘤中观察到
V$HOXF/CRX.01   含有锥-杆同源框的转录因子/otx样同源框基因
**匹配按照相应序列出现的顺序列出
hluc+ver2B6中的TFBS
从hluc+ver2B5中除去TFBS之后(2匹配)
  家族/矩阵**   其他信息
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
**匹配按照相应序列出现的顺序列出
hluc+ver2B6中的TFBS
从hluc+ver2B6中除去TFBS之前(6匹配)
  家族/矩阵**   其他信息
  V$PAX6/PAX4_PD.01   PAX4配对域结合位点
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
  V$PAX6/PAX6.02   PAX6配对域和同源域是该位点结合所需的
  V$PAX5/PAX5.03   PAX5配对域蛋白
  V$IRFF/IRF3.01   干扰素调节因子3(IRF-3)
**匹配按照相应序列出现的顺序列出
hluc+ver2B7中的TFBS
从hluc+ver2B6中除去TFBS之后=从hluc+ver2B7中除去TFBS之前(2匹配)
  家族/矩阵**   其他信息
  V$HOXF/PTX1.01   垂体同源框1(Ptx1)
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
**匹配按照相应序列出现的顺序列出
hluc+ver2B8中的TFBS
从hluc+ver2B7中除去TFBS之后=从hluc+ver2B8中除去TFBS之前(1匹配)
  家族/矩阵   其他信息
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
hluc+ver2B9中的TFBS
从hluc+ver2B8中除去TFBS之后=从hluc+ver2B9中除去TFBS之前(1匹配)
  家族/矩阵   其他信息
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
hluc+ver2B10中的TFBS
从hluc+Ver2B9中除去TFBS之后(1匹配)
  家族/矩阵   其他信息
  V$FKHD/XFD3.01   非洲蟾蜍fork head域因子3
                     实施例8
                  pGL4序列设计概述
图2表明pGLA载体的设计方案。pGL3的部分载体骨架包含bla基因和bla与多克隆区之间的序列,但是不含第二可读框,对其进行修饰,得到pGL4。pGL4包含位于NotI和SpeI位点之间的氨苄青霉素抗性基因(其序列经过修饰除去调节序列,但是没有为哺乳动物表达而优化密码子(bla-1-bla-5))和SpeI-NcoI片段(其包含多克隆区和翻译陷阱(translation trap))。翻译陷阱包含约60个核苷酸,在各读框中具有至少两个终止密码子。来自亲代载体pGL4-基础-5F2G-2的SpeI-NcoI片段经过修饰减少了不需要的调节序列(MCS-1至MCS-4;SEQ ID NO:76-79)。所得序列之一即MCS-4与修饰的氨苄青霉素抗性基因bla-5(SEQ ID NO:84)结合,产生pGL4B-4NN(SEQ ID NO:95)。pGL4B-4NN被进一步修饰(pGL4-NN1-3;SEQ ID NO:96-98)。为了确定SpeI-NcoI片段中附加polyA序列是否会进一步减少从载体骨架中进行表达,将不同polyA序列插入其中。例如,pGL4NN-Blue Heron包括在SpeI-NcoI片段中的c-mos polyA序列。然而,除去polyA序列中的调节序列可改变二级结构,因而改变这些序列的功能。
在一个载体中,修饰来自pGL3的SpeI-NcoI片段(SpeI-NcoI开始的ver 2;SEQ ID NO:48),除去一个转录因子结合位点和一个限制酶识别位点,并改变多克隆区,得到SpeI-NcoI ver2(SEQ ID NO:49)。
TF结合位点和检索参数
各TF结合位点(“矩阵”)属于矩阵家族,其中功能相似的矩阵合在一起,用MatInspector professional(检索程序)除去冗余匹配。检索局限于脊椎动物TF结合位点。通过矩阵家族进行检索,即结果仅表明各位点的家族最佳匹配。MatInspector缺省参数用作核心和矩阵相似性取值(核心相似性=0.75,矩阵相似性=优化),除了序列MCS-1(核心相似性=1.00,矩阵相似性=优化)之外。
                                 表25
                             设计序列的描述
pGL4序列
  序列  描述   矩阵文库
 具有MCS、翻译陷阱的SpeI-NcoI片段
  MCS-1  SpeI-NcoI,来自pGL4-基础-5F2G-2   Ver 2.2,2001年9月
  MCS-2  第1次除去不需要的序列匹配   Ver 2.2,2001年9月
  MCS-3  第2次除去不需要的序列匹配   Ver 2.2,2001年9月
  MCS-4  第3次除去不需要的序列匹配   Ver 2.3,2001年2月
 具有bla基因的NotI-SpeI片段
  Bla  β-内酰胺酶基因,来自pGL3载体
  bla-1*  添加SacII(RE),除去BsmAI(RE)位点(*)   Ver 2.2,2001年9月
  bla-2*  第1次除去不需要的序列匹配   Ver 2.3,2001年2月
  bla-3*  第2次除去不需要的序列匹配   Ver 2.3,2001年2月
  bla-4*  第3次除去不需要的序列匹配   Ver 2.3,2001年2月
  bla-5*  第4次除去不需要的序列匹配   Ver 2.3,2001年2月
 具有bla、翻译陷阱、MCS的NotI-NcoI片段
  pGL4B-4NN  bla-5和MCS-4部分的组合   Ver 2.4,2002年5月
  pGL4B-4NN1  第1次除去不需要的序列匹配   Ver 2.4,2002年5月
  pGL4B-4NN2  第2次除去不需要的序列匹配   Ver 2.4,2002年5月
  pGL4B-4NN3  除去CEBP(TF)位点后的第3版   Ver 2.4,2002年5月
 具有翻译陷阱、polyA、MCS的SpeI-NcoI片段
  SpeI-NcoI-Ver2-start  现有的MCS被新的MCS取代   Ver 4.0,2003年11月
  SpeI-NcoI-Ver2  第1次除去不需要的序列匹配   Ver 4.0,2003年11月
(*)Bla密码子使用没有为在哺乳动物细胞中表达而优化。当引入变化以除去不需要的序列元件时,避免低使用大肠杆菌密码子。
                            表26
                pGL4中合成SeI-NcoI片段的序列
MCS-1中的TFBS
从MCS-1中除去TFBS之前(14匹配)
  家族名称/矩阵**  其他信息
V$PAX3/PPX3.01  Pax-3配对域蛋白,在胚胎发生中表达,突变,与Waardenburg综合征有关
  V$GATA/GATA.01  GATA结合位点(共有序列)
  V$NKXH/NKX31.01  前列腺特异性同源域蛋白NKX3.1
  V$CREB/E4BP4.01  E4BP4,bZIP域,转录阻遏蛋白
  V$BRN2/BRN2.01  POU因子Brn-2(N-Oct 3)
  V$CREB/E4BP4.01  E4BP4,bZIP域,转录阻遏蛋白
  V$NKXH/NKX31.01  前列腺特异性同源域蛋白NKX3.1
  V$ZFIA/ZID.01  具有相互作用域的锌指
  V$CP2F/CP2.01  CP2
  V$BRAC/BRACH.01  短尾
  V$PAX6/PAX6.01  Pax-6配对域蛋白
  V$NKXH/NKX31.01  前列腺特异性同源域蛋白NKX3.1
  V$TEAF/TEF1.01  TEF-1相关肌肉因子
  V$ETSF/ELK1.02  Elk-1
**匹配按照相应序列出现的顺序列出
MCS-2中的TFBS
从MCS-1中除去TFBS之后=从MCS-2中除去TFBS之前(12匹配)
  家族名称/矩阵**   其他信息
  V$GATA/GATA.01   GATA结合位点(共有序列)
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$TBPF/ATATA.01   禽类C-型LTR TATA框
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$BRN2/BRN2.01   POU因子Brn-2(N-Oct 3)
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$TBPF/ATATA.01   禽类C-型LTRTATA框
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$PAX6/PAX6.01   Pax-6配对域蛋白
  V$PAX8/PAX8.01   PAX 2/5/8结合位点
V$PAX1/PAX1.01   Pax1配对域蛋白,在小鼠胚胎的发育脊柱中表达
**匹配按照相应序列出现的顺序列出
MCS-3中的TFBS
从MCS-2中除去TFBS之后=从MCS-4中除去TFBS之前(0匹配)
MCS-4中的TFBS
从MCS-3中除去TFBS之后(0匹配)
                        表27
            pGL4中合成NotI-SpeI片段的序列
bla-1中的TFBS
从bla-1中除去TFBS之前(94匹配)
  家族名称/矩阵**  其他信息
  V$GATA/GATA1.02  GATA-结合因子1
  V$HOXF/HOX1-3.01  Hox-1.3,脊椎动物同源框蛋白
  V$TBPF/ATATA.01  禽类C-型LTRTATA框
  V$ETSF/NRF2.01  核呼吸因子2
  V$OCTP/OCT1P.01  八聚体-结合因子1,POU特异性域
  V$ETSF/ELK1.02  Elk-1
  V$GKLF/GKLF.01  肠富含的Krueppel样因子
V$E2FF/E2F.02  E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  V$ETSF/NRF2.01  核呼吸因子2
  V$AP1F/VMAF.01  v-Maf
  V$XBBF/RFX1.01  X-框结合蛋白RFX1
  V$AREB/AREB6.04  AREB6(Atpla1调节元件结合因子6)
V$CMYB/CMYB.01  c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
  V$VMYB/VMYB.02  v-Myb
  V$EBOX/NMYC.01  N-Myc
  V$VBPF/VBP.01  PAR-型鸡卵黄原蛋白启动子-结合蛋白
V$CMYB/CMYB.01  c-Myb,在造血过程中很重要,是禽类成肌细胞增生病毒癌基因v-myb的细胞等同物
  家族名称/矩阵**   其他信息
  V$GATA/GATA3.02   GATA-结合因子3
  V$PAX8/PAX8.01   PAX2/5/8结合位点
  V$HNF4/HNF4.02   肝细胞核因子4
V$E2FF/E2F.01   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  V$NFAT/NFAT.01   活化T-细胞的核因子
  V$ECAT/NFY.02   核因子Y(Y-框结合因子)
  V$TBPF/TATA.02   哺乳动物C-型LTRTATA框
  V$MYT1/MYT1.02   MyT1锌指转录因子,参与初生神经发生
  V$GATA/GATA3.01   GATA-结合因子3
  V$CREB/CREB.02   cAMP-应答元件结合蛋白
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$IRFF/ISRE.01   干扰素刺激应答元件
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$TCFF/TCF11.01   TCF11/KCR-F1/Nrf1同型二聚体
  V$STAT/STAT.01   信号转导及转录激活蛋白
  V$ECAT/NFY.03   核因子Y(Y-框结合因子)
  V$OCT1/OCT1.05   八聚体-结合因子1
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
  V$PIT1/PIT1.01   Pit1,GHF-1垂体特异性pou域转录因子
  V$CLOX/CDPCR3.01   cut样同源域蛋白
  V$GREF/ARE.01   雄激素受体结合位点
  V$GATA/GATA1.04   GATA-结合因子1
  家族名称/矩阵**   其他信息
  V$E2TF/F2.02   乳头瘤病毒调节物E2
  V$RPOA/POLYA.01   哺乳动物C-型LTRPoly A信号
  V$VMYB/VMYB.02   v-Myb
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$VBPF/VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$CREB/HLF.01   肝性白血病因子
  V$SF1F/SF1.01   SF1类固醇生成因子1
  V$XBBF/MIF1.01   MIBP-1/RFX1复合物
  V$IKRS/IK2.01   Ikaros 2,淋巴细胞分化潜在调节物
  V$MINI/MUSCLE_INI.02   肌肉起始序列
  V$PCAT/CLTR_CAAT.01   哺乳动物C-型LTR CCAAT框
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$RPAD/PADS.01   哺乳动物C-型LTR Poly A下游元件
  V$XBBF/RFX1.02   X-框结合蛋白RFX1
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$CREB/HLF.01   肝性白血病因子
  V$HNF1/HNF1.01   肝细胞核因子1
  V$VMYB/VMYB.01   v-Myb
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$XBBF/RFX1.01   X-框结合蛋白RFX1
  V$STAT/STAT.01   信号转导及转录激活蛋白
  V$HNF1/HNF1.01   肝细胞核因子1
  V$HMYO/S8.01   S8
  V$SORY/SOX5.01   Sox-5
  V$RBIT/Bright.01   Bright,IgH转录的B细胞调节物
  V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低
  家族名称/矩阵**   其他信息
  亲和性位点
  V$GATA/GATA1.02   GATA-结合因子1
  V$BARB/BARBIE.01   巴比妥酸诱导元件
  V$MTF1/MTF-1.01   金属转录因子1,MRE
  V$NFKB/CREL.01   c-Rel
  V$ETSF/ELK1.02   Elk-1
  V$CLOX/CDP.01   cut样同源域蛋白
  V$RPOA/LPOLYA.01   慢病毒Poly A信号
  V$GATA/GATA1.03   GATA-结合因子1
  V$ZFIA/ZID.01   具有相互作用域的锌指
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
V$PAX1/PAX1.01   Pax1配对域蛋白,在小鼠胚胎的发育脊柱中表达
V$GATA/LMO2COM.02   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点2
  V$NRSF/NRSF.01   神经元限制性沉默因子
  V$AP4R/TAL1BETAE47.01   Tal-1β/E47异型二聚体
V$GATA/LMO2COM.02   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点2
  V$GATA/GATA1.02   GATA-结合因子1
  V$XBBF/RFX1.01   X-框结合蛋白RFX1
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$PAX5/PAX9.01   斑马鱼PAX9结合位点
  V$CLOX/CDP.02   转录阻遏蛋白CDP
  V$GATA/GATA1.01   GATA-结合因子1
  家族名称/矩阵**   其他信息
V$AP1F/TCF11MAFG.01   TCF11/MafG异型二聚体,结合AP1位点亚类
  V$BRN2/BRN2.01   POU因子Brn-2(N-Oct 3)
V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
  V$ECAT/NFY.02   核因子Y(Y-框结合因子)
  V$FKHD/FREAC4.01   Fork head相关激活物-4
  V$NFAT/NFAT.01   活化T-细胞的核因子
  V$IRFF/IRF1.01   干扰素调节因子1
V$E2FF/E2F.02   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
**匹配按照相应序列出现的顺序列出
bla-2中的TFBS
从bla-1中除去TFBS之后=从bla-2中除去TFBS之前(2匹配)
  家族名称/矩阵**   其他信息
  V$GATA/GATA1.02   GATA-结合因子1
  V$ETSF/NRF2.01   核呼吸因子2
  V$OCTP/OCT1P.01   八聚体-结合因子1,POU特异性域
  V$ETSF/ELK1.02   Elk-1
  V$EBOX/NMYC.01   N-Myc
  V$GATA/GATA3.02   GATA-结合因子3
  V$PAX8/PAX8.01   PAX 2/5/8结合位点
  V$HNF4/HNF4.02   肝细胞核因子4
V$E2FF/E2F.01   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  V$NFAT/NFAT.01   活化T-细胞的核因子
  家族名称/矩阵**   其他信息
  V$ECAT/NFY.02   核因子Y(Y-框结合因子)
  V$TBPF/TATA.02   哺乳动物C-型LTRTATA框
  V$MYT1/MYT1.02   MyT1锌指转录因子,参与初生神经发生
  V$GATA/GATA3.01   GATA-结合因子3
  V$CREB/CREB.02   cAMP-应答元件结合蛋白
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$NRSF/NRSE.01   神经限制性沉默元件
  V$OCT1/OCT1.05   八聚体-结合因子1
  V$CLOX/CDPCR3.01   cut样同源域蛋白
  V$GREF/ARE.01   雄激素受体结合位点
  V$GATA/GATA1.04   GATA-结合因子1
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$CREB/HLF.01   肝性白血病因子
  V$VBPF/VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$XBBF/MIF1.01   MIBP-1/RFX1复合物
  V$IKRS/IK2.01   Ikaros 2,淋巴细胞分化潜在调节物
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$XBBF/RFX1.02   X-框结合蛋白RFX1
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$CREB/HLF.01   肝性白血病因子
  V$XBBF/RFX1.02   X-框结合蛋白RFX1
  V$GATA/GATA1.02   GATA-结合因子1
  V$BARB/BARBIE.01   巴比妥酸诱导元件
  V$MTF1/MTF-1.01   金属转录因子1,MRE
  V$NFKB/CREL.01   c-Rel
  家族名称/矩阵**   其他信息
  V$ETSF/ELK1.02   Elk-1
  V$TBPF/TATA.01   细胞和病毒TATA框元件
  V$MEIS/MFIS1.01   同源框蛋白MEIS1结合位点
  V$HOXF/HOXA9.01   脊椎动物同源框因子HOX-簇成员
  V$GATA/GATA1.03   GATA-结合因子1
  V$MEIS/MEIS1.01   同源框蛋白MEIS1结合位点
  V$NOLF/OLF1.01   嗅神经元特异性因子
  V$AP4R/TAL1BETAE47.01   Tal-1β/E47异型二聚体
  V$GATA/GATA1.02   GATA-结合因子1
  V$XBBF/RFX1.01   X-框结合蛋白RFX1
  V$AHRR/AHRARNT.02   芳烃/Arnt异型二聚体,固定核心
  V$PAX5/PAX9.01   斑马鱼PAX9结合位点
  V$CLOX/CDP.02   转录阻遏蛋白CDP
  V$GATA/GATA1.01   GATA-结合因子1
  V$IRFF/IRF1.01   干扰素调节因子1
V$E2FF/E2F.02   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
**匹配按照相应序列出现的顺序列出
bla-3中的TFBS
从bla-2中除去TFBS之后=从bla-3中除去TFBS之前(16匹配)
  家族名称/矩阵**   其他信息
  V$ETSF/NRF2.01   核呼吸因子2
  V$E2FF/E2F.02   E2F,参与细胞周期调节,与Rb p107蛋白相互作用
  家族名称/矩阵**   其他信息
  V$NFAT/NFAT.01   活化T-细胞的核因子
  V$TBPF/TATA.02   哺乳动物C-型LTR TATA框
  V$MYT1/MYT1.02   MyT1锌指转录因子,参与初生神经发生
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$SORY/SOX5.01   Sox-5
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$CREB/HLF.01   肝性白血病因子
  V$VBPF/VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$XBBF/RFX1.02   X-框结合蛋白RFX1
  V$CREB/HLF.01   肝性白血病因子
  V$GATA/GATA1.03   GATA-结合因子1
  V$MEIS/MEIS1.01   同源框蛋白MEIS1结合位点
  V$NOLF/OLF1.01   嗅神经元特异性因子
**匹配按照相应序列出现的顺序列出
bla-4中的TFBS
从bla-3中除去TFBS之后=从bla-4中除去TFBS之前(14匹配)
  家族名称/矩阵**   其他信息
  V$ETSF/NRF2.01   核呼吸因子2
  家族名称/矩阵**   其他信息
  V$NFAT/NFAT.01   活化T-细胞的核因子
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$GATA/GATA3.01   GATA-结合因子3
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$EBOX/USF.02   上游刺激因子
  V$PAX5/PAX5.01   B-细胞特异性激活蛋白
  V$XBBF/RFX1.02   X-框结合蛋白RFX1
  V$GATA/GATA1.03   GATA-结合因子1
  V$MEIS/MEIS1.01   同源框蛋白MEIS1结合位点
  V$ZFIA/ZID.01   具有相互作用域的锌指
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
V$AX1/PAX1.01   Pax1配对域蛋白,在小鼠胚胎的发育脊柱中表达
V$GATA/LMO2COM.02   Lmo2结合Tal-1、E2A蛋白和GATA-1的复合物,半位点2
**匹配按照相应序列出现的顺序列出
bla-5中的TFBS
从bla-4中除去TFBS之后(5匹配)
  家族名称/矩阵**   其他信息
  V$ETSF/NRF2.01   核呼吸因子2
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$GATA/GATA3.01   GATA-结合因子3
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$EBOX/USF.02   上游刺激因子
**匹配按照相应序列出现的顺序列出
                        表28
            pGL4中合成NotI-NcoI片段的序列
pGL4B-4NN中的TFBS
从pGL4B-4NN中除去TFBS之前=(11匹配)
  家族名称/矩阵**   其他信息
  V$SMAD/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$SMAD/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$ETSF/FLI.01   ETS家族成员FLI
  V$RBPF/RBPJK.01   哺乳动物转录阻遏蛋白RBP-Jκ/CBF1
  V$ETSF/FLI.01   ETS家族成员FLI
  V$EBOX/USF.02   上游刺激因子
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$GATA/GATA3.01   GATA-结合因子3
V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$ETSF/NRF2.01   核呼吸因子2
  V$TBPF/ATATA.01   禽类C-型LTR TATA框
**匹配按照相应序列出现的顺序列出
pGL4B-4NN1中的TFBS
从pGL4B-4NN中除去TFBS之后=从pGL4B-4NN1中除去TFBS之前(7匹配)
  家族名称/矩阵**   其他信息
  V$ETSF/NRF2.01   核呼吸因子2
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$CEBP/CEBPB.1   CCAAT/增强子结合蛋白β
  V$EBOX/USF.02   上游刺激因子
  V$ETSF/FLI.01   ETS家族成员FLI
  V$SMAD/FAST1.01   FAST-1 SMAD相互作用蛋白
  V$SMAD/FAST1.01   FAST-1 SMAD相互作用蛋白
**匹配按照相应序列出现的顺序列出
pGL4B-4NN2中的TFBS
从pGL4B-4NN1中除去TFBS之后=从pGL4B-4NN2中除去TFBS之前(4匹配)
  家族名称/矩阵**   其他信息
  V$ETSF/NRF2.01   核呼吸因子2
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$CEBP/CEBPB.01   CCAAT/增强子结合蛋白β
  V$EBOX/USF.02   上游刺激因子
**匹配按照相应序列出现的顺序列出
pGL4B-4NN3中的TFBS
从pGL4B-4NN2中除去TFBS之后(3匹配)
  家族名称/矩阵** 其他信息
  V$EBOX/USF.02   上游刺激因子
  V$WHZF/WHN.01   翼状螺旋蛋白,参与毛发角质化和胸腺上皮分化
  V$ETSF/NRF2.01   核呼吸因子2
**匹配按照相应序列出现的顺序列出
                          表29
               pGL4中合成SpeI-NcoI部分的序列
SpeI-NcoI-Ver2-start中的TFBS
从SpeI-NcoI-Ver2-start中除去TFBS之前(34匹配)
  家族/矩阵**   其他信息
  V$PAX8/PAX8.01   PAX 2/5/8结合位点
  V$GATA/GATA1.02   GATA-结合因子1
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$TBPF/ATATA.01   禽类C-型LTRTATA框
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  家族/矩阵**   其他信息
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
  V$ETSF/ELK1.01   Elk-1
  V$CDXF/CDX2.01   Cdx-2哺乳动物尾相关肠转录因子
  V$BRNF/BRN3.01   POU转录因子Brn-3
  V$TBPF/TATA.02   哺乳动物C-型LTRTATA框
  V$FKHD/FREAC3.01   Fork head相关激活物-3(FOXC1)
  V$OCT1/OCT1.02   八聚体-结合因子1
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
  V$PDX1/PDX1.01   Pdx1(IDX1/IPF1)胰和肠同源域TF
  V$PARF/DBP.01   白蛋白D-框结合蛋白
  V$GATA/GATA3.02   GATA-结合因子3
  V$VBPF/VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$AP4R/TAL1ALPHAE47.01   Tal-1α/E47异型二聚体
V$RP58/RP58.01   锌指蛋白RP58(ZNF238),优先结合异染色质
V$COMP/COMP1.01   COMP1,与多组分复合物中的生肌蛋白合作
  V$CLOX/CLOX.01   Clox
  V$TBPF/ATATA.01   禽类C-型LTR TATA框
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合蛋白
  V$PBXF/PBX1.01   同源域因子Pbx-1
  V$IRFF/IRF1.01   干扰素调节因子1
  家族/矩阵**   其他信息
  V$TEAF/TEF1.01   TEF-1相关肌肉因子
V$EBOX/ATF6.01   b-zip家族成员,由ER损伤/应激诱导,与连接NF-Y的ERSE结合
V$NKXH/NKX32.01   同源域蛋白NKX3.2(BAPX1,NKX3B,Bagpipe同源物)
  V$E2TF/E2.02   乳头瘤病毒调节物E2
  V$EVI1/EVI1.05   亲嗜性病毒整合位点1编码的因子
  V$GATA/GATA3.02   GATA-结合因子3
**匹配按照相应序列出现的顺序列出
SpeI-NcoI-Ver2中的TFBS
从SpeI-NcoI-Ver2-start中除去TFBS之后(28匹配)
  家族/矩阵**   其他信息
  V$PAX8/PAX8.01   PAX 2/5/8结合位点
  V$GATA/GATA1.02   GATA-结合因子1
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$TBPF/ATATA.01   禽类C-型LTR TATA框
  V$CREB/E4BP4.01   E4BP4,bZIP域,转录阻遏蛋白
  V$NKXH/NKX31.01   前列腺特异性同源域蛋白NKX3.1
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
V$NKXH/NKX25.02   同源域因子Nkx-2.5/Csx,tinman同源物低亲和性位点
  V$CDXF/CDX2.01   Cdx-2哺乳动物尾相关肠转录因子
  V$BRNF/BRN3.01   POU转录因子Brn-3
  家族/矩阵**   其他信息
  V$TBPF/TATA.02   哺乳动物C-型LTR TATA框
  V$FKHD/FREAC3.01   Fork head相关激活物-3(FOXC1)
  V$OCT1/OCT1.02   八聚体-结合因子1
  V$CART/CART1.01   Cart-1(软骨发育同源蛋白1)
  V$PDX1/PDX1.01   Pdx1(IDX1/IPF1)胰和肠同源域TF
  V$PARF/DBP.01   白蛋白D-框结合蛋白
  V$GATA/GATA3.02   GATA-结合因子3
  V$VBPF/VBP.01   PAR-型鸡卵黄原蛋白启动子-结合蛋白
  V$AP4R/TAL1ALPHAE47.01   Tal-1α/E47异型二聚体
V$RP58/RP58.01   锌指蛋白RP58(ZNF238),优先结合异染色质
V$COMP/COMP1.01   COMP1,与多组分复合物中的生肌蛋白合作
  V$CLLOX/CLOX.01   Clox
  V$TBPF/ATATA.01   禽类C-型LTR TATA框
  V$PBXC/PBX1_MEIS1.02   Pbx1/Meis1异型二聚体的结合蛋白
  V$PBXF/PBBX1.01   同源域因子Pbx-1
  V$IRFF/IRF1.01   干扰素调节因子1
  V$TEAF/TEF1.01   TEF-1相关肌肉因子
**匹配按照相应序列出现的顺序列出
采用如上所述的数据库、检索程序等,将载体骨架(包括氨苄青霉素抗性基因)中存在的共有序列转录因子结合位点的数目从pGL3中的224个减少到pGL4中的40个,启动子组件的数目从pGL3中的10个减少到pGL4中的4个。pGL4相对于pGL3中的其它修饰包括除去f1复制起点并重新设计多克隆区。
MCS-1至MCS-4具有下列序列(SEQ ID NO:76-79)
MCS-1
ACTAGTCGTCTCTCTTGAGAGACCGCGATCGCCACCATGATAAGTAA
GTAATATTAAATAAGTAAGGCCTGAGTGGCCCTCGAGCCAGCCTTGA
GTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTACGCGTGA
GCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAG
TAAGCTTGGCATTCCGGTACTGTTGGTAAAGCCACCATGG
MCS-2
ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGATAAGTA
AGTAATATTAAATAAGTAAGGCCTGAGTGGCCCTCGAGTCCAGCCTT
GAGTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTTACGCGT
AGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCT
AAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG
MCS-3
ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCATGCCTAGGTAGGT
AGTATTAGAGCATAGGTAGAGGCCTAAGTGGCCCTCGAGTCCAGCCT
TGAGTTGGTTGAGTCCAAGTCACGTCTGGAGATCTGGTACCTTACGCG
TATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGAT
CTAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG
MCS-4
ACTAGTACGTCTCTCTTGAGAGACCGCGATCGCCACCATGTCTAGGT
AGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTCCA
GCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCTTA
CGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCTTG
CGATCTAAGCTTGGCAATATCCGGTACTGTTGGTAAAGCCACCATGG
bla具有下列序列:
ATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCAT
TTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAG
ATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGAT
CTCAACAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTT
TCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATC
CCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATT
CTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTT
ACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCAT
GAGTGATAACACTGCGGCCAACTTACTTCTGACAACGATCGGAGGAC
CGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACT
CGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGA
CGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCA
AACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAA
TAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCG
GCCCTTCCGGCTGGCTGGTTTATGCTGATAAATCTGGAGCCGGTGAG
CGTGGGTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCC
CTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGG
ATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATAAG
CATTGGTAA(SEQ ID NO:41).
bla-1至bla-5具有下列序列(SEQ ID NO:80-84):
bla-1
ACTAGTAACCCTGATAAATGCTTCAATAATATTGAAAAAGGAAGAGT
ATGAGTATTCAACATTTCCGTGTCGCCCTTATTCCCTTTTTTGCGGCAT
TTTGCCTTCCTGTTTTTGCTCACCCAGAAACGCTGGTGAAAGTAAAAG
ATGCTGAAGATCAGTTGGGTGCACGAGTGGGTTACATCGAACTGGAT
CTCAACAGCGGTAAGATCCTTTGAGAGTTTTCGCCCCGAAGAACGTTT
TCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATC
CCGTATTGACGCCGGGCAAGAGCAACTCGGTCGCCGCATACACTATT
CTCAGAATGACTTGGTTGAGTACTCACCAGTCACAGAAAAGCATCTT
ACGGATGGCATGACAGTAAGAGAATTATGCAGTGCTGCCATAACCAT
GAGTGATAACACCGCGGCCAACTTACTTCTGACAACGATCGGAGGAC
CGAAGGAGCTAACCGCTTTTTTGCACAACATGGGGGATCATGTAACT
CGCCTTGATCGTTGGGAACCGGAGCTGAATGAAGCCATACCAAACGA
CGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCA
AACTATTAACTGGCGAACTACTTACTCTAGCTTCCCGGCAACAATTAA
TAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTCG
GCCCTTCCGGCTGGCTGGTTTATTGCTGATAAATCTGGAGCCGGTGAG
CGTGGCTCTCGCGGTATCATTGCAGCACTGGGGCCAGATGGTAAGCC
CTCCCGTATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTATGG
ATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATTAAG
CATTGGTAACCATGCAGTGGTTTTCCTTTTGCGGCCGC
bla-2
ACTAGTAACCCTGATAAATGCTGCAAACATATTGAAAAAGGAAGAGT
ATGAGTATTCAACATTTCCGTGTCGCACTCATTCCCTTCTTTGCGGCA
TTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAA
GATGCTGAAGATCAACTGGGTGCACGAGTGGGCTATATCGAACTGGA
TCTCAATAGCGGTAAGATCCTTGAGAGTTTTCGCCCCGAAGAACGTTT
TCCAATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTATTATC
CCGTATTGACGCCGGGCAAGAGCAGCTCGGTCGCCGCATACACTACT
CACAGAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTT
ACGGATGGCATGACAGTAAGAGAATTGTGTAGTGCTGCCATAACCAT
GAGTGATAACACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCC
CTAAGGAGCTGACCGCATTTTTGCACAACATGGGGGATCATGTAACC
CGGCTTGATCGTTGGGAACCGGAGCTGAACGAAGCCATACCGAACGA
CGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGCA
AACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAACTC
ATAGACTGGATGGAGGCGGATAAAGTTGCAGGACCACTTCTGCGCTC
GGCCCTTCCGGCTGGCTGGTTTATAGCTGATAAATCCGGTGCCGGTG
AACGCGGCTCTCGCGGGATCATTGCTGCGCTGGGGCCAGATGGTAAG
CCCTCACGAATCGTAGTTATCTACACGACGGGGAGTCAGGCAACTAT
GGATGAACGAAATAGACAGATCGCTGAGATAGGTGCCTCACTGATCA
AGCACTGGTAGCCACTGCAGTGGTTTAGCTTTTGCGGCCGC
bla-3
ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGT
ATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTCTTTGCGGCA
TTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAA
GATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGA
TCTCAATAGCGGCAAGATCCTTGAGTCTTTTCGCCCCGAAGAACGTTT
TCCGATGATGAGCACTTTTAAAGTTCTGCTATGTGGCGCGGTGTTGTC
CCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTACT
CACAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTT
ACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCAT
GAGCGACAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCC
CTAAGGAGCTGACCGCATTTTTGCACAACATGGGGGATCATGTAACC
CGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAACG
ACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACGTTGCGG
AAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGCT
CATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGCT
CGGCCCTCCCTGCTGGCTGGTTCATTGCTGATAAATCCGGTGCCGGTG
AACGCGGCTCTCGCGGGATCATTGCTGCGCTGGGGCCTGATGGTAAG
CCCTCACGAATCGTAGTAATCTACACGACGGGGAGTCAGGCCACTAT
GGACGAACGAAATAGACAGATCGCGAGATCGGTGCCTCACTGATCA
AGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGC
bla-4
ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGT
ATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTTCTTTGCGGCA
TTTTGCTTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAA
GATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGA
TCTCAATAGCGGCAAGATCCTTGAGTCTTTCCGCCCCGAAGAACGTTT
TCCGATGATGAGCACTTTCAAAGTACTGCTATGTGGCGCGGTGTTGTC
CCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTACT
CACAAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCTT
ACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCAT
GAGCGATAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGCC
CTAAGGAGCTGACCGCATTTTTGCACAACATGGGTGATCATGTGACC
CGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAACG
ACGAGCGTGACACCACGATGCCTGTAGCAATGGCAACAACTCTTCGG
AAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGCT
CATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGCT
CGGCCCTCCCTGCTGGCTGGTTCATTGCTGATAAATCTGGAGCCGGTG
AGCGTGGCTCTCGCGGTATCATTGCTGCGCTGGGGCCTGATGGTAAG
CCCTCACGAATCGTAGTAATCTACACGACGGGGAGTCAGGCCACTAT
GGACGAACGAAATAGACAGATCGCTGAGATCGGTGCCTCACTGATCA
AGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGC
bla-5
ACTAGTAACCCTGACAAATGCTGCAAACATATTGAAAAAGGAAGAGT
ATGAGCATCCAACATTTTCGTGTCGCACTCATTCCCTTCTTTGCGGCA
TTTTGCTTGCCTGTTTTTGCACACCCCGAAACGCTGGTGAAAGTAAAA
GATGCTGAAGATCAACTGGGTGCAAGAGTGGGCTATATCGAACTGGA
TCTCAATAGCGGCAAGATCCTTGAGTCTTTCCGCCCCGAAGAACGAT
TCCCGATGATGAGCACTTTCAAAGTACTGCTATGTGGCGCGGTGTTGT
CCCGTATAGACGCCGGGCAAGAGCAGCTTGGTCGCCGTATACACTAC
TCACAAAACGACTTGGTTGAGTACTCGCCGGTCACGGAAAAGCATCT
TACGGATGGCATGACGGTAAGAGAATTGTGTAGTGCTGCCATTACCA
TGAGCGATAATACCGCGGCCAACTTACTTCTGACAACGATCGGAGGC
CCTAAGGAGCTGACCGCATTTTTGCACAACATGGGTGATCATGTGAC
CCGGCTTGACCGCTGGGAACCGGAGCTGAACGAAGCCATACCGAAC
GACGAGCGTGATACCACGATGCCAGTAGCAATGGCCACAACTCTTCG
GAAACTACTCACTGGCGAACTTCTCACTCTAGCATCACGACAGCAGC
TCATAGACTGGATGGAGGCGGACAAAGTAGCAGGACCACTTCTTCGC
TCGGCCCTCCCTGCTGGCTGGTTCATTGCTGACAAATCCGGTGCCGGT
GAACGCGGCTCTCGCGGCATCATTGCTGCGCTGGGGCCTGATGGTAA
GCCCTCACGAATCGTAGTAATCTCACGACGGGGAGTCAGGCCACTA
TGGACGAACGAAATAGACAGATCGCTGAGATCGGTGCCTCACTGATC
AAGCACTGGTAACCACTGCAGTGGTTTAGCATTTGCGGCCGCNNN.
                                  表30
                         不同bla基因形式的配对同一性
  bla   bla-1   bla-2   bla-3   bla-4   bla-5 pGL4中的bla(SEQID NO:74)
  bla   --   99   93   90   89   88 87
  bla-1   --   94   90   90   89 88
  bla-2   --   96   94   94 93
  bla-3   --   98   98 97
  bla-4   --   99 97
  bla-5   -- 98
注意:序列“bla”是来自pGL3-基础的bla基因;ClustalW(Slow/Accurate,IUB);
序列比较仅对ORF进行。
SpeI-NcoI ver2 start具有下列序列:
ACTAGTACGTCTCTCAAGGATAAGTAAGTAATATTAAGGTACGGGAG
GTACTTGGAGCGGCCGCAATAAAATATCTTTATTTTCATTACATCTGT
GTGTTGGTTTTTTGTGTGAATCGATAGTACTAACATACGCTCTCCATC
AAAACAAAACGAAACAAAACAAACTAGCAAAATAGGCTGTCCCCAG
TGCAAGTGCAGGTGCCAGAACATTTCTCTGGCCTAAGTGGCCGGTAC
CGAGCTCGCTAGCCTCGAGGATATCAGATCTGGCCTCGGCGGCCAAG
CTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO:48);
SpeI-NcoI-Ver2具有下列序列:
ACTAGTACGTCTCTCAAGGATAAGTAAGTAATATTAAGGTACGGGAG
GTATTGGACAGGCCGCAATAAAATATCTTTATTTTCATTACATCTGTG
TGTTGGTTTTTTGTGTGAATCGATAGTACTAACATACGCTCTCCATCA
AAACAAAACGAAACAAAACAAACTAGCAAAATAGGCTGTCCCCAGT
GCAAGTGCAGGTGCCAGAACATTTCTCTGGCCTAACTGGCCGGTACC
TGAGCTCGCTAGCCTCGAGGATATCAAGATCTGGCCTCGGCGGCCAA
GCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO:49)
pGL4相关序列包括(SEQ ID NO:95-97):
pGL4B-4NN
GCGGCCGCAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCA
GTGAGGCACCGATCTCAGCGATCTGTCTATTTCGTTCGTCCATAGTGG
CCTGACTCCCCGTCGTGTAGATTACTACGATTCGTGAGGGCTTACCAT
CAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCA
CCGGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAA
GAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCT
GTCGTGATGCTAGAGTGAGAAGTTCGCCAGTGAGTAGTTTCCGAAGA
GTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGT
ATGGCTTCGTTCAGCTCCGGTTCCCACCGGTCAAGCCGGGTCACATG
ATCACCCATGTTGTGCAAAAATGCGGTCAGCTCCTTAGGGCCTCCGA
TCGTTGTCAGAAGTAAGTTGGCCGCGGTATTATCGCTCATGGTAATGG
CAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTT
CCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATA
CGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGC
GCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTC
GGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGA
TATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCAC
CAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAG
AAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCT
TTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTT
GAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAG
GGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGA
GTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTAC
GTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGATCTAAGCTTGGCA
ATCCGGTACTGTTGGTAAAGCCACCATGG
pGL4B-4NN1
gcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgtctatt
tcgttcgtccatagtggcctgactccccgtcgtgtagattactacgattcgtgagggcttaccatcagggccccagcgc
agcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccg
agcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttc
gccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgt
tcaactccggttcccagcggtcaagccgggtcacatgatcacccatgttgtgcaaaaatgcggtcagctccttaggg
cctccgatcgttgtcagaagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgt
catgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgacca
agctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaa
tcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagt
tgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaaggga
atgagtgcgacacgaaaatgttggatgctcatactcttcctttttcaatatgtttgcagcatttgtcagggttactagtacg
tctctcttgagagaccgcgatcgccaccatgtctaggtaggtagtaaacgaaagggcttaaaggcctaagtggccct
cgagtccagccttgagttggttgagtccaagtcacgtttggagatctggtaccttacgcgtatgagctctacgtagcta
gcggcctcggcggccgaattcttgcgttcgaagcttggcaatccggtactgttggtaaagccaccatgg;and
pGL4B-4NN2
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCA
GTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGG
CCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCAT
CAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCC
CCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAA
GAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCT
GTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGA
GTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGT
ATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATG
ATCACCCATGTTGTGCAAAAATGCGGTCAGCTCCTTAGGGCCTCCGA
TCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGG
CAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTT
CCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATA
CGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGC
GCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTC
GGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGA
TATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCAC
CAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAG
AAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCT
TTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTT
GAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAG
GGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGA
GTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTAC
GTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGTTCGAAGCTTGGCA
ATCCGGTACTGTTGGTAAAGCCACCATGG,
pGLAB-4NN3:
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCA
GTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGG
CCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCAT
CAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCC
CCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAA
GAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCT
GTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGA
GTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGT
ATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATG
ATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGA
TCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGG
CAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTT
CCGTGACCGGCGAGTACTCAACCAAGTCGTTTTTGTGAGTAGTGTATA
CGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGC
GCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTC
GGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGA
TATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCAC
CAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAG
AAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCT
TTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCTT
GAGAGACCGCGATCGCCACCATGTCTAGGTAGGTAGTAAACGAAAG
GGCTTAAAGGCCTAAGTGGCCCTCGAGTCCAGCCTTGAGTTGGTTGA
GTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGGGTTG
AGTCCAAGTCACGTTTGGAGATCTGGTACCTTACGCGTATGAGCTCTA
CGTAGCTAGCGGCCTCGGCGGCCGAATTCTTGCGTTCGAAGCTTGGC
AATCCGGTACTGTTGGTAAAGCCACCATGG(SEQ ID NO:45)
来自Blue Heron的pGL4NN:
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCA
GTGAGGCACCGATCTCAGCGATTCTGCCTATTTCGTTCGTCCATAGTGG
CCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCAT
CAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCC
CCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAA
GAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCT
GTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGA
GTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGT
ATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATG
ATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGA
TCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGG
CAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTT
CCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATA
CGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGC
GCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTC
GGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGA
TATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTTACTTTCAC
CAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAG
AAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCTTCCT
TTTTCAATATGTTTGCAGCATTTGTCAGGGTTACTAGTACGTCTCTCA
AGAGATTTGTGCATACACAGTGACTCATACTTTCACCAATACTTTGCA
TTTTGGATAAATACTAGACAACTTTAGAAGTGAATTATTTATGAGGTT
GTCTTAAAATTAAAAATTACAAAGTAATAAATCACATTGTAATGTATT
TTGTGTGATACCCAGAGGTTTAAGGCAACCTATTACTCTTATGCTCCT
GAAGTCCACAATTCACAGTCCTGAACTATAATCTTATCTTTTGTGATTG
CTGAGCAAATTTGCAGTATAATTTCAGTGCTTTTAAATTTTGTCCTGC
TTACTATTTTCCTTTTTTATTTGGGTTTGATATGCGTGCACAGAATGGG
GCTTCTATTAAAATATTCTTGAGAGACCGCGATCGCCACCATGTCTAG
GTAGGTAGTAAACGAAAGGGCTTAAAGGCCTAAGTGGCCCTCGAGTC
CAGCCTTGAGTTGGTTGAGTCCAAGTCACGTTTGGAGATCTGGTACCT
TACGCGTATGAGCTCTACGTAGCTAGCGGCCTCGGCGGCCGAATTCT
TGCGTTCGAAGCTTGGCAATCCGGTACTGTTGGTAAAGCCACCATGG
(SEQ ID NO:46),
具有启动子改变的pGL4:
GCGGCCGCAAATGCTAAACCACTGCAGTGGTTACCAGTGCTTGATCA
GTGAGGCACCGATCTCAGCGATCTGCCTATTTCGTTCGTCCATAGTGG
CCTGACTCCCCGTCGTGTAGATCACTACGATTCGTGAGGGCTTACCAT
CAGGCCCCAGCGCAGCAATGATGCCGCGAGAGCCGCGTTCACCGGCC
CCCGATTTGTCAGCAATGAACCAGCCAGCAGGGAGGGCCGAGCGAA
GAAGTGGTCCTGCTACTTTGTCCGCCTCCATCCAGTCTATGAGCTGCT
GTCGTGATGCTAGAGTAAGAAGTTCGCCAGTGAGTAGTTTCCGAAGA
GTTGTGGCCATTGCTACTGGCATCGTGGTATCACGCTCGTCGTTCGGT
ATGGCTTCGTTCAACTCTGGTTCCCAGCGGTCAAGCCGGGTCACATG
ATCACCCATATTATGAAGAAATGCAGTCAGCTCCTTAGGGCCTCCGA
TCGTTGTCAGAAGTAAGTTGGCCGCGGTGTTGTCGCTCATGGTAATGG
CAGCACTACACAATTCTCTTACCGTCATGCCATCCGTAAGATGCTTTT
CCGTGACCGGCGAGTACTCAACCAAGTCGTTTTGTGAGTAGTGTATA
CGGCGACCAAGCTGCTCTTGCCCGGCGTCTATACGGGACAACACCGC
GCCACATAGCAGTACTTTGAAAGTGCTCATCATCGGGAATCGTTCTTC
GGGGCGGAAAGACTCAAGGATCTTGCCGCTATTGAGATCCAGTTCGA
TATAGCCCACTCTTGCACCCAGTTGATCTTCAGCATCTTTACTTTCAC
CAGCGTTTCGGGGTGTGCAAAAACAGGCAAGCAAAATGCCGCAAAG
AAGGGAATGAGTGCGACACGAAAATGTTGGATGCTCATACTCGTCCT
TTTTCAATATTATTGAAGCATTTATCAGGGTTACTAGTACGTCTCTCA
AGAGATTTGTGCATACACAGTGACTCATACTTTCACCAATACTTTGCA
TTTTGGATAAATACTAGACAACTTTAGAAGTGAATTATTTATGAGGTT
GTCTTAAAATTAAAAATTACAAAGTAATAAATCACATTGTAATGTATT
TTGTGTGATACCCAGAGGTTTAAGGCAACCTATTACTCTTAT(SEQ IDNO:47),
pGL4载体中的潮霉素基因:
Atgaagaagcccgaactcaccgctaccagcgttgaaaaatttctcatcgagaagttcgacagtgtgagcgacctgat
gcagttgtcggagggcgaagagagccgagccttcagcttcgatgtcggcggacgcggctatgtactgcgggtgaa
tagctgcgctgatggcttctacaaagaccgctacgtgtaccgccacttcgccagcgctgcactacccatccccgaag
tgttggacatcggcgagttcagcgagagcctgacatactgcatcagtagacgcgcccaaggcgttactctccaaga
cctccccgaaacagagctgcctgctgtgttacagcctgtcgccgaagctatggatgctattgccgccgccgacctca
gtcaaaccagcggcttcggcccattcgggccccaaggcatcggccagtacacaacctggcgggatttcatttgcgc
cattgctgatccccatgtctaccactggcagaccgtgatggacgacaccgtgtccgccagcgtagctcaagccctgg
acgaactgatgctgtgggccgaagactgtcccgaggtgcgccacctcgtccatgccgacttcggcagcaacaacgt
cctgaccgacaacggccgcatcaccgccgtaatcgactggtccgaagctatgttcggggacagtcagtacgaggtg
gccaacatcttcttctggcggccctggctggcttgcatggagcagcagactcgctacttcgagcgccggcatcccga
gctggccggcagccctcgtctgcgagcctacatgctgcgcatcggcctggatcagctctaccagagcctcgtggac
ggcaacttcgacgatgctgcctgggctcaaggccgctgcgatgccatcgtccgcagcggggccggcaccgtcggt
cgcacacaaatcgctcgccggagcgcagccgtatggaccgacggctgcgtcgaggtgctggccgacagcggca
accgccggcccagtacacgaccgcgcgctaaggaggtaggtcgagtttaa(SEQ ID NO:88),
pGL4.10
ggcctaactggccggtacctgagctcgctagcctcgaggatatcaagatctggcctcggcggccaagcttggcaat
ccggtactgttggtaaagccaccatggaagatgccaaaaacattaagaagggcccagcgccattctacccactcga
agacgggaccgccggcgagcagctgcacaaagccatgaagcgctacgccctggtgcccggcaccatcgccttta
ccgacgcacatatcgaggtggacattacctacgccgagtacttcgagatgagcgttcggctggcagaagctatgaa
gcgctatgggctgaatacaaaccatcggatcgtggtgtgcagcgagaatagcttgcagttcttcatgcccgtgttggg
tgccctgttcatcggtgtggctgtggccccagctaacgacatctacaacgagcgcgagctgctgaacagcatgggc
atcagccagcccaccgtcgtattcgtgagcaagaaagggctgcaaaagatcctcaacgtgcaaaagaagctaccg
atcatacaaaagatcatcatcatggatagcaagaccgactaccagggcttccaaagcatgtacaccttcgtgacttcc
catttgccacccggcttcaacgagtacgacttcgtgcccgagagcttcgaccgggacaaaaccatcgccctgatcat
gaacagtagtggcagtaccggattgcccaagggcgtagccctaccgcaccgcaccgcttgtgtccgattcagtcat
gcccgcgaccccatcttcggcaaccagatcatccccgacaccgctatcctcagcgtggtgccatttcaccacggctt
cggcatgttcaccacgctgggctacttgatctgcggctttcgggtcgtgctcatgtaccgcttcgaggaggagctattc
ttgcgcagcttgcaagacgataagattcaatctgccctgctggtgcccacactatttagcttcttcgctaagagcactct
catcgacaagtacgacctaagcaacttgcacgagatcgccagcggcggggcgccgctcagcaaggaggtaggtg
aggccgtggccaaacgcttccacctaccaggcatccgccagggctacggcctgacagaaacaaccagcgccattc
tgatcacccccgaaggggacgacaagcctggcgcagtaggcaaggtggtgcccttcttcgaggctaaggtggtgg
acttggacaccggtaagacactgggtgtgaaccagcgcggcgagctgtgcgtccgtggccccatgatcatgagcg
gctacgttaacaaccccgaggctacaaacgctctcatcgacaaggacggctggctgcacagcggcgacatcgcct
actgggacgaggacgagcacttcttcatcgtggaccggctgaagagcctgatcaaatacaagggctaccaggtagc
cccagccgaactggagagcatcctgctgcaacaccccaacatcttcgacgccggggtcgccggcctgcccgacg
acgatgccggcgagctgcccgccgcagtcgtcgtgctggaacacggtaaaaccatgaccgagaaggagatcgtg
gactatgtggccagccaggttacaaccgccaagaagctgcgcggtggtgttgtgttcgtggacgaggtgcctaaag
gactgaccggcaagttggacgcccgcaagatccgcgagattctcattaaggccaagaagggcggcaagatcgcc
gtgtaataattctagagtcggggcggccggccgcttcgagcagacatgataagatacattgatgagtttggacaaac
cacaactagaatgcagtgaaaaaaatgctttatttgtgaaatttgtgatgctattgctttatttgtaaccattataagctgca
ataaacaagttaacaacaacaattgcattcattttatgtttcaggttcagggggaggtgtgggaggttttttaaagcaagt
aaaacctctacaaatgtggtaaaatcgataaggatccgtcgaccgatgcccttgagagccttcaacccagtcagctcc
ttccggtgggcgcggggcatgactatcgtcgccgcacttatgactgtcttctttatcatgcaactcgtaggacaggtgc
cggcagcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctca
ctcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaacatgtgagcaaaaggccagca
aaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaa
aatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccc
tcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttct
catagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttc
agcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggca
gcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaacta
cggctacactagaagaacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctct
tgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaagg
atctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtca
tgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaataatctaaagtatatatgagta
aacttggtctgacagcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctc
agcgatctgcctatttcgttcgtccatagtggcctgactccccgtcgtgtagatcactacgattcgtgagggcttaccat
caggccccagcgcagcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagcca
gcagggagggccgagcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgc
tagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcg
ttcggtatggcttcgttcaactctggttcccagcggtcaagccgggtcacatgatcacccatattatgaagaaatgcag
tcagctccttagggcctccgatcgttgtcataagtaagttggccgcggtgttgtcgctcatggtaatggcagcactac
acaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagt
gtatacggcgaccaagctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtg
ctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagccc
actcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgc
cgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatactcgtcctttttcaatattattgaagcatttatc
agggttactagtacgtctctcaaggataagtaagtaatattaaggtacgggaggtattggacaggccgcaataaaata
tctttattttcattacatctgtgtgttggttttttgtgtgaatcgatagtactaacatacgctctccatcaaaacaaaacgaaa
caaaacaaactagcaaaataggctgtccccagtgcaagtgcaggtgccagaacatttctctaagtaatattaaggtac
gggaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatc(SEQ IDNO:89),和
pGL4.70
ggcctaactggccggtacctgagctcgctagcctcgaggatatcaagatctggcctcggcggccaagcttggcaat
ccggtactgttggtaaagccaccatggcttccaaggtgtacgaccccgagcaacgcaaacgcatgatcactgggcc
tcagtggtgggctcgctgcaagcaaatgaacgtgctggactccttcatcaactactatgattccgagaagcacgccg
agaacgccgtgatttttctgcatggtaacgctgcctccagctacctgtggaggcacgtcgtgcctcacatcgagcccg
tggctagatgcatcatccctgatctgatcggaatgggtaagtccggcaagagcgggaatggctcatatcgcctcctg
gatcactacaagtacctcaccgcttggttcgagctgctgaaccttccaaagaaaatcatctttgtgggccacgactgg
ggggcttgtctggcctttcactactcctacgagcaccaagacaagatcaaggccatcgtccatgctgagagtgtcgtg
gacgtgatcgagtcctgggacgagtggcctgacatcgaggaggatatcgccctgatcaagagcgaagagggcga
gaaaatggtgcttgagaataacttcttcgtcgagaccatgctcccaagcaagatcatgcggaaactggagcctgagg
agttcgctgcctacctggagccattcaaggagaagggcgaggttagacggcctaccctctcctggcctcgcgagat
ccctctcgttaagggaggcaagcccgacgtcgtccagattgtccgcaactacaacgcctaccttcgggccagcgac
gatctgcctaagatgttcatcgagtccgaccctgggttcttttccaacgctattgtcgagggagctaagaagttccctaa
caaccgagttcgtgaaggtgaagggcctccacttcagccaggaggacgctccagatgaaatgggtaagtacatcaag
agcttcgtggagcgcgtgctgaagaacgagcagtaattctagagtcggggcggccggccgcttcgagcagacatg
ataagatacattgatgagtttggacaaaccacaactagaatgcagtgaaaaaaatgctttatttgtgaaatttgtgatgct
attgctttatttgtaaccattataagctgcaataaacaagttaacaacaacaattgcattcattttatgtttcaggttcaggg
ggaggtgtgggaggttttttaaagcaagtaaaacctctacaaatgtggtaaaatcgataaggatccgtcgaccgatgc
ccttgagagccttcaacccagtcagctccttccggtgggcgcggggcatgactatcgtcgccgcacttatgactgtct
tctttatcatgcaactcgtaggacaggtgccggcagcgctcttccgcttcctcgctcactgactcgctgcgctcggtcg
ttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcagg
aaagaacatgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccatag
gctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaag
ataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgc
ctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctcca
agctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaac
ccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggt
gctacagagttcttgaagtggtggcctaactacggctacactagaagaacagtatttggtatctgcgctctgctgaagc
cagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgc
aagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtgg
aacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatga
agttttaaatcaatctaaagtatatatgagtaaacttggtctgacagcggccgcaaatgctaaaccactgcagtggttac
cagtgcttgatcagtgaggcaccgatctcagcgatctgcctatttcgttcgtccatagtggcctgactccccgtcgtgta
gatcactacgattcgtgagggcttaccatcaggccccagcgcagcaatgatgccgcgagagccgcgttcaccggc
ccccgatttgtcagcaatgaaccagccagcagggagggccgagcgaagaagtggtcctgctactttgtccgcctcc
atccagtctatgagctgctgtcgtgatgctagagtaagaagttcgccagtgagtagtttccgaagagttgtggccattg
ctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgttcaactctggttcccagcggtcaagccgggtcac
atgatcacccatattatgaagaaatgcagtcagctccttagggcctccgatcgttgtcagaagtaagttggccgcggt
gttgtcgctcatggtaatggcagcactacacaattctcttaccgtcatgccatccgtaagatgcttttccgtgaccggcg
agtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaagctgctcttgcccggcgtctatacgggacaaca
ccgcgccacatagcagtactttgaaagtgctcatcatcgggaatcgttcttcggggcggaaagactcaaggatcttgc
cgctattgagatccagttcgatatagcccactcttgcacccagttgatcttcagcatcttttactttcaccagcgtttcggg
gtgtgcaaaaacaggcaagcaaaatgccgcaaagaagggaatgagtgcgacacgaaaatgttggatgctcatact
cgtcctttttcaatattattgaagcatttatcagggttactagtacgtctctcaaggataagtaagtaatattaaggtacgg
gaggtattggacaggccgcaataaaatatctttattttcattacatctgtgtgttggttttttgtgtgaatcgatagtactaa
catacgctctccatcaaaacaaaacgaaacaaaacaaactagcaaaataggctgtccccagtgcaagtgcaggtgc
cagaacatttctct(SEQ ID NO:90).
pGL4骨架(NotI-NcoI)具有下列序列:
gcggccgcaaatgctaaaccactgcagtggttaccagtgcttgatcagtgaggcaccgatctcagcgatctgcctatt
tcgttcgtccatagtggcctgactccccgtcgtgtagatcactacgattcgtgagggcttaccatcaggccccagcgc
agcaatgatgccgcgagagccgcgttcaccggcccccgatttgtcagcaatgaaccagccagcagggagggccg
agcgaagaagtggtcctgctactttgtccgcctccatccagtctatgagctgctgtcgtgatgctagagtaagaagttc
gccagtgagtagtttccgaagagttgtggccattgctactggcatcgtggtatcacgctcgtcgttcggtatggcttcgt
tcaactctggttcccagcggtcaagccgggtcacatgatcacccatattatgaagaaatgcagtcagctccttagggc
ctccgatcgttgtcagaagtaagttggccgcggtgttgtcgctcatggtaatggcagcactacacaattctcttaccgtc
atgccatccgtaagatgcttttccgtgaccggcgagtactcaaccaagtcgttttgtgagtagtgtatacggcgaccaa
gctgctcttgcccggcgtctatacgggacaacaccgcgccacatagcagtactttgaaagtgctcatcatcgggaat
cgttcttcggggcggaaagactcaaggatcttgccgctattgagatccagttcgatatagcccactcttgcacccagtt
gatcttcagcatcttttactttcaccagcgtttcggggtgtgcaaaaacaggcaagcaaaatgccgcaaagaaggga
atgagtgcgacacgaaaatgttggatgctcatactcgtcctttttcaatattattgaagcatttatcagggttactagtacg
tctctcaaggataagtaagtaatattaaggtacgggaggtattggacaggccgcaataaaatatctttattttcattacat
ctgtgtgttggttttttgtgtgaatcgatagtactaacatacgctctccatcaaaacaaaacgaaacaaaacaaactagc
aaaataggctgtccccagtgcaagtgcaggtgccagaacatttctctggcctaactggccggtacctgagctcgcta
gcctcgaggatatcaagatctggcctcggcggccaagcttggcaatccggtactgttggtaaagccaccatgg
(SEQ ID NO:74).
                               实施例10
                        除去合成基因中的序列概述
检索参数:
TFBS检索局限于脊椎动物TF结合位点。通过矩阵家族进行检索,即结果仅表明各位点的家族最佳匹配。MatInspector缺省参数用作核心和矩阵相似性取值(核心相似性=0.75,矩阵相似性=优化),除了序列MCS-1(核心相似性=1.00,矩阵相似性=优化)之外。
启动子组件检索包括所有可能的启动子组件(脊椎动物等),采用缺省参数来进行检索(优化阈值或80%最大分值)。
剪接位点检索针对剪接受体或供体共有序列来进行。
                                        表31
  序列 矩阵文库 TFBS(家族匹配)   启动子组件   剪接位点(+链)
  puro (未应用) 62   5   0
  hpuro (未应用) 68   4   1
  hpuro1 Ver 4.12004年2月 4   2   1
  hpuro2 Ver 4.12004年2月 2   0   1
  --------- ------------------------ ------------------------ ------------------------ ------------------------
  Neo (未应用) 53   0   无数据
  hneo (未应用) 61   2   3
  hneo-1 Ver 3.1.22003年6月 无数据   无数据   无数据
  hneo-2 Ver 3.1.22003年6月 无数据   无数据   无数据
  hneo-3 Ver 3.1.22003年6月 0   0   0
  hneo-4 Ver 4.12004年2月 7   1   0
  hneo-5 Ver 4.12004年2月 0   0   0
  --------- ------------------------ ------------------------ ------------------------ ------------------------
  Hyg (未应用) 74   3   无数据
  hhyg (未应用) 94   4   6
  hhyg-1 Ver 3.1.22003年6月 无数据   无数据   无数据
  hhyg-2 Ver 3.1.22003年6月 无数据   无数据   无数据
  hhyg-3 Ver 3.1.22003年6月 3   0   0
  hHygro Ver 3.32003年8月 5   0   0
  hhyg-4 Ver 3.3 4   0   0
  序列   矩阵文库   TFBS(家族匹配)   启动子组件   剪接位点(+链)
  2003年8月
  ---------   -----------------------   -------------------------   ------------------------   ------------------------
  Luc   (未应用)   213   11   无数据
  Luc+   (未应用)   189   7   无数据
  hluc+ver2A1   Ver 3.02002年11月   110   7   6
  hluc+ver2A2   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2A3   Ver 3.02002年11月   8   无数据   0
  hluc+ver2A4   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2A5   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2A6   Ver 3.02002年11月   2   0   0
  hluc+ver2A6   Ver 3.1.12003年4月   4   0   0
  hluc+ver2A7   Ver 3.1.12003年4月   1   0   0
  hluc+ver2A8   Ver 3.1.12003年4月   1   0   0
  hluc+ver2B1   Ver 3.02002年11月   187   2   8
  hluc+ver2B2   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2B3   Ver 3.02002年11月   35   无数据   0
  hluc+ver2B4   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2B5   Ver 3.02002年11月   无数据   无数据   无数据
  hluc+ver2B6   Ver 3.0   2   0   0
  序列 矩阵文库   TFBS(家族匹配)   启动子组件   剪接位点(+链)
2002年11月
  hluc+ver2B6 Ver 3.1.12003年4月   6   0   0
  hluc+ver2B7 Ver 3.1.12003年4月   2   0   0
  hluc+ver2B8 Ver 3.1.12003年4月   1   0   0
  hluc+ver2B9 Ver 3.1.12003年4月   1   0   0
  hluc+ver2B10 Ver 3.1.12003年4月   1   0   0
  --------- ------------------------   ------------------------   ------------------------   ------------------------
  MCS-1 Ver 2.22001年9月   14   无数据   (未应用)
  MCS-2 Ver 2.22001年9月   12   无数据   (未应用)
  MCS-3 Ver 2.22001年9月   0   无数据   (未应用)
  MCS-4 Ver 2.32001年2月   0   0   (未应用)
  --------- ------------------------   -------------------------   ------------------------   ------------------------
  Bla (未应用)   无数据   无数据   (未应用)
  bla-1 Ver 2.22001年9月   94   1   (未应用)
  bla-2 Ver2.32001年2月   51   无数据   (未应用)
  bla-3 Ver 2.32001年2月   16   无数据   (未应用)
  bla-4 Ver 2.32001年2月   14   无数据   (未应用)
  bla-5 Ver 2.32001年2月   5   0   (未应用)
  序列 矩阵文库   TFBS(家族匹配)   启动子组件   剪接位点(+链)
  --------- ------------------------   ------------------------   ------------------------   ------------------------
  pGL4B-4NN Ver 2.42002年5月   11   0   (未应用)
  pGL4B-4NN1 Ver 2.42002年5月   7   无数据   (未应用)
  pGL4B-4NN2 Ver 2.42002年5月   4   0   (未应用)
  pGL4B-4NN3 Ver 2.42002年5月   3   0   (未应用)
  --------- ------------------------   ------------------------   ------------------------   ------------------------
  SpeI-NcoI-Ver2-Start Ver 4.02003年11月   34   1   (未应用)
  SpeI-NcoI-Ver2 Ver 4.02003年11月   28   1   (未应用)
用5个序列即hluc+ver2A1、bla-1、hneo-1、hpuro-1、hhyg-1(人源化密码子使用)进行分析,在5个序列中有3个发现来自以下家族的TFBS:
V$AHRR(AHR-arnt异型二聚体和AHR-相关因子)
V$ETSF(人和鼠ETS1因子)
V&NFKB(核因子κB/c-rel)
V$VMYB(AMV-病毒myb癌基因)
V$CDEF(细胞周期调节物:细胞周期依赖性元件)
V$HAND(HAND2和E12的bHLH转录因子二聚体)
V$NRSF(神经元限制性沉默因子)
V$WHZF(翼状螺旋和ZF5结合位点)
V$CMYB(C-myb,细胞转录激活蛋白)
V$MINI(肌肉起始序列)
V$P53F(p53肿瘤抑制基因-肿瘤抑制基因Rb的负调节)
V$ZF5F(ZF5POZ域锌指)
V$DEAF(来自黑腹果蝇(D.melanogaster)的畸形表皮自我调节因子-1的同源物)
V$MYOD(成肌细胞决定因子)
V$PAX5(PAX-5/PAX-9B-细胞特异性激活蛋白)
V$EGRF(EGR/神经生长因子诱导蛋白C & rel.fact.)
V$NEUR(NeuroD,β2,HLH域)
V$REBV(Epstein-Barr病毒转录因子R);
在5个序列中有4个发现来自以下家族的TFBS:
V$ETSF(人和鼠ETS1因子)
V$CDEF(细胞周期调节物:细胞周期依赖性元件)
V$HAND(HAND2和E12的bHLH转录因子二聚体)
V$NRSF(神经元限制性沉默因子)
V$PAX5(PAX-5/PAX-9B-细胞特异性激活蛋白)
V$NEUR(NeuroD,β2,HLH域);和
在5个序列中有5个发现来自以下家族的TFBS:
V$PAX5(PAX-5/PAX-9B-细胞特异性激活蛋白)。
参考文献
Altschul等, Nucl.Acids Res.25,3389(1997)。
Aota等, Nucl.Acids Res.16,315(1988)。
Boshart等, Cell41,521(1985)。
Bronstein等, Cal.Biochem.219,169(1994)。
Corpet等, Nucl.Acids Res.16,881(1988)。
deWet等, Mol.Cell.Biol.7,725(1987)。
Dijkema等, EMBO J.4,761(1985)。
Faist和Meyer, Nucl.Acids Res.20,26(1992)。
Gorman等, Proc.Natl.Acad.Sci.USA79,6777(1982)。
Higgins等, Gene73,237(1985)。
Higgins等, CABIOS,5,151(1989)。
Huang等, CABIOS8,155(1992)。
Itolcik等, PNAS94,12410(1997)。
Johnson等,M ol.Reprod.Devel.50,377(1998)。
Jones等, Mol.Cell.Biol.17,6970(1997)。
Karlin和Altschul, Proc.Natl.Acad.Sci.USA87,2264(1990)。
Karlin和Altschul, Proc.Natl.Acad.Sci.USA90,5873(1993)。
Keller等, J.Cell Biol.84,3264(1987)。
Kim等, Gene91,217(1990)。
Lamb等, Mol.Reprod.Devel.51,218(1998)。
Mariatis等, Science236,1237(1987)。
Michael等, EMBO.J.9,481(1990)。
Mizushima和Nagata, Nucl.Acids Res.18,5322(1990)。
Murray等, Nucl.Acids Res.17,477(1989)。
Myers和Miller, CABIOS4,11(1988)。
Nakamura等, NAR28:292(2000)。
Needleman和Wunsen, J.Mol.Biol.48,443(1970)。
Pearson和Lipman, Proc.Natl.Acad.Sci.USA85,2444(1988)。
Pearson等, Meth.Mol.Biol.24,307(1994)。
Sharp等, Nucl.Acids Res.16,8207(1988)。
Sharp等, Nucl.Acids Res.15,1281(1987)。
Smith和Waterman, Adv.Appl.Math.2,482(1981)。
Stemmer等, Gene164,49(1995)。
Uetsuki等, J.Biol.Chem.264,5791(1989)。
Voss等, Trends Biochem.Sci.11,287(1986)。
Wada等, Nucl.Acids Res.18,2367(1990)。
Watson等(编著), Recombinant DNA:A Short Course,Scientific
American Books,W.H.Freeman and Company,New York(1983)。
Wood,K. Photochemistry and Photobiology62,662(1995)。
Wood,K. Science 244,700(1989)。
所有出版物、专利和专利申请都通过引用结合到本文中。尽管在上述说明书中,已经用某些优选的实施方案描述了本发明,并且已提供许多细节用于说明的目的,但是,本领域技术人员显而易见的是,在不偏离本发明基本原理的前提下,本发明还可具有另外的实施方案,并且也可以对本文的某些细节进行改变。
                            序列表
<110>Promega Corporation
     Wood,Keith
     Wood,Monika
     Almond,Brian
     Paguio,Aileen
     Fan,Frank
<120>合成核酸分子及制备方法
<130>341.034W01
<160>97
<170>FastSEQ for Windows Version 4.0
<210>1
<211>795
<212>DNA
<213>未知
<220>
<223>Neo,来自Promega公司的pCI-neo中的新霉素基因。
<400>1
atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60
ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120
gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180
caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240
ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300
gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360
cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420
atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480
gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540
ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600
ggccgetttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660
atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720
ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780
gacgagttct tctga                                                  795
<210>2
<211>264
<212>PRT
<213>未知
<220>
<223>Neo,来自Promega公司的pCI-neo中的新霉素基因。
<400>2
Met Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala Ala Trp Val
 1               5                  10                  15
Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile Gly Cys Ser
            20                  25                  30
Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro Val Leu Phe
        35                  40                  45
Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln Asp Glu Ala
    50                  55                  60
Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys Ala Ala Val
65                  70                  75                  80
Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu Leu Gly Glu
                85                  90                  95
Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro Ala Glu Lys
            100                 105                 110
Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr Leu Asp Pro
        115                 120                 125
Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile Glu Arg Ala
    130                 135                 140
Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp Leu Asp Glu
145                 150                 155                 160
Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg Leu Lys Ala
                165                 170                 175
Arg Met Pro Asp Gly Glu Asp Leu Val Val Thr His Gly Asp Ala Cys
            180                 185                 190
Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly Phe Ile Asp
        195                 200                 205
Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile Ala Leu Ala
    210                 215                 220
Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala Asp Arg Phe
225                 230                 235                 240
Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg Ile Ala Phe
                245                 250                 255
Tyr Arg Leu Leu Asp Glu Phe Phe
            260
<210>3
<211>825
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>3
ccactcagtg gccaccatga tcgagcagga cggcctgcac gccggcagcc ccgccgcctg 60
ggtggagcgc ctgttcggct acgactgggc ccagcagacc atcggctgca gcgacgccgc 120
cgtgttccgc ctgagcgccc agggccgccc cgtgctgttc gtgaagaccg acctgagcgg 180
cgccctgaac gagctgcagg acgaggccgc ccgcctgagc tggctggcca ccaccggcgt 240
gccctgcgcc gccgtgctgg acgtggtgac cgaggccggc cgcgactggc tgctgctggg 300
cgaggtgccc ggccaggacc tgctgagcag ccacctggcc cccgccgaga aggtgagcat 360
catggccgac gccatgcgcc gcctgcacac cctggacccc gccacctgcc ccttcgacca 420
ccaggccaag caccgcatcg agcgcgcccg cacccgcatg gaggccggcc tggtggacca 480
ggacgacctg gacgaggagc accagggcct ggcccccgcc gagctgttcg cccgcctgaa 540
ggcccgcatg cccgacggcg aggacctggt ggtgacccac ggcgacgcct gcctgcccaa 600
catcatggtg gagaacggcc gcttcagcgg cttcatcgac tgcggccgcc tgggcgtggc 660
cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720
gtgggccgac cgcttcctgg tgctgtacgg catcgccgcc cccgacagcc agcgcatcgc 780
cttctaccgc ctgctggacg agttcttcta ataaccagtc tctgg                 825
<210>4
<211>825
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>4
ccactcagtg gccaccatga tcgagcagga cggcctgcac gccggcagcc ccgccgcctg 60
ggtggagcgc ctgttcggct acgactgggc ccagcagacc atcggctgca gcgacgccgc 120
cgtgttccgc ctgagcgccc agggccgccc cgtgctgttc gtgaagaccg acctgagcgg 180
cgccctgaac gagctgcagg acgaggccgc ccgcctgagc tggctggcca ccaccggcgt 240
gccctgcgcc gccgtgctgg acgtggtgac cgaggccggc cgcgactggc tgctgctggg 300
cgaggtgccc ggccaggacc tgctgagcag ccacctggcc cccgccgaga aggtgagcat 360
catggccgac gccatgcgcc gcctgcacac cctggacccc gccacctgcc ccttcgacca 420
ccaggccaag caccgcatcg agcgcgcccg cacccgcatg gaggccggcc tggtggacca 480
ggacgacctg gacgaggagc accagggcct ggcccccgcc gagctgttcg cccgcctgaa 540
ggcccgcatg cccgacggcg aggacctggt ggtgacccac ggcgacgcct gcctgcccaa 600
catcatggtg gagaacggcc gcttcagcgg cttcatcgac tgcggccgcc tgggcgtggc 660
cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720
gtgggccgac cgcttcctgg tgctgtacgg catcgccgcc cccgacagcc agcgcatcgc 780
cttctaccgc ctgctggacg agttcttcta ataaccagtc tctgg                 825
<210>5
<211>818
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>5
cctgcaggcc accatgatcg aacaagacgg cctccatgct ggcagtcccg cagcttgggt 60
cgaacgcttg ttcgggtacg actgggccca gcagaccatc ggatgtagcg atgcggccgt 120
gttccgtcta agcgctcaag gccggcccgt gctgttcgtg aagaccgacc tgagcggcgc 180
cctgaacgag cttcaagacg aggctgcccg cctgagctgg ctggccacca ccggtgtacc 240
ctgcgccgct gtgttggatg ttgtgaccga agccggccgg gactggctgc tgctgggcga 300
ggtccctggc caggatctgc tgagcagcca ccttgccccc gctgagaagg tttccatcat 360
ggccgatgca atgcggcgcc tgcacaccct ggaccccgct acatgcccct tcgaccacca 420
ggctaagcat cggatcgagc gtgctcggac ccgcatggag gccggcctgg tggaccagga 480
cgacctggac gaggagcatc agggcctggc ccccgctgaa ctgttcgccc gcctgaaagc 540
ccgcatgccg gacggtgagg acctggttgt gacacatggt gatgcctgcc tccctaacat 600
catggtcgag aatggccgct tctccggctt catcgactgc ggtcgcctag gagttgccga 660
ccgctaccag gacatcgccc tggccacccg cgacatcgct gaggagcttg gcggcgagtg 720
ggccgaccgc ttcttagtct tgtacggcat cgcagctccc gacagccagc gcatcgcctt 780
ctaccgcctg ctcgacgagt tcttttaatg agcttaag                         818
<210>6
<211>1024
<212>DNA
<213>大肠杆菌(Escherichia coli)
<400>6
atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 60
agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 120
gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 180
cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 240
ggggaattca gcgagagcct gacctattgc atctcccgcc gtgcacaggg tgtcacgttg 300
caagacctgc ctgaaaccga actgcccgct gttctgcagc cggtcgcgga ggccatggat 360
gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 420
atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 480
cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 540
ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 600
tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 660
atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 720
tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgccg 780
cggctccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 840
ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 900
gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 960
tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 1020
gaat                                                              1024
<210>7
<211>341
<212>PRT
<213>大肠杆菌(Escherichia coli)
<400>7
Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile
 1               5                  10                  15
Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu
            20                  25                  30
Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu
        35                  40                  45
Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr
    50                  55                  60
Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile
65                  70                  75                  80
Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln
                85                  90                  95
Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu
            100                 105                 110
Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser
        115                 120                 125
Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr
    130                 135                 140
Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr
145                 150                 155                 160
His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln
                165                 170                 175
Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg
            180                 185                 190
His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn
        195                 200                 205
Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp
    210                 215                 220
Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala
225                 230                 235                 240
Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu
                245                 250                 255
Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp
            260                 265                 270
Gln Leu Tyr Gln Ser Leu Val Asp Gly Ash Phe Asp Asp Ala Ala Trp
        275                 280                 285
Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val
    290                 295                 300
Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly
305                 310                 315                 320
Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg
                325                 330                 335
Pro Arg Ala Lys Glu
            340
<210>8
<211>1056
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>8
ccactcagtg gccaccatga agaagcccga gctgaccgcc accagcgtgg agaagttcct 60
gatcgagaag ttcgacagcg tgagcgacct gatgcagctg agcgagggcg aggagagccg 120
cgccttcagc ttcgacgtgg gcggccgcgg ctacgtgctg cgcgtgaaca gctgcgccga 180
cggcttctac aaggaccgct acgtgtaccg ccacttcgcc agcgccgccc tgcccatccc 240
cgaggtgctg gacatcggcg agttcagcga gagcctgacc tactgcatca gccgccgcgc 300
ccagggcgtg accctgcagg acctgcccga gaccgagctg cccgccgtgc tgcagcccgt 360
ggccgaggcc atggacgcca tcgccgccgc cgacctgagc cagaccagcg gcttcggccc 420
cttcggcccc cagggcatcg gccagtacac cacctggcgc gacttcatct gcgccatcgc 480
cgacccccac gtgtaccact ggcagaccgt gatggacgac accgtgagcg ccagcgtggc 540
ccaggccctg gacgagctga tgctgtgggc cgaggactgc cccgaggtgc gccacctggt 600
gcacgccgac ttcggcagca acaacgtgct gaccgacaac ggccgcatca ccgccgtgat 660
cgactggagc gaggccatgt tcggcgacag ccagtacgag gtggccaaca tcttcttctg 720
gcgcccctgg ctggcctgca tggagcagca gacccgctac ttcgagcgcc gccaccccga 780
gctggccggc agcccccgcc tgcgcgccta catgctgcgc atcggcctgg accagctgta 840
ccagagcctg gtggacggca acttcgacga cgccgcctgg gcccagggcc gctgcgacgc 900
catcgtgcgc agcggcgccg gcaccgtggg ccgcacccag atcgcccgcc gcagcgccgc 960
cgtgtggacc gacggctgcg tggaggtgct ggccgacagc ggcaaccgcc gccccagcac 1020
ccgcccccgc gccaaggagt aataaccagc tcttgg                           1056
<210>9
<211>1056
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>9
ccactccgtg gccaccatga agaagcccga gctgaccgct accagcgttg aaaaatttct 60
catcgagaag ttcgacagtg tgagcgacct gatgcagttg tcggagggcg aagagagccg 120
agccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180
tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tacccatccc 240
cgaagtgttg gacatcggcg agttcagcga gagcctgaca tactgcatca gtagacgcgc 300
ccaaggcgtt actctccaag acctccccga aacagagctg cctgctgtgt tacagcctgt 360
cgccgaagct atggatgcta ttgccgccgc cgacctcagt caaaccagcg gcttcggccc 420
attcgggccc caaggcatcg gccagtacac aacctggcgg gatttcattt gcgccattgc 480
tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgtccg ccagcgtagc 540
tcaagccctg gacgaactga tgctgtgggc cgaagactgt cccgaggtgc gccacctcgt 600
ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660
cgactggtcc gaagctatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720
gcggccctgg ctggcttgca tggagcagca gactcgctac ttcgagcgcc ggcatcccga 780
gctggccggc agccctcgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840
ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900
catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960
cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020
acgaccgcgc gctaaggagt agtaaccagg ctctgg                           1056
<210>10
<211>1048
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>10
cctgcaggcc accatgaaga agcccgagct gaccgctacc agcgttgaaa aatttctcat 60
cgagaagttc gacagtgtga gcgacctgat gcagttgtcg gagggcgaag agagccgagc 120
cttcagcttc gatgtcggcg gacgcggcta tgtactgcgg gtgaatagct gcgctgatgg 180
cttctacaaa gaccgctacg tgtaccgcca cttcgccagc gctgcactac ccatccccga 240
agtgttggac atcggcgagt tcagcgagag cctgacatac tgcatcagta gacgcgccca 300
aggcgttact ctccaagacc tccccgaaac agagctgcct gctgtgttac agcctgtcgc 360
cgaagctatg gatgctattg ccgccgccga cctcagtcaa accagcggct tcggcccatt 420
cgggccccaa ggcatcggcc agtacacaac ctggcgggat ttcatttgcg ccattgctga 480
tccccatgtc taccactggc agaccgtgat ggacgacacc gtgtccgcca gcgtagctca 540
agccctggac gaactgatgc tgtgggccga agactgtccc gaggtgcgcc acctcgtcca 600
tgccgacttc ggcagcaaca acgtcctgac cgacaacggc cgcatcaccg ccgtaatcga 660
ctggtccgaa gctatgttcg gggacagtca gtacgaggtg gccaacatct tcttctggcg 720
gccctggctg gcttgcatgg agcagcagac tcgctacttc gagcgccggc atcccgagct 780
ggccggcagc cctcgtctgc gagcctacat gctgcgcatc ggcctggatc agctctacca 840
gagcctcgtg gacggcaact tcgacgatgc tgcctgggct caaggccgct gcgatgccat 900
cgtccgcagc ggggccggca ccgtcggtcg cacacaaatc gctcgccgga gcgccgccgt 960
atggaccgac ggctgcgtcg aggtgctggc cgacagcggc aaccgccggc ccagtacacg 1020
accgcgcgct aaggagtagt aacttaag                                    1048
<210>11
<211>1174
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>11
ggatccgttt gcgtattggg cgctcttccg ctgatctgcg cagcaccatg gcctgaaata 60
acctctgaaa gaggaacttg gttagctacc ttctgaggcg gaaagaacca gctgtggaat 120
gtgtgtcagt tagggtgtgg aaagtcccca ggctccccag caggcagaag tatgcaaagc 180
atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc agcaggcaga 240
agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc 300
atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt 360
tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa gtagtgagga 420
ggcttttttg gaggcctagg cttttgcaaa aagctcgatt cttctgacac tagcgccacc 480
atgaccgagt acaagcctac cgtgcgcctg gccactcgcg atgatgtgcc ccgcgccgtc 540
cgcactctgg ccgccgcttt cgccgactac cccgctaccc ggcacaccgt ggaccccgac 600
cggcacatcg agcgtgtgac agagttgcag gagctgttcc tgacccgcgt cgggctggac 660
atcggcaagg tgtgggtagc cgacgacggc gcggccgtgg ccgtgtggac tacccccgag 720
agcgttgagg ccggcgccgt gttcgccgag atcggccccc gaatggccga gctgagcggc 780
agccgcctgg ccgcccagca gcaaatggag ggcctgcttg ccccccatcg tcccaaggag 840
cctgcctggt ttctggccac tgtaggagtg agccccgacc accagggcaa gggcttgggc 900
agcgccgtcg tgttgcccgg cgtagaggcc gccgaacgcg ccggtgtgcc cgcctttctc 960
gaaacaagcg caccaagaaa ccttccattc tacgagcgcc tgggcttcac cgtgaccgcc 1020
gatgtcgagg tgcccgaggg acctaggacc tggtgtatga cacgaaaacc tggcgcctaa 1080
tgatctagaa ccggtcatgg ccgcaataaa atatctttat tttcattaca tctgtgtgtt 1140
ggttttttgt gtgttcgaac tagatgctgt cgac                             1174
<210>12
<211>1776
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>12
atggcttcca aggtgtacga ccccgagcaa cgcaaacgca tgatcactgg gcctcagtgg 60
tgggctcgct gcaagcaaat gaacgtgctg gactccttca tcaactacta tgattccgag 120
aagcacgccg agaacgccgt gatttttctg catggtaacg ctgcctccag ctacctgtgg 180
aggcacgtcg tgcctcacat cgagcccgtg gctagatgca tcatccctga tctgatcgga 240
atgggtaagt ccggcaagag cgggaatggc tcatatcgcc tcctggatca ctacaagtac 300
ctcaccgctt ggttcgagct gctgaacctt ccaaagaaaa tcatctttgt gggccacgac 360
tggggggctt gtctggcctt tcactactcc tacgagcacc aagacaagat caaggccatc 420
gtccatgctg agagtgtcgt ggacgtgatc gagtcctggg acgagtggcc tgacatcgag 480
gaggatatcg ccctgatcaa gagcgaagag ggcgagaaaa tggtgcttga gaataacttc 540
ttcgtcgaga ccatgctccc aagcaagatc atgcggaaac tggagcctga ggagttcgct 600
gcctacctgg agccattcaa ggagaagggc gaggttagac ggcctaccct ctcctggcct 660
cgcgagatcc ctctcgttaa gggaggcaag cccgacgtcg tccagattgt ccgcaactac 720
aacgcctacc ttcgggccag cgacgatctg cctaagatgt tcatcgagtc cgaccctggg 780
ttcttttcca acgctattgt cgagggagct aagaagttcc ctaacaccga gttcgtgaag 840
gtgaagggcc tccacttcag ccaggaggac gctccagatg aaatgggtaa gtacatcaag 900
agcttcgtgg agcgcgtgct gaagaacgag cagaccggtg gtgggagcgg aggtggcgga 960
tcaggtggcg gaggctccgg agggattgaa caagatggat tgcacgcagg ttctccggcc 1020
gcttgggtgg agaggctatt cggctatgac tgggcacaac agacaatcgg ctgctctgat 1080
gccgccgtgt tccggctgtc agcgcagggg cgcccggttc tttttgtcaa gaccgacctg 1140
tccggtgccc tgaatgaact gcaggacgag gcagcgcggc tatcgtggct ggccacgacg 1200
ggcgttcctt gcgcagctgt gctcgacgtt gtcactgaag cgggaaggga ctggctgcta 1260
ttgggcgaag tgccggggca ggatctcctg tcatctcacc ttgctcctgc cgagaaagta 1320
tccatcatgg ctgatgcaat gcggcggctg catacgcttg atccggctac ctgcccattc 1380
gaccaccaag cgaaacatcg catcgagcga gcacgtactc ggatggaagc cggtcttgtc 1440
gatcaggatg atctggacga agagcatcag gggctcgcgc cagccgaact gttcgccagg 1500
ctcaaggcgc gcatgcccga cggcgaggat ctcgtcgtga cccatggcga tgcctgcttg 1560
ccgaatatca tggtggaaaa tggccgcttt tctggattca tcgactgtgg ccggctgggt 1620
gtggcggacc gctatcagga catagcgttg gctacccgtg atattgctga agagcttggc 1680
ggcgaatggg ctgaccgctt cctcgtgctt tacggtatcg ccgctcccga ttcgcagcgc 1740
atcgccttct atcgccttct tgacgagttc ttctaa                           1776
<210>13
<211>1776
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>13
atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60
ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120
gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180
caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240
ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300
gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360
cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420
atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480
gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540
ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600
ggccgctttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660
atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720
ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780
gacgagttct tcaccggtgg tgggagcgga ggtggcggat caggtggcgg aggctccgga 840
ggggcttcca aggtgtacga ccccgagcaa cgcaaacgca tgatcactgg gcctcagtgg 900
tgggctcgct gcaagcaaat gaacgtgctg gactccttca tcaactacta tgattccgag 960
aagcacgccg agaacgccgt gatttttctg catggtaacg ctgcctccag ctacctgtgg 1020
aggcacgtcg tgcctcacat cgagcccgtg gctagatgca tcatccctga tctgatcgga 1080
atgggtaagt ccggcaagag cgggaatggc tcatatcgcc tcctggatca ctacaagtac 1140
ctcaccgctt ggttcgagct gctgaacctt ccaaagaaaa tcatctttgt gggccacgac 1200
tggggggctt gtctggcctt tcactactcc tacgagcacc aagacaagat caaggccatc 1260
gtccatgctg agagtgtcgt ggacgtgatc gagtcctggg acgagtggcc tgacatcgag 1320
gaggatatcg ccctgatcaa gagcgaagag ggcgagaaaa tggtgcttga gaataacttc 1380
ttcgtcgaga ccatgctccc aagcaagatc atgcggaaac tggagcctga ggagttcgct 1440
gcctacctgg agccattcaa ggagaagggc gaggttagac ggcctaccct ctcctggcct 1500
cgcgagatcc ctctcgttaa gggaggcaag cccgacgtcg tccagattgt ccgcaactac 1560
aacgcctacc ttcgggccag cgacgatctg cctaagatgt tcatcgagtc cgaccctggg 1620
ttcttttcca acgctattgt cgagggagct aagaagttcc ctaacaccga gttcgtgaag 1680
gtgaagggcc tccacttcag ccaggaggac gctccagatg aaatgggtaa gtacatcaag 1740
agcttcgtgg agcgcgtgct gaagaacgag cagtaa                           1776
<210>14
<211>1653
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>14
atggccgatg ctaagaacat taagaagggc cctgctccct tctaccctct ggaggatggc 60
accgctggcg agcagctgca caaggccatg aagaggtatg ccctggtgcc tggcaccatt 120
gccttcaccg atgcccacat tgaggtggac atcacctatg ccgagtactt cgagatgtct 180
gtgcgcctgg ccgaggccat gaagaggtac ggcctgaaca ccaaccaccg catcgtggtg 240
tgctctgaga actctctgca gttcttcatg ccagtgctgg gcgccctgtt catcggagtg 300
gccgtggccc ctgctaacga catttacaac gagcgcgagc tgctgaacag catgggcatt 360
tctcagccta ccgtggtgtt cgtgtctaag aagggcctgc agaagatcct gaacgtgcag 420
aagaagctgc ctatcatcca gaagatcatc atcatggact ctaagaccga ctaccagggc 480
ttccagagca tgtacacatt cgtgacatct catctgcctc ctggcttcaa cgagtacgac 540
ttcgtgccag agtctttcga cagggacaaa accattgccc tgatcatgaa cagctctggg 600
tctaccggcc tgcctaaggg cgtggccctg cctcatcgca ccgcctgtgt gcgcttctct 660
cacgcccgcg accctatttt cggcaaccag atcatccccg acaccgctat tctgagcgtg 720
gtgccattcc accacggctt cggcatgttc accaccctgg gctacctgat ttgcggcttt 780
cgggtggtgc tgatgtaccg cttcgaggag gagctgttcc tgcgcagcct gcaagactac 840
aaaattcagt ctgccctgct ggtgccaacc ctgttcagct tcttcgctaa gagcaccctg 900
atcgacaagt acgacctgtc taacctgcac gagattgcct ctggcggcgc cccactgtct 960
aaggaggtgg gcgaagccgt ggccaagcgc tttcatctgc caggcatccg ccagggctac 1020
ggcctgaccg agacaaccag cgccattctg attaccccag agggcgacga caagcctggc 1080
gccgtgggca aggtggtgcc attcttcgag gccaaggtgg tggacctgga caccggcaag 1140
accctgggag tgaaccagcg cggcgagctg tgtgtgcgcg gccctatgat tatgtccggc 1200
tacgtgaata accctgaggc cacaaacgcc ctgatcgaca aggacggctg gctgcactct 1260
ggcgacattg cctactggga cgaggacgag cacttcttca tcgtggaccg cctgaagtct 1320
ctgatcaagt acaagggcta ccaggtggcc ccagccgagc tggagtctat cctgctgcag 1380
caccctaaca ttttcgacgc cggagtggcc ggcctgcccg acgacgatgc cggcgagctg 1440
cctgccgccg tcgtcgtgct ggaacacggc aagaccatga ccgagaagga gatcgtggac 1500
tatgtggcca gccaggtgac aaccgccaag aagctgcgcg gcggagtggt gttcgtggac 1560
gaggtgccca agggcctgac cggcaagctg gacgcccgca agatccgcga gatcctgatc 1620
aaggctaaga aaggcggcaa gatcgccgtg taa                              1653
<210>15
<211>597
<212>DNA
<213>链霉菌(Streptomyces sp.)
<400>15
atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc ccgggccgta 60
cgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgacccggac 120
cgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgac 180
atcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggag 240
agcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcatggccga gttgagcggt 300
tcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggag 360
cccgcgtggt tcctggccac cgtcggcgtg tcgcccgacc accagggcaa gggtctgggc 420
agcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctg 480
gagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgcc 540
gacgtcgagg tgcccgaagg accgcgcacctggtgcatga cccgcaagcc cggtgcc     597
<210>16
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>16
aaagccacca tggaggacgc caagaacatc aagaagggcc ccgccccctt ctaccccctg 60
gaggacggca ccgccggcga gcagctgcac aaggccatga agcgctacgc cctggtgccc 120
ggcaccatcg ccttcaccga cgcccacatc gaggtggaca tcacctacgc cgagtacttc 180
gagatgagcg tgcgcctggc cgaggccatg aagcgctacg gcctgaacac caaccaccgc 240
atcgtggtgt gcagcgagaa cagcctgcag ttcttcatgc ccgtgctggg cgccctgttc 300
atcggcgtgg ccgtggcccc cgccaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtggtgttc gtgagcaaga agggcctgca gaagatcctg 420
aacgtgcaga agaagctgcc catcatccag aagatcatca tcatggacag caagaccgac 480
taccagggct tccagagcat gtacaccttc gtgaccagcc acctgccccc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgcgacaaga ccatcgccct gatcatgaac 600
agcagcggca gcaccggcct gcccaagggc gtggccctgc cccaccgcac cgcctgcgtg 660
cgcttcagcc acgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgccatc 720
ctgagcgtgg tgcccttcca ccacggcttc ggcatgttca ccaccctggg ctacctgatc 780
tgcggcttcc gcgtggtgct gatgtaccgc ttcgaggagg agctgttcct gcgcagcctg 840
caggactaca agatccagag cgccctgctg gtgcccaccc tgttcagctt cttcgccaag 900
agcaccctga tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggcgcc 960
cccctgagca aggaggtggg cgaggccgtg gccaagcgct tccacctgcc cggcatccgc 1020
cagggctacg gcctgaccga gaccaccagc gccatcctga tcacccccga gggcgacgac 1080
aagcccggcg ccgtgggcaa ggtggtgccc ttcttcgagg ccaaggtggt ggacctggac 1140
accggcaaga ccctgggcgt gaaccagcgc ggcgagctgt gcgtgcgcgg ccccatgatc 1200
atgagcggct acgtgaacaa ccccgaggcc accaacgccc tgatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgc 1320
ctgaagagcc tgatcaagta caagggctac caggtggccc ccgccgagct ggagagcatc 1380
ctgctgcagc accccaacat cttcgacgcc ggcgtggccg gcctgcccga cgacgacgcc 1440
ggcgagctgc ccgccgccgt ggtggtgctg gagcacggca agaccatgac cgagaaggag 1500
atcgtggact acgtggccag ccaggtgacc accgccaaga agctgcgcgg cggcgtggtg 1560
ttcgtggacg aggtgcccaa gggcctgacc ggcaagctgg acgcccgcaa gatccgcgag 1620
atcctgatca aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>17
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>17
aaagccacca tggaggacgc caagaacatc aagaagggcc cagcgccatt ctaccccctg 60
gaggacggca ccgccggcga gcagctgcac aaggccatga agcgctacgc cctggtgccc 120
ggcaccatcg ccttcaccga cgcacatatc gaggtggaca tcacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaggctatg aagcgctatg ggctgaacac caaccatcgc 240
atcgtggtgt gcagcgagaa cagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggcgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctg 420
aacgtgcaaa agaagctgcc catcatccaa aagatcatca tcatggacag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgaccagcc atttgccgcc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgcgacaaga ccatcgccct gatcatgaac 600
agtagtggca gtaccggctt acctaagggc gtggccctac cgcaccgcac cgcctgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctgagcgtgg tgccatttca ccacggcttc ggcatgttca ccaccctggg ctacttgatc 780
tgcggcttcc gggtcgtgct gatgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactaca agattcaaag cgccctgctg gtgcccaccc tgttcagttt cttcgccaag 900
agcaccctga tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggcgcc 960
ccgctcagca aggaggtggg cgaggccgtg gccaagcgct tccacctgcc aggcatccgc 1020
cagggctacg gcctgaccga gacaaccagc gccattctga tcacccccga gggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacctggac 1140
accggtaaaa ccctgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgccc tgatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcagc accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtggtgctg gagcacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg cggcgtggtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctgatca aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>18
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>18
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactg 60
gaggacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca tcacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaggctatg aagcgctatg ggctgaatac caaccatcgc 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgaccagcc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcctgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaaag cgccctgctg gtgcccacac tgttcagctt cttcgccaag 900
agcactctca tcgacaagta cgacctgagc aacctgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtggg cgaggccgtg gccaagcgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga ccctgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gagcacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>19
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>19
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60
gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaacac caaccatcgc 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgccaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtggg cgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>20
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>20
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60
gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaacac caaccatcgg 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgctaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtggg cgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>21
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>21
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60
gaagacggca ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaaag cgccctgctg gtgcccacac tgttcagttt cttcgctaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>22
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>22
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60
gaagacggga ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaatc tgccctgctg gtgcccacac tatttagctt cttcgctaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggcctgacg ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>23
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>23
aaagccacca tggaagatgc caaaaacatt aagaagggcc cagcgccatt ctacccactc 60
gaagacggga ccgccggcga gcagctgcac aaagccatga agcgctacgc cctggtgccc 120
ggcaccatcg cctttaccga cgcacatatc gaggtggaca ttacctacgc cgagtacttc 180
gagatgagcg ttcggctggc agaagctatg aagcgctatg ggctgaatac aaaccatcgg 240
atcgtggtgt gcagcgagaa tagcttgcag ttcttcatgc ccgtgttggg tgccctgttc 300
atcggtgtgg ctgtggcccc agctaacgac atctacaacg agcgcgagct gctgaacagc 360
atgggcatca gccagcccac cgtcgtattc gtgagcaaga aagggctgca aaagatcctc 420
aacgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccagggct tccaaagcat gtacaccttc gtgacttccc atttgccacc cggcttcaac 540
gagtacgact tcgtgcccga gagcttcgac cgggacaaaa ccatcgccct gatcatgaac 600
agtagtggca gtaccggatt gcccaagggc gtagccctac cgcaccgcac cgcttgtgtc 660
cgattcagtc atgcccgcga ccccatcttc ggcaaccaga tcatccccga caccgctatc 720
ctcagcgtgg tgccatttca ccacggcttc ggcatgttca ccacgctggg ctacttgatc 780
tgcggctttc gggtcgtgct catgtaccgc ttcgaggagg agctattctt gcgcagcttg 840
caagactata agattcaatc tgccctgctg gtgcccacac tatttagctt cttcgctaag 900
agcactctca tcgacaagta cgacctaagc aacttgcacg agatcgccag cggcggggcg 960
ccgctcagca aggaggtagg tgaggccgtg gccaaacgct tccacctacc aggcatccgc 1020
cagggctacg gcctgacaga aacaaccagc gccattctga tcacccccga aggggacgac 1080
aagcctggcg cagtaggcaa ggtggtgccc ttcttcgagg ctaaggtggt ggacttggac 1140
accggtaaga cactgggtgt gaaccagcgc ggcgagctgt gcgtccgtgg ccccatgatc 1200
atgagcggct acgttaacaa ccccgaggct acaaacgctc tcatcgacaa ggacggctgg 1260
ctgcacagcg gcgacatcgc ctactgggac gaggacgagc acttcttcat cgtggaccgg 1320
ctgaagagcc tgatcaaata caagggctac caggtagccc cagccgaact ggagagcatc 1380
ctgctgcaac accccaacat cttcgacgcc ggggtcgccg gcctgcccga cgacgatgcc 1440
ggcgagctgc ccgccgcagt cgtcgtgctg gaacacggta aaaccatgac cgagaaggag 1500
atcgtggact atgtggccag ccaggttaca accgccaaga agctgcgcgg tggtgttgtg 1560
ttcgtggacg aggtgcctaa aggactgacc ggcaagttgg acgcccgcaa gatccgcgag 1620
attctcatta aggccaagaa gggcggcaag atcgccgtgt aataattcta ga         1672
<210>24
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>24
aaagccacca tggaggatgc taagaatatt aagaaggggc ctgctccttt ttatcctctg 60
gaggatggga cagctgggga gcagctgcat aaggctatga agagatatgc tctggtgcct 120
gggacaattg cttttacaga tgctcatatt gaggtggata ttacatatgc tgagtatttt 180
gagatgtctg tgagactggc tgaggctatg aagagatatg ggctgaatac aaatcataga 240
attgtggtgt gttctgagaa ttctctgcag ttttttatgc ctgtgctggg ggctctgttt 300
attggggtgg ctgtggctcc tgctaatgat atttataatg agagagagct gctgaattct 360
atggggattt ctcagcctac agtggtgttt gtgtctaaga aggggctgca gaagattctg 420
aatgtgcaga agaagctgcc tattattcag aagattatta ttatggattc taagacagat 480
tatcaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tgggtttaat 540
gagtatgatt ttgtgcctga gtcttttgat agagataaga caattgctct gattatgaat 600
tcttctgggt ctacagggct gcctaagggg gtggctctgc ctcatagaac agcttgtgtg 660
agattttctc atgctagaga tcctattttt gggaatcaga ttattcctga tacagctatt 720
ctgtctgtgg tgccttttca tcatgggttt gggatgttta caacactggg gtatctgatt 780
tgtgggttta gagtggtgct gatgtataga tttgaggagg agctgtttct gagatctctg 840
caggattata agattcagtc tgctctgctg gtgcctacac tgttttcttt ttttgctaag 900
tctacactga ttgataagta tgatctgtct aatctgcatg agattgcttc tgggggggct 960
cctctgtcta aggaggtggg ggaggctgtg gctaagagat ttcatctgcc tgggattaga 1020
caggggtatg ggctgacaga gacaacatct gctattctga ttacacctga gggggatgat 1080
aagcctgggg ctgtggggaa ggtggtgcct ttttttgagg ctaaggtggt ggatctggat 1140
acagggaaga cactgggggt gaatcagaga ggggagctgt gtgtgagagg gcctatgatt 1200
atgtctgggt atgtgaataa tcctgaggct acaaatgctc tgattgataa ggatgggtgg 1260
ctgcattctg gggatattgc ttattgggat gaggatgagc atttttttat tgtggataga 1320
ctgaagtctc tgattaagta taaggggtat caggtggctc ctgctgagct ggagtctatt 1380
ctgctgcagc atcctaatat ttttgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggggagctgc ctgctgctgt ggtggtgctg gagcatggga agacaatgac agagaaggag 1500
attgtggatt atgtggcttc tcaggtgaca acagctaaga agctgagagg gggggtggtg 1560
tttgtggatg aggtgcctaa ggggctgaca gggaagctgg atgctagaaa gattagagag 1620
attctgatta aggctaagaa gggggggaag attgctgtgt aataattcta ga         1672
<210>25
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>25
aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccttt ctaccctctg 60
gaggatggga ctgccgggga gcagctgcat aaagctatga agcggtatgc tctggtgcca 120
ggcacaattg cgttcacgga tgctcacatt gaggtggaca ttacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc tgaggctatg aagcgatatg ggctgaatac aaaccataga 240
attgtagtgt gctctgagaa ctcgttgcag ttttttatgc ctgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atttacaatg agagagagct tttgaactcg 360
atggggattt ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagacagac 480
taccaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tgggttcaac 540
gagtatgact ttgtgcccga gtctttcgac agagataaga caattgctct gattatgaat 600
tcatctgggt ctaccgggct gcctaagggt gtagctctgc cacatagaac agcttgtgtg 660
agattttctc atgctaggga ccctattttt gggaatcaga ttattcctga tactgctatt 720
ctgtcggttg tgccctttca tcatgggttt gggatgttta caacactggg ctacctgata 780
tgtgggttta gagtggtgct catgtatagg tttgaggagg agcttttttt gcgctctctg 840
caagattata agattcagtc tgctctgctg gtgcctacac tgttttcttt ttttgctaag 900
tctaccctga tcgataagta tgatctgtcc aacctgcacg agattgcttc tgggggggct 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggaatcaga 1020
caggggtatg ggctaacaga aacaacatct gctattctga ttacaccaga gggggatgat 1080
aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ctaaagtagt tgatcttgat 1140
accggtaaga cactgggggt gaatcagcga ggggaactgt gtgtgagagg gcctatgatt 1200
atgtcggggt atgtgaacaa ccctgaggct acaaatgctc tgattgataa ggatgggtgg 1260
ctgcattcgg gcgatattgc ttactgggat gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata taaggggtat caagtagctc ctgctgagct ggagtccatt 1380
ctgcttcaac atcctaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggggagctgc ctgctgctgt agtggtgctg gagcacggta agacaatgac agagaaggag 1500
attgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctgaca ggcaagctgg atgctagaaa aattcgagag 1620
attctgatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>26
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>26
aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccttt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggattt ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagaccgac 480
taccaggggt ttcagtctat gtatacattt gtgacatctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agagataaga caattgctct gatcatgaat 600
tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatagaac agcttgtgtg 660
agattttctc atgctaggga ccctattttt gggaatcaga ttattcctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttta caacactggg ctacctaata 780
tgtgggttta gagtggtgct catgtatagg tttgaagaag agctgttctt acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtatg ggctaacaga aacaacatct gctattctga ttacaccaga gggggatgat 1080
aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgagagg gcctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tgattgataa ggatggctgg 1260
ctgcattcgg gcgacattgc ttactgggat gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380
ctgcttcaac atcccaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggggagttgc ctgctgctgt agtggtgctt gagcacggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgctagaaa aattcgagag 1620
attctgatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>27
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>27
aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattattcaa aagattatta ttatggactc taagacagac 480
taccaggggt ttcagtccat gtatacattt gtgacatctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agagataaga caattgctct gatcatgaat 600
tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt gggaatcaga ttattcctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttta caacactggg atacctaata 780
tgtgggttta gagtggtgct catgtatagg tttgaagaag aactgttctt acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aagcccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc ttattgataa ggatggctgg 1260
ttgcattcgg gcgacattgc ctactgggat gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380
ctgcttcaac atccaaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagttgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>28
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>28
aaagccacca tggaagatgc taaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
ggcacaattg cgttcacgga tgctcacatt gaggtggaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagaccgac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
tcatccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt gggaatcaga ttattcctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc ttattgataa ggatggctgg 1260
ttgcattcgg gcgacattgc ctactgggat gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380
ctgcttcaac atcctaacat tttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagttgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>29
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>29
aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
ggcacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagaccgac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260
cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgctgagct ggaatccatt 1380
ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagctgc ctgctgctgt agtagtgctt gagcacggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactgagagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>30
<211>1056
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>30
ccactcagtg gccaccatga agaagcccga gctgaccgct accagcgttg agaagttcct 60
gatcgagaag ttcgacagcg tgagcgacct gatgcagtta agcgagggcg aggaaagccg 120
cgccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180
tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tgcccatccc 240
cgaggtgctg gacatcggcg agttcagcga gagcctgaca tactgcatca gccgccgcgc 300
tcaaggcgtg actctccaag acctgcccga gacagagctg cccgctgtgc tacagcctgt 360
cgccgaggct atggacgcta ttgccgccgc cgacctgagc cagaccagcg gcttcggccc 420
attcgggccc caaggcatcg gccagtacac cacctggcgc gacttcatct gcgccattgc 480
tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgagcg ccagcgtagc 540
tcaagccctg gacgagctga tgctgtgggc cgaggactgc cccgaggtgc gccatctcgt 600
ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660
cgactggagc gaggccatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720
gcggccctgg ctggcctgca tggagcagca aacccgctac ttcgagcgcc gccatcccga 780
gctggccggc agcccccgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840
ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900
catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960
cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020
acgaccgcgc gctaaggagt agtaaccagc tcttgg                           1056
<210>31
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>31
aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260
cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380
ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>32
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>32
aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
attggggtgg ctgtggctcc tgctaatgac atctacaacg agcgagagct gttgaacagt 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaat 540
gagtatgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
agcagtgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagaga ggtgaattgt gtgtgagggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260
cttcatagtg gagatattgc ctactgggat gaagatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380
ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>33
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>33
aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
attggggtgg ctgtggctcc tgctaatgac atctacaacg agcgagagct gttgaacagt 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctacc gatcatacaa aagatcatca tcatggatag caagaccgac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaat 540
gagtatgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
agcagtgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacctgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagaga ggtgaattgt gtgtgagggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260
cttcatagtg gagatattgc ctactgggat gaagatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380
ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560
tttgtggatg aggtgcctaa aggactcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>34
<211>10
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>34
gccaccatga                                                        10
<210>35
<211>11
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<220>
<221>其他特征
<222>4,5,6,7,8
<223>n=A、T、C或G
<400>35
ccannnnntg g                                                   11
<210>36
<211>25
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<220>
<221>其他特征
<222>1,2,3,4,5,9,10,11,12,13
<223>n=A、T、C或G
<400>36
nnnnnccann nnntggccac catgg                                    25
<210>37
<211>20
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<220>
<221>其他特征
<222>10,11,12,13,14,18,19,20
<223>n=A、T、c或G
<400>37
taataaccan nnnntggnnn                                             20
<210>38
<211>825
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>38
ccactcagtg gccaccatga tcgagcagga cggcctccat gctggcagtc ccgcagcctg 60
ggtcgagcgc ttgttcgggt acgactgggc ccagcagacc atcggatgta gcgatgccgc 120
agtgttccgc ctgagcgctc aaggccggcc cgtgctgttc gtgaagaccg acctgagcgg 180
cgccctgaac gagcttcaag acgaggctgc ccgcctgagc tggctggcca ccaccggtgt 240
accctgcgcc gctgtgttgg atgttgtgac cgaagccggc cgcgactggc tgctgctggg 300
cgaggtgcct ggccaggacc tgctgagcag ccacctggcc cccgctgaga aggtgagcat 360
catggccgac gccatgcggc gcctgcacac cctggacccc gctacatgcc ccttcgacca 420
ccaggctaag caccgcatcg agcgggctcg gacccgcatg gaggccggcc tggtggacca 480
ggacgacctg gacgaggagc accagggcct ggcccccgct gaactgttcg cccgcctgaa 540
agcccgcatg ccggacggtg aggacctggt tgtgacacac ggcgacgcct gcctccctaa 600
catcatggtc gagaacgggc gcttctccgg cttcatcgac tgcggccgcc tgggcgttgc 660
cgaccgctac caggacatcg ccctggccac ccgcgacatc gccgaggagc tgggcggcga 720
gtgggccgac cgcttcctgg tcttgtacgg catcgcagct cccgacagcc agcgcatcgc 780
cttctaccgc ctgctggacg agttcttcta gtaaccaggc tctgg                 825
<210>39
<211>825
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>39
ccactccgtg gccaccatga tcgaacaaga cggcctccat gctggcagtc ccgcagcttg 60
ggtcgaacgc ttgttcgggt acgactgggc ccagcagacc atcggatgta gcgatgcggc 120
cgtgttccgt ctaagcgctc aaggccggcc cgtgctgttc gtgaagaccg acctgagcgg 180
cgccctgaac gagcttcaag acgaggctgc ccgcctgagc tggctggcca ccaccggtgt 240
accctgcgcc gctgtgttgg atgttgtgac cgaagccggc cgggactggc tgctgctggg 300
cgaggtccct ggccaggatc tgctgagcag ccaccttgcc cccgctgaga aggtttccat 360
catggccgat gcaatgcggc gcctgcacac cctggacccc gctacatgcc ccttcgacca 420
ccaggctaag catcggatcg agcgtgctcg gacccgcatg gaggccggcc tggtggacca 480
ggacgacctg gacgaggagc atcagggcct ggcccccgct gaactgttcg cccgcctgaa 540
agcccgcatg ccggacggtg aggacctggt tgtgacacat ggagatgcct gcctccctaa 600
catcatggtc gagaatggcc gcttctccgg cttcatcgac tgcggtcgcc taggagttgc 660
cgaccgctac caggacatcg ccctggccac ccgcgacatc gctgaggagc ttggcggcga 720
gtgggccgac cgcttcttag tcttgtacgg catcgcagct cccgacagcc agcgcatcgc 780
cttctaccgc ctgctcgacg agttctttta atgaccaggc tctgg                 825
<210>40
<400>40
000
<210>41
<211>861
<212>DNA
<213>大肠杆菌(Escherichia coli)
<400>41
atgagtattc aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct 60
gtttttgctc acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca 120
cgagtgggtt acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc 180
gaagaacgtt ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc 240
cgtattgacg ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg 300
gttgagtact caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta 360
tgcagtgctg ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc 420
ggaggaccga aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt 480
gatcgttggg aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg 540
cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct 600
tcccggcaac aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc 660
tcggcccttc cggctggctg gtttattgct gataaatctg gagccggtga gcgtgggtct 720
cgcggtatca ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac 780
acgacgggga gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc 840
tcactgatta agcattggta a                                           861
<210>42
<211>1056
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>42
ccactccgtg gccaccatga agaagcccga gctgaccgct accagcgttg aaaaatttct 60
catcgagaag ttcgacagtg tgagcgacct gatgcagttg tcggagggcg aagagagccg 120
agccttcagc ttcgatgtcg gcggacgcgg ctatgtactg cgggtgaata gctgcgctga 180
tggcttctac aaagaccgct acgtgtaccg ccacttcgcc agcgctgcac tacccatccc 240
cgaagtgttg gacatcggcg agttcagcga gagcctgaca tactgcatca gtagacgcgc 300
ccaaggcgtt actctccaag acctccccga aacagagctg cctgctgtgt tacagcctgt 360
cgccgaagct atggatgcta ttgccgccgc cgacctcagt caaaccagcg gcttcggccc 420
attcgggccc caaggcatcg gccagtacac aacctggcgg gatttcattt gcgccattgc 480
tgatccccat gtctaccact ggcagaccgt gatggacgac accgtgtccg ccagcgtagc 540
tcaagccctg gacgaactga tgctgtgggc cgaagactgt cccgaggtgc gccacctcgt 600
ccatgccgac ttcggcagca acaacgtcct gaccgacaac ggccgcatca ccgccgtaat 660
cgactggagc gaggctatgt tcggggacag tcagtacgag gtggccaaca tcttcttctg 720
gcggccctgg ctggcttgca tggagcagca gactcgctac ttcgagcgcc ggcatcccga 780
gctggccggc agccctcgtc tgcgagccta catgctgcgc atcggcctgg atcagctcta 840
ccagagcctc gtggacggca acttcgacga tgctgcctgg gctcaaggcc gctgcgatgc 900
catcgtccgc agcggggccg gcaccgtcgg tcgcacacaa atcgctcgcc ggagcgccgc 960
cgtatggacc gacggctgcg tcgaggtgct ggccgacagc ggcaaccgcc ggcccagtac 1020
acgaccgcgc gctaaggagt agtaaccagc tcttgg                           1056
<210>43
<211>1653
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>43
atggaagacg ccaaaaacat aaagaaaggc ccggcgccat tctatccgct ggaagatgga 60
accgctggag agcaactgca taaggctatg aagagatacg ccctggttcc tggaacaatt 120
gcttttacag atgcacatat cgaggtggac atcacttacg ctgagtactt cgaaatgtcc 180
gttcggttgg cagaagctat gaaacgatat gggctgaata caaatcacag aatcgtcgta 240
tgcagtgaaa actctcttca attctttatg ccggtgttgg gcgcgttatt tatcggagtt 300
gcagttgcgc ccgcgaacga catttataat gaacgtgaat tgctcaacag tatgggcatt 360
tcgcagccta ccgtggtgtt cgtttccaaa aaggggttgc aaaaaatttt gaacgtgcaa 420
aaaaagctcc caatcatcca aaaaattatt atcatggatt ctaaaacgga ttaccaggga 480
tttcagtcga tgtacacgtt cgtcacatct catctacctc ccggttttaa tgaatacgat 540
tttgtgccag agtccttcga tagggacaag acaattgcac tgatcatgaa ctcctctgga 600
tctactggtc tgcctaaagg tgtcgctctg cctcatagaa ctgcctgcgt gagattctcg 660
catgccagag atcctatttt tggcaatcaa atcattccgg atactgcgat tttaagtgtt 720
gttccattcc atcacggttt tggaatgttt actacactcg gatatttgat atgtggattt 780
cgagtcgtct taatgtatag atttgaagaa gagctgtttc tgaggagcct tcaggattac 840
aagattcaaa gtgcgctgct ggtgccaacc ctattctcct tcttcgccaa aagcactctg 900
attgacaaat acgatttatc taatttacac gaaattgctt ctggtggcgc tcccctctct 960
aaggaagtcg gggaagcggt tgccaagagg ttccatctgc caggtatcag gcaaggatat 1020
gggctcactg agactacatc agctattctg attacacccg agggggatga taaaccgggc 1080
gcggtcggta aagttgttcc attttttgaa gcgaaggttg tggatctgga taccgggaaa 1140
acgctgggcg ttaatcaaag aggcgaactg tgtgtgagag gtcctatgat tatgtccggt 1200
tatgtaaaca atccggaagc gaccaacgcc ttgattgaca aggatggatg gctacattct 1260
ggagacatag cttactggga cgaagacgaa cacttcttca tcgttgaccg cctgaagtct 1320
ctgattaagt acaaaggcta tcaggtggct cccgctgaat tggaatccat cttgctccaa 1380
caccccaaca tcttcgacgc aggtgtcgca ggtcttcccg acgatgacgc cggtgaactt 1440
cccgccgccg ttgttgtttt ggagcacgga aagacgatga cggaaaaaga gatcgtggat 1500
tacgtcgcca gtcaagtaac aaccgcgaaa aagttgcgcg gaggagttgt gtttgtggac 1560
gaagtaccga aaggtcttac cggaaaactc gacgcaagaa aaatcagaga gatcctcata 1620
aaggccaaga agggcggaaa gatcgccgtg taa                              1653
<210>44
<211>1369
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>44
ggatccgttt gcgtattggg cgctcttccg ctgatctgcg cagcaccatg gcctgaaata 60
acctctgaaa gaggaacttg gttagctacc ttctgaggcg gaaagaacca gctgtggaat 120
gtgtgtcagt tagggtgtgg aaagtcccca ggctccccag caggcagaag tatgcaaagc 180
atgcatctca attagtcagc aaccaggtgt ggaaagtccc caggctcccc agcaggcaga 240
agtatgcaaa gcatgcatct caattagtca gcaaccatag tcccgcccct aactccgccc 300
atcccgcccc taactccgcc cagttccgcc cattctccgc cccatggctg actaattttt 360
tttatttatg cagaggccga ggccgcctct gcctctgagc tattccagaa gtagtgagga 420
ggcttttttg gaggcctagg cttttgcaaa aagctcgatt cttctgacac tagcgccacc 480
atgatcgaac aagacggcct ccatgctggc agtcccgcag cttgggtcga acgcttgttc 540
gggtacgact gggcccagca gaccatcgga tgtagcgatg cggccgtgtt ccgtctaagc 600
gctcaaggcc ggcccgtgct gttcgtgaag accgacctga gcggcgccct gaacgagctt 660
caagacgagg ctgcccgcct gagctggctg gccaccaccg gcgtaccctg cgccgctgtg 720
ttggatgttg tgaccgaagc cggccgggac tggctgctgc tgggcgaggt ccctggccag 780
gatctgctga gcagccacct tgcccccgct gagaaggttt ctatcatggc cgatgcaatg 840
cggcgcctgc acaccctgga ccccgctacc tgccccttcg accaccaggc taagcatcgg 900
atcgagcgtg ctcggacccg catggaggcc ggcctggtgg accaggacga cctggacgag 960
gagcatcagg gcctggcccc cgctgaactg ttcgcccgac tgaaagcccg catgccggac 1020
ggtgaggacc tggttgtcac acacggagat gcctgcctcc ctaacatcat ggtcgagaat 1080
ggccgcttct ccggcttcat cgactgcggt cgcctaggag ttgccgaccg ctaccaggac 1140
atcgccctgg ccacccgcga catcgctgag gagcttggcg gcgagtgggc cgaccgcttc 1200
ttagtcttgt acggcatcgc agctcccgac agccagcgca tcgccttcta ccgcttgctc 1260
gacgagttct tttaatgatc tagaaccggt catggccgca ataaaatatc tttattttca 1320
ttacatctgt gtgttggttt tttgtgtgtt cgaactagat gctgtcgac             1369
<210>45
<211>1214
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>45
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420
cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900
ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960
atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020
agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080
tgagggttga gtccaagtca cgtttggaga tctggtacct tacgcgtatg agctctacgt 1140
agctagcggc ctcggcggcc gaattcttgc gttcgaagct tggcaatccg gtactgttgg 1200
taaagccacc atgg                                                   1214
<210>46
<211>1522
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>46
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420
cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900
ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcaag agatttgtgc 960
atacacagtg actcatactt tcaccaatac tttgcatttt ggataaatac tagacaactt 1020
tagaagtgaa ttatttatga ggttgtctta aaattaaaaa ttacaaagta ataaatcaca 1080
ttgtaatgta ttttgtgtga tacccagagg tttaaggcaa cctattactc ttatgctcct 1140
gaagtccaca attcacagtc ctgaactata atcttatctt tgtgattgct gagcaaattt 1200
gcagtataat ttcagtgctt ttaaattttg tcctgcttac tattttcctt ttttatttgg 1260
gtttgatatg cgtgcacaga atggggcttc tattaaaata ttcttgagag accgcgatcg 1320
ccaccatgtc taggtaggta gtaaacgaaa gggcttaaag gcctaagtgg ccctcgagtc 1380
cagccttgag ttggttgagt ccaagtcacg tttggagatc tggtacctta cgcgtatgag 1440
ctctacgtag ctagcggcct cggcggccga attcttgcgt tcgaagcttg gcaatccggt 1500
actgttggta aagccaccat gg                                          1522
<210>47
<211>1134
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>47
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420
cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcgtcct 900
ttttcaatat tattgaagca tttatcaggg ttactagtac gtctctcaag agatttgtgc 960
atacacagtg actcatactt tcaccaatac tttgcatttt ggataaatac tagacaactt 1020
tagaagtgaa ttatttatga ggttgtctta aaattaaaaa ttacaaagta ataaatcaca 1080
ttgtaatgta ttttgtgtga tacccagagg tttaaggcaa cctattactc ttat       1134
<210>48
<211>319
<212>DNA
<213>序列
<220>
<223>合成构建体
<400>48
actagtacgt ctctcaagga taagtaagta atattaaggt acgggaggta cttggagcgg 60
ccgcaataaa atatctttat tttcattaca tctgtgtgtt ggttttttgt gtgaatcgat 120
agtactaaca tacgctctcc atcaaaacaa aacgaaacaa aacaaactag caaaataggc 180
tgtccccagt gcaagtgcag gtgccagaac atttctctgg cctaagtggc cggtaccgag 240
ctcgctagcc tcgaggatat cagatctggc ctcggcggcc aagcttggca atccggtact 300
gttggtaaag ccaccatgg                                              319
<210>49
<211>320
<212>DNA
<213>序列
<220>
<223>合成构建体
<400>49
actagtacgt ctctcaagga taagtaagta atattaaggt acgggaggta ttggacaggc 60
cgcaataaaa tatctttatt ttcattacat ctgtgtgttg gttttttgtg tgaatcgata 120
gtactaacat acgctctcca tcaaaacaaa acgaaacaaa acaaactagc aaaataggct 180
gtccccagtg caagtgcagg tgccagaaca tttctctggc ctaactggcc ggtacctgag 240
ctcgctagcc tcgaggatat caagatctgg cctcggcggc caagcttggc aatccggtac 300
tgttggtaaa gccaccatgg                                             320
<210>50
<211>5
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>50
tataa                                                             5
<210>51
<211>6
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>51
stratg                                                            6
<210>52
<211>9
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<220>
<221>其他特征
<222>4,6,7
<223>n=A、T、C或G
<400>52
mttncnnma                                                  9
<210>53
<211>5
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>53
tratg                                                      5
<210>54
<211>38
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>54
gtactgagac gacgccagcc caagcttagg cctgagtg                  38
<210>55
<211>38
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>55
ggcatgagcg tgaactgact gaactagcgg ccgccgag                  38
<210>56
<211>24
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>56
ggatcccatg gtgaagcgtg agaa                                 24
<210>57
<211>21
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>57
ggatcccatg gtgaaacgcg a                                    21
<210>58
<211>31
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>58
ctagcttttt tttctagata atcatgaaga c                                31
<210>59
<211>32
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>59
gcgtagccat ggtaaagcgt gagaaaaatg tc                               32
<210>60
<211>33
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>60
ccgactctag attactaacc gccggccttc acc                              33
<210>61
<211>54
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>61
caaaaagctt ggcattccgg tactgttggt aaagccacca tggtgaagcg agag       54
<210>62
<211>26
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>62
caattgttgt tgttaacttg tttatt                               26
<210>63
<400>63
000
<210>64
<400>64
000
<210>65
<211>10
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>65
caccatggct                                                 10
<210>66
<211>40
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>66
aaccatggct tccaaggtgt acgaccccga gcaacgcaaa                40
<210>67
<211>40
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>67
gctctagaat tactgctcgt tcttcagcac gcgctccacg                40
<210>68
<211>31
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>68
cgctagccat ggcttcgaaa gtttatgatc c                         31
<210>69
<211>25
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>69
ggccagtaac tctagaatta ttgtt                                       25
<210>70
<211>1092
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>70
aagcttgcta gcgccaccat gaagaagccc gagctcaccg ctaccagcgt tgaaaaattt 60
ctcatcgaga agttcgacag tgtgagcgac ctgatgcagt tgtcggaggg cgaagagagc 120
cgagccttca gcttcgatgt cggcggacgc ggctatgtac tgcgggtgaa tagctgcgct 180
gatggcttct acaaagaccg ctacgtgtac cgccacttcg ccagcgctgc actacccatc 240
cccgaagtgt tggacatcgg cgagttcagc gagagcctga catactgcat cagtagacgc 300
gcccaaggcg ttactctcca agacctcccc gaaacagagc tgcctgctgt gttacagcct 360
gtcgccgaag ctatggatgc tattgccgcc gccgacctca gtcaaaccag cggcttcggc 420
ccattcgggc cccaaggcat cggccagtac acaacctggc gggatttcat ttgcgccatt 480
gctgatcccc atgtctacca ctggcagacc gtgatggacg acaccgtgtc cgccagcgta 540
gctcaagccc tggacgaact gatgctgtgg gccgaagact gtcccgaggt gcgccacctc 600
gtccatgccg acttcggcag caacaacgtc ctgaccgaca acggccgcat caccgccgta 660
atcgactggt ccgaagctat gttcggggac agtcagtacg aggtggccaa catcttcttc 720
tggcggccct ggctggcttg catggagcag cagactcgct acttcgagcg ccggcatccc 780
gagctggccg gcagccctcg tctgcgagcc tacatgctgc gcatcggcct ggatcagctc 840
taccagagcc tcgtggacgg caacttcgac gatgctgcct gggctcaagg ccgctgcgat 900
gccatcgtcc gcagcggggc cggcaccgtc ggtcgcacac aaatcgctcg ccggagcgcc 960
gccgtatgga ccgacggctg cgtcgaggtg ctggccgaca gcggcaaccg ccggcccagt 1020
acacgaccgc gcgctaagga gggtggcgga gggagcggtg gcggaggttc ctacgtatag 1080
tctagactcg ag                                                     1092
<210>71
<211>1093
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>71
aagcttgcta gcgccaccat gaagaagccc gagctcaccg ctaccagcgt tgaaaaattt 60
ctcatcgaga agttcgacag tgtgagcgac ctgatgcagt tgtcggaggg cgaagagagc 120
cgagccttca gcttcgatgt cggcggacgc ggctatgtac tgcgggtgaa tagctgcgct 180
gatggcttct acaaagaccg ctacgtgtac cgccacttcg ccagcgctgc actacccatc 240
cccgaagtgt tggacatcgg cgagttcagc gagagcctga catactgcat cagtagacgc 300
gcccaaggcg ttactctcca agacctcccc gaaacagagc tgcctgctgt gttacagcct 360
gtcgccgaag ctatggatgc tattgccgcc gccgacctca gtcaaaccag cggcttcggc 420
ccattcgggc cccaaggcat cggccagtac acaacctggc gggatttcat ttgcgccatt 480
gctgatcccc atgtctacca ctggcagacc gtgatggacg acaccgtgtc cgccagcgta 540
gctcaagccc tggacgaact gatgctgtgg gccgaagact gtcccgaggt gcgccacctc 600
gtccatgccg acttcggcag caacaacgtc ctgaccgaca acggccgcat caccgccgta 660
atcgactggt ccgaagctat gttcggggac agtcagtacg aggtggccaa catcttcttc 720
tggcggccct ggctggcttg catggagcag cagactcgct acttcgagcg ccggcatccc 780
gagctggccg gcagccctcg tctgcgagcc tacatgctgc gcatcggcct ggatcagctc 840
taccagagcc tcgtggacgg caacttcgac gatgctgcct gggctcaagg ccgctgcgat 900
gccatcgtcc gcagcggggc cggcaccgtc ggtcgcacac aaatcgctcg ccggagcgca 960
gccgtatgga ccgacggctg cgtcgaggtg ctggccgaca gcggcaaccg ccggcccagt 1020
acacgaccgc gcgctaagga aggcggtgga ggtagtggtg gcggaggtag ctacgtataa 1080
ctctagactc gag                                                    1093
<210>72
<211>813
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>72
gctagcgcca ccatgatcga acaagacggc ctccatgctg gcagtcccgc agcttgggtc 60
gaacgcttgt tcgggtacga ctgggcccag cagaccatcg gatgtagcga tgcggccgtg 120
ttccgtctaa gcgctcaagg ccggcccgtg ctgttcgtga agaccgacct gagcggcgcc 180
ctgaacgagc ttcaagacga ggctgcccgc ctgagctggc tggccaccac cggtgtaccc 240
tgcgccgctg tgttggatgt tgtgaccgaa gccggccggg actggctgct gctgggcgag 300
gtccctggcc aggatctgct gagcagccac cttgcccccg ctgagaaggt ttccatcatg 360
gccgatgcaa tgcggcgcct gcacaccctg gaccccgcta catgcccctt cgaccaccag 420
gctaagcatc ggatcgagcg tgctcggacc cgcatggagg ccggcctggt ggaccaggac 480
gacctggacg aggagcatca gggcctggcc cccgctgaac tgttcgcccg cctgaaagcc 540
cgcatgccgg acggtgagga cctggttgtg acacatggtg atgcctgcct ccctaacatc 600
atggtcgaga atggccgctt ctccggcttc atcgactgcg gtcgcctagg agttgccgac 660
cgctaccagg acatcgccct ggccacccgc gacatcgctg aggagcttgg cggcgagtgg 720
gccgaccgct tcttagtctt gtacggcatc gcagctcccg acagccagcg catcgccttc 780
taccgcctgc tcgacgagtt cttttaatct aga                              813
<210>73
<211>816
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>73
gctagcgcca ccatgatcga acaagacggc ctccatgctg gcagtcccgc agcttgggtc 60
gaacgcttgt tcgggtacga ctgggcccag cagaccatcg gatgtagcga tgcggccgtg 120
ttccgtctaa gcgctcaagg ccggcccgtg ctgttcgtga agaccgacct gagcggcgcc 180
ctgaacgagc ttcaagacga ggctgcccgc ctgagctggc tggccaccac cggcgtaccc 240
tgcgccgctg tgttggatgt tgtgaccgaa gccggccggg actggctgct gctgggcgag 300
gtccctggcc aggatctgct gagcagccac cttgcccccg ctgagaaggt ttctatcatg 360
gccgatgcaa tgcggcgcct gcacaccctg gaccccgcta cctgcccctt cgaccaccag 420
gctaagcatc ggatcgagcg tgctcggacc cgcatggagg ccggcctggt ggaccaggac 480
gacctggacg aggagcatca gggcctggcc cccgctgaac tgttcgcccg actgaaagcc 540
cgcatgccgg acggtgagga cctggttgtc acacacggag atgcctgcct ccctaacatc 600
atggtcgaga atggccgctt ctccggcttc atcgactgcg gtcgcctagg agttgccgac 660
cgctaccagg acatcgccct ggccacccgc gacatcgctg aggagcttgg cggcgagtgg 720
gccgaccgct tcttagtctt gtacggcatc gcagctcccg acagccagcg catcgccttc 780
taccgcttgc tcgacgagtt cttttaatga tctaga                           816
<210>74
<211>1252
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>74
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420
cacatgatca cccatattat gaagaaatgc agtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcgtcct 900
ttttcaatat tattgaagca tttatcaggg ttactagtac gtctctcaag gataagtaag 960
taatattaag gtacgggagg tattggacag gccgcaataa aatatcttta ttttcattac 1020
atctgtgtgt tggttttttg tgtgaatcga tagtactaac atacgctctc catcaaaaca 1080
aaacgaaaca aaacaaacta gcaaaatagg ctgtccccag tgcaagtgca ggtgccagaa 1140
catttctctg gcctaactgg ccggtacctg agctcgctag cctcgaggat atcaagatct 1200
ggcctcggcg gccaagcttg gcaatccggt actgttggta aagccaccat gg         1252
<210>75
<400>75
000
<210>76
<211>228
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>76
actagtcgtc tctcttgaga gaccgcgatc gccaccatga taagtaagta atattaaata 60
agtaaggcct gagtggccct cgagccagcc ttgagttggt tgagtccaag tcacgtctgg 120
agatctggta cctacgcgtg agctctacgt agctagcggc ctcggcggcc gaattcttgc 180
gatctaagta agcttggcat tccggtactg ttggtaaagc caccatgg              228
<210>77
<211>228
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>77
actagtacgt ctctcttgag agaccgcgat cgccaccatg ataagtaagt aatattaaat 60
aagtaaggcc tgagtggccc tcgagtccag ccttgagttg gttgagtcca agtcacgtct 120
ggagatctgg taccttacgc gtagagctct acgtagctag cggcctcggc ggccgaattc 180
ttgcgatcta agcttggcaa tccggtactg ttggtaaagc caccatgg              228
<210>78
<211>230
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>78
actagtacgt ctctcttgag agaccgcgat cgcatgccta ggtaggtagt attagagcat 60
aggtagaggc ctaagtggcc ctcgagtcca gccttgagtt ggttgagtcc aagtcacgtc 120
tggagatctg gtaccttacg cgtatgagct ctacgtagct agcggcctcg gcggccgaat 180
tcttgcgatc taagcttggc aatccggtac tgttggtaaa gccaccatgg            230
<210>79
<211>234
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>79
actagtacgt ctctcttgag agaccgcgat cgccaccatg tctaggtagg tagtaaacga 60
aagggcttaa aggcctaagt ggccctcgag tccagccttg agttggttga gtccaagtca 120
cgtttggaga tctggtacct tacgcgtatg agctctacgt agctagcggc ctcggcggcc 180
gaattcttgc gatctaagct tggcaatccg gtactgttgg taaagccacc atgg       234
<210>80
<211>938
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>80
actagtaacc ctgataaatg cttcaataat attgaaaaag gaagagtatg agtattcaac 60
atttccgtgt cgcccttatt cccttttttg cggcattttg ccttcctgtt tttgctcacc 120
cagaaacgct ggtgaaagta aaagatgctg aagatcagtt gggtgcacga gtgggttaca 180
tcgaactgga tctcaacagc ggtaagatcc ttgagagttt tcgccccgaa gaacgttttc 240
caatgatgag cacttttaaa gttctgctat gtggcgcggt attatcccgt attgacgccg 300
ggcaagagca actcggtcgc cgcatacact attctcagaa tgacttggtt gagtactcac 360
cagtcacaga aaagcatctt acggatggca tgacagtaag agaattatgc agtgctgcca 420
taaccatgag tgataacacc gcggccaact tacttctgac aacgatcgga ggaccgaagg 480
agctaaccgc ttttttgcac aacatggggg atcatgtaac tcgccttgat cgttgggaac 540
cggagctgaa tgaagccata ccaaacgacg agcgtgacac cacgatgcct gtagcaatgg 600
caacaacgtt gcgcaaacta ttaactggcg aactacttac tctagcttcc cggcaacaat 660
taatagactg gatggaggcg gataaagttg caggaccact tctgcgctcg gcccttccgg 720
ctggctggtt tattgctgat aaatctggag ccggtgagcg tggctctcgc ggtatcattg 780
cagcactggg gccagatggt aagccctccc gtatcgtagt tatctacacg acggggagtc 840
aggcaactat ggatgaacga aatagacaga tcgctgagat aggtgcctca ctgattaagc 900
attggtaacc actgcagtgg ttttcctttt gcggccgc                         938
<210>81
<211>938
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>81
actagtaacc ctgataaatg ctgcaaacat attgaaaaag gaagagtatg agtattcaac 60
atttccgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120
ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcacga gtgggctata 180
tcgaactgga tctcaatagc ggtaagatcc ttgagagttt tcgccccgaa gaacgttttc 240
caatgatgag cacttttaaa gttctgctat gtggcgcggt attatcccgt attgacgccg 300
ggcaagagca gctcggtcgc cgcatacact actcacagaa cgacttggtt gagtactcgc 360
cggtcacgga aaagcatctt acggatggca tgacagtaag agaattgtgt agtgctgcca 420
taaccatgag tgataacacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480
agctgaccgc atttttgcac aacatggggg atcatgtaac ccggcttgat cgttgggaac 540
cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600
caacaacgtt gcgcaaacta ctcactggcg aacttctcac tctagcatca cgacagcaac 660
tcatagactg gatggaggcg gataaagttg caggaccact tctgcgctcg gcccttccgg 720
ctggctggtt tatagctgat aaatccggtg ccggtgaacg cggctctcgc gggatcattg 780
ctgcgctggg gccagatggt aagccctcac gaatcgtagt tatctacacg acggggagtc 840
aggcaactat ggatgaacga aatagacaga tcgctgagat aggtgcctca ctgatcaagc 900
actggtagcc actgcagtgg tttagctttt gcggccgc                         938
<210>82
<211>938
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>82
actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60
attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120
ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180
tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt tcgccccgaa gaacgttttc 240
cgatgatgag cacttttaaa gttctgctat gtggcgcggt gttgtcccgt atagacgccg 300
ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360
cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420
ttaccatgag cgacaatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480
agctgaccgc atttttgcac aacatggggg atcatgtaac ccggcttgac cgctgggaac 540
cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600
caacaacgtt gcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660
tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720
ctggctggtt cattgctgat aaatccggtg ccggtgaacg cggctctcgc gggatcattg 780
ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840
aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900
actggtaacc actgcagtgg tttagcattt gcggccgc                         938
<210>83
<211>938
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>83
actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60
attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120
ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180
tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt ccgccccgaa gaacgttttc 240
cgatgatgag cactttcaaa gtactgctat gtggcgcggt gttgtcccgt atagacgccg 300
ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360
cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420
ttaccatgag cgataatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480
agctgaccgc atttttgcac aacatgggtg atcatgtgac ccggcttgac cgctgggaac 540
cggagctgaa cgaagccata ccgaacgacg agcgtgacac cacgatgcct gtagcaatgg 600
caacaactct tcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660
tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720
ctggctggtt cattgctgat aaatctggag ccggtgagcg tggctctcgc ggtatcattg 780
ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840
aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900
actggtaacc actgcagtgg tttagcattt gcggccgc                         938
<210>84
<211>938
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>84
actagtaacc ctgacaaatg ctgcaaacat attgaaaaag gaagagtatg agcatccaac 60
attttcgtgt cgcactcatt cccttctttg cggcattttg cttgcctgtt tttgcacacc 120
ccgaaacgct ggtgaaagta aaagatgctg aagatcaact gggtgcaaga gtgggctata 180
tcgaactgga tctcaatagc ggcaagatcc ttgagtcttt ccgccccgaa gaacgattcc 240
cgatgatgag cactttcaaa gtactgctat gtggcgcggt gttgtcccgt atagacgccg 300
ggcaagagca gcttggtcgc cgtatacact actcacaaaa cgacttggtt gagtactcgc 360
cggtcacgga aaagcatctt acggatggca tgacggtaag agaattgtgt agtgctgcca 420
ttaccatgag cgataatacc gcggccaact tacttctgac aacgatcgga ggccctaagg 480
agctgaccgc atttttgcac aacatgggtg atcatgtgac ccggcttgac cgctgggaac 540
cggagctgaa cgaagccata ccgaacgacg agcgtgatac cacgatgcca gtagcaatgg 600
ccacaactct tcggaaacta ctcactggcg aacttctcac tctagcatca cgacagcagc 660
tcatagactg gatggaggcg gacaaagtag caggaccact tcttcgctcg gccctccctg 720
ctggctggtt cattgctgac aaatccggtg ccggtgaacg cggctctcgc ggcatcattg 780
ctgcgctggg gcctgatggt aagccctcac gaatcgtagt aatctacacg acggggagtc 840
aggccactat ggacgaacga aatagacaga tcgctgagat cggtgcctca ctgatcaagc 900
actggtaacc actgcagtgg tttagcattt gcggccgc                         938
<210>85
<400>85
000
<210>86
<400>86
000
<210>87
<400>87
000
<210>88
<211>1038
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>88
atgaagaagc ccgaactcac cgctaccagc gttgaaaaat ttctcatcga gaagttcgac 60
agtgtgagcg acctgatgca gttgtcggag ggcgaagaga gccgagcctt cagcttcgat 120
gtcggcggac gcggctatgt actgcgggtg aatagctgcg ctgatggctt ctacaaagac 180
cgctacgtgt accgccactt cgccagcgct gcactaccca tccccgaagt gttggacatc 240
ggcgagttca gcgagagcct gacatactgc atcagtagac gcgcccaagg cgttactctc 300
caagacctcc ccgaaacaga gctgcctgct gtgttacagc ctgtcgccga agctatggat 360
gctattgccg ccgccgacct cagtcaaacc agcggcttcg gcccattcgg gccccaaggc 420
atcggccagt acacaacctg gcgggatttc atttgcgcca ttgctgatcc ccatgtctac 480
cactggcaga ccgtgatgga cgacaccgtg tccgccagcg tagctcaagc cctggacgaa 540
ctgatgctgt gggccgaaga ctgtcccgag gtgcgccacc tcgtccatgc cgacttcggc 600
agcaacaacg tcctgaccga caacggccgc atcaccgccg taatcgactg gtccgaagct 660
atgttcgggg acagtcagta cgaggtggcc aacatcttct tctggcggcc ctggctggct 720
tgcatggagc agcagactcg ctacttcgag cgccggcatc ccgagctggc cggcagccct 780
cgtctgcgag cctacatgct gcgcatcggc ctggatcagc tctaccagag cctcgtggac 840
ggcaacttcg acgatgctgc ctgggctcaa ggccgctgcg atgccatcgt ccgcagcggg 900
gccggcaccg tcggtcgcac acaaatcgct cgccggagcg cagccgtatg gaccgacggc 960
tgcgtcgagg tgctggccga cagcggcaac cgccggccca gtacacgacc gcgcgctaag 1020
gaggtaggtc gagtttaa                                               1038
<210>89
<211>4333
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>89
ggcctaactg gccggtacct gagctcgcta gcctcgagga tatcaagatc tggcctcggc 60
ggccaagctt ggcaatccgg tactgttggt aaagccacca tggaagatgc caaaaacatt 120
aagaagggcc cagcgccatt ctacccactc gaagacggga ccgccggcga gcagctgcac 180
aaagccatga agcgctacgc cctggtgccc ggcaccatcg cctttaccga cgcacatatc 240
gaggtggaca ttacctacgc cgagtacttc gagatgagcg ttcggctggc agaagctatg 300
aagcgctatg ggctgaatac aaaccatcgg atcgtggtgt gcagcgagaa tagcttgcag 360
ttcttcatgc ccgtgttggg tgccctgttc atcggtgtgg ctgtggcccc agctaacgac 420
atctacaacg agcgcgagct gctgaacagc atgggcatca gccagcccac cgtcgtattc 480
gtgagcaaga aagggctgca aaagatcctc aacgtgcaaa agaagctacc gatcatacaa 540
aagatcatca tcatggatag caagaccgac taccagggct tccaaagcat gtacaccttc 600
gtgacttccc atttgccacc cggcttcaac gagtacgact tcgtgcccga gagcttcgac 660
cgggacaaaa ccatcgccct gatcatgaac agtagtggca gtaccggatt gcccaagggc 720
gtagccctac cgcaccgcac cgcttgtgtc cgattcagtc atgcccgcga ccccatcttc 780
ggcaaccaga tcatccccga caccgctatc ctcagcgtgg tgccatttca ccacggcttc 840
ggcatgttca ccacgctggg ctacttgatc tgcggctttc gggtcgtgct catgtaccgc 900
ttcgaggagg agctattctt gcgcagcttg caagactata agattcaatc tgccctgctg 960
gtgcccacac tatttagctt cttcgctaag agcactctca tcgacaagta cgacctaagc 1020
aacttgcacg agatcgccag cggcggggcg ccgctcagca aggaggtagg tgaggccgtg 1080
gccaaacgct tccacctacc aggcatccgc cagggctacg gcctgacaga aacaaccagc 1140
gccattctga tcacccccga aggggacgac aagcctggcg cagtaggcaa ggtggtgccc 1200
ttcttcgagg ctaaggtggt ggacttggac accggtaaga cactgggtgt gaaccagcgc 1260
ggcgagctgt gcgtccgtgg ccccatgatc atgagcggct acgttaacaa ccccgaggct 1320
acaaacgctc tcatcgacaa ggacggctgg ctgcacagcg gcgacatcgc ctactgggac 1380
gaggacgagc acttcttcat cgtggaccgg ctgaagagcc tgatcaaata caagggctac 1440
caggtagccc cagccgaact ggagagcatc ctgctgcaac accccaacat cttcgacgcc 1500
ggggtcgccg gcctgcccga cgacgatgcc ggcgagctgc ccgccgcagt cgtcgtgctg 1560
gaacacggta aaaccatgac cgagaaggag atcgtggact atgtggccag ccaggttaca 1620
accgccaaga agctgcgcgg tggtgttgtg ttcgtggacg aggtgcctaa aggactgacc 1680
ggcaagttgg acgcccgcaa gatccgcgag attctcatta aggccaagaa gggcggcaag 1740
atcgccgtgt aataattcta gagtcggggc ggccggccgc ttcgagcaga catgataaga 1800
tacattgatg agtttggaca aaccacaact agaatgcagt gaaaaaaatg ctttatttgt 1860
gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa acaagttaac 1920
aacaacaatt gcattcattt tatgtttcag gttcaggggg aggtgtggga ggttttttaa 1980
agcaagtaaa acctctacaa atgtggtaaa atcgataagg atccgtcgac cgatgccctt 2040
gagagccttc aacccagtca gctccttccg gtgggcgcgg ggcatgacta tcgtcgccgc 2100
acttatgact gtcttcttta tcatgcaact cgtaggacag gtgccggcag cgctcttccg 2160
cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 2220
actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 2280
gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 2340
ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 2400
acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 2460
ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 2520
cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 2580
tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 2640
gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 2700
ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 2760
acggctacac tagaagaaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 2820
gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 2880
ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 2940
tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 3000
gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 3060
tctaaagtat atatgagtaa acttggtctg acagcggccg caaatgctaa accactgcag 3120
tggttaccag tgcttgatca gtgaggcacc gatctcagcg atctgcctat ttcgttcgtc 3180
catagtggcc tgactccccg tcgtgtagat cactacgatt cgtgagggct taccatcagg 3240
ccccagcgca gcaatgatgc cgcgagagcc gcgttcaccg gcccccgatt tgtcagcaat 3300
gaaccagcca gcagggaggg ccgagcgaag aagtggtcct gctactttgt ccgcctccat 3360
ccagtctatg agctgctgtc gtgatgctag agtaagaagt tcgccagtga gtagtttccg 3420
aagagttgtg gccattgcta ctggcatcgt ggtatcacgc tcgtcgttcg gtatggcttc 3480
gttcaactct ggttcccagc ggtcaagccg ggtcacatga tcacccatat tatgaagaaa 3540
tgcagtcagc tccttagggc ctccgatcgt tgtcagaagt aagttggccg cggtgttgtc 3600
gctcatggta atggcagcac tacacaattc tcttaccgtc atgccatccg taagatgctt 3660
ttccgtgacc ggcgagtact caaccaagtc gttttgtgag tagtgtatac ggcgaccaag 3720
ctgctcttgc ccggcgtcta tacgggacaa caccgcgcca catagcagta ctttgaaagt 3780
gctcatcatc gggaatcgtt cttcggggcg gaaagactca aggatcttgc cgctattgag 3840
atccagttcg atatagccca ctcttgcacc cagttgatct tcagcatctt ttactttcac 3900
cagcgtttcg gggtgtgcaa aaacaggcaa gcaaaatgcc gcaaagaagg gaatgagtgc 3960
gacacgaaaa tgttggatgc tcatactcgt cctttttcaa tattattgaa gcatttatca 4020
gggttactag tacgtctctc aaggataagt aagtaatatt aaggtacggg aggtattgga 4080
caggccgcaa taaaatatct ttattttcat tacatctgtg tgttggtttt ttgtgtgaat 4140
cgatagtact aacatacgct ctccatcaaa acaaaacgaa acaaaacaaa ctagcaaaat 4200
aggctgtccc cagtgcaagt gcaggtgcca gaacatttct ctaagtaata ttaaggtacg 4260
ggaggtattg gacaggccgc aataaaatat ctttattttc attacatctg tgtgttggtt 4320
ttttgtgtga atc                                                    4333
<210>90
<211>3522
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>90
ggcctaactg gccggtacct gagctcgcta gcotcgagga tatcaagatc tggcctcggc 60
ggccaagctt ggcaatccgg tactgttggt aaagccacca tggcttccaa ggtgtacgac 120
cccgagcaac gcaaacgcat gatcactggg cctcagtggt gggctcgctg caagcaaatg 180
aacgtgctgg actccttcat caactactat gattccgaga agcacgccga gaacgccgtg 240
atttttctgc atggtaacgc tgcctccagc tacctgtgga ggcacgtcgt gcctcacatc 300
gagcccgtgg ctagatgcat catccctgat ctgatcggaa tgggtaagtc cggcaagagc 360
gggaatggct catatcgcct cctggatcac tacaagtacc tcaccgcttg gttcgagctg 420
ctgaaccttc caaagaaaat catctttgtg ggccacgact ggggggcttg tctggccttt 480
cactactcct acgagcacca agacaagatc aaggccatcg tccatgctga gagtgtcgtg 540
gacgtgatcg agtcctggga cgagtggcct gacatcgagg aggatatcgc cctgatcaag 600
agcgaagagg gcgagaaaat ggtgcttgag aataacttct tcgtcgagac catgctccca 660
agcaagatca tgcggaaact ggagcctgag gagttcgctg cctacctgga gccattcaag 720
gagaagggcg aggttagacg gcctaccctc tcctggcctc gcgagatccc tctcgttaag 780
ggaggcaagc ccgacgtcgt ccagattgtc cgcaactaca acgcctacct tcgggccagc 840
gacgatctgc ctaagatgtt catcgagtcc gaccctgggt tcttttccaa cgctattgtc 900
gagggagcta agaagttccc taacaccgag ttcgtgaagg tgaagggcct ccacttcagc 960
caggaggacg ctccagatga aatgggtaag tacatcaaga gcttcgtgga gcgcgtgctg 1020
aagaacgagc agtaattcta gagtcggggc ggccggccgc ttcgagcaga catgataaga 1080
tacattgatg agtttggaca aaccacaact agaatgcagt gaaaaaaatg ctttatttgt 1140
gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa acaagttaac 1200
aacaacaatt gcattcattt tatgtttcag gttcaggggg aggtgtggga ggttttttaa 1260
agcaagtaaa acctctacaa atgtggtaaa atcgataagg atccgtcgac cgatgccctt 1320
gagagccttc aacccagtca gctccttccg gtgggcgcgg ggcatgacta tcgtcgccgc 1380
acttatgact gtcttcttta tcatgcaact cgtaggacag gtgccggcag cgctcttccg 1440
cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 1500
actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 1560
gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 1620
ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 1680
acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 1740
ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 1800
cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 1860
tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 1920
gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 1980
ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 2040
acggctacac tagaagaaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 2100
gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 2160
ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 2220
tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 2280
gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 2340
tctaaagtat atatgagtaa acttggtctg acagcggccg caaatgctaa accactgcag 2400
tggttaccag tgcttgatca gtgaggcacc gatctcagcg atctgcctat ttcgttcgtc 2460
catagtggcc tgactccccg tcgtgtagat cactacgatt cgtgagggct taccatcagg 2520
ccccagcgca gcaatgatgc cgcgagagcc gcgttcaccg gcccccgatt tgtcagcaat 2580
gaaccagcca gcagggaggg ccgagcgaag aagtggtcct gctactttgt ccgcctccat 2640
ccagtctatg agctgctgtc gtgatgctag agtaagaagt tcgccagtga gtagtttccg 2700
aagagttgtg gccattgcta ctggcatcgt ggtatcacgc tcgtcgttcg gtatggcttc 2760
gttcaactct ggttcccagc ggtcaagccg ggtcacatga tcacccatat tatgaagaaa 2820
tgcagtcagc tccttagggc ctccgatcgt tgtcagaagt aagttggccg cggtgttgtc 2880
gctcatggta atggcagcac tacacaattc tcttaccgtc atgccatccg taagatgctt 2940
ttccgtgacc ggcgagtact caaccaagtc gttttgtgag tagtgtatac ggcgaccaag 3000
ctgctcttgc ccggcgtcta tacgggacaa caccgcgcca catagcagta ctttgaaagt 3060
gctcatcatc gggaatcgtt cttcggggcg gaaagactca aggatcttgc cgctattgag 3120
atccagttcg atatagccca ctcttgcacc cagttgatct tcagcatctt ttactttcac 3180
cagcgtttcg gggtgtgcaa aaacaggcaa gcaaaatgcc gcaaagaagg gaatgagtgc 3240
gacacgaaaa tgttggatgc tcatactcgt cctttttcaa tattattgaa gcatttatca 3300
gggttactag tacgtctctc aaggataagt aagtaatatt aaggtacggg aggtattgga 3360
caggccgcaa taaaatatct ttattttcat tacatctgtg tgttggtttt ttgtgtgaat 3420
cgatagtact aacatacgct ctccatcaaa acaaaacgaa acaaaacaaa ctagcaaaat 3480
aggctgtccc cagtgcaagt gcaggtgcca gaacatttct ct                    3522
<210>91
<211>621
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>91
gctagcgcca ccatgaccga gtacaagccc accgtgcgcc tggccacccg cgacgacgtg 60
ccccgcgccg tgcgcaccct ggccgccgcc ttcgccgact accccgccac ccgccacacc 120
gtggaccccg accgccacat cgagcgcgtg accgagctgc aggagctgtt cctgacccgc 180
gtgggcctgg acatcggcaa ggtgtgggtg gccgacgacg gcgccgccgt ggccgtgtgg 240
accacccccg agagcgtgga ggccggcgcc gtgttcgccg agatcggccc ccgcatggcc 300
gagctgagcg gcagccgcct ggccgcccag cagcagatgg agggcctgct ggccccccac 360
cgccccaagg agcccgcctg gttcctggcc accgtgggcg tgagccccga ccaccagggc 420
aagggcctgg gcagcgccgt ggtgctgccc ggcgtggagg ccgccgagcg cgccggcgtg 480
cccgccttcc tggagaccag cgccccccgc aacctgccct tctacgagcg cctgggcttc 540
accgtgaccg ccgacgtgga ggtgcccgag ggcccccgca cctggtgcat gacccgcaag 600
cccggcgcct aatgatctag a                                           621
<210>92
<211>621
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>92
gctagcgcca ccatgaccga gtacaagcct accgtgcgcc tggccactcg cgatgatgtg 60
ccccgcgccg tccgcactct ggccgccgct ttcgccgact accccgctac ccggcacacc 120
gtggaccccg accggcacat cgagcgtgtg acagagttgc aggagctgtt cctgacccgc 180
gtcgggctgg acatcggcaa ggtgtgggta gccgacgacg gcgcggccgt ggccgtgtgg 240
actacccccg agagcgttga ggccggcgcc gtgttcgccg agatcggccc ccgaatggcc 300
gagctgagcg gcagccgcct ggccgcccag cagcaaatgg agggcctgct tgccccccat 360
cgtcccaagg agcccgcctg gtttctggcc actgtaggag tgagccccga ccaccagggc 420
aagggcttgg gcagcgccgt cgtgttgccc ggcgtagagg ccgccgaacg cgccggtgtg 480
cccgcctttc tggagacaag cgctccgcgt aaccttccat tctacgagcg cctgggcttc 540
accgtgaccg ccgatgtcga ggtgcccgag ggaccccgga cctggtgcat gactcgcaag 600
cctggcgcct aatgatctag a                                           621
<210>93
<211>621
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>93
gctagcgcca ccatgaccga gtacaagcct accgtgcgcc tggccactcg cgatgatgtg 60
ccccgcgccg tccgcactct ggccgccgct ttcgccgact accccgctac ccggcacacc 120
gtggaccccg accggcacat cgagcgtgtg acagagttgc aggagctgtt cctgacccgc 180
gtcgggctgg acatcggcaa ggtgtgggta gccgacgacg gcgcggccgt ggccgtgtgg 240
actacccccg agagcgttga ggccggcgcc gtgttcgccg agatcggccc ccgaatggcc 300
gagctgagcg gcagccgcct ggccgcccag cagcaaatgg agggcctgct tgccccccat 360
cgtcccaagg agcctgcctg gtttctggcc actgtaggag tgagccccga ccaccagggc 420
aagggcttgg gcagcgccgt cgtgttgccc ggcgtagagg ccgccgaacg cgccggtgtg 480
cccgcctttc tcgaaacaag cgcaccaaga aaccttccat tctacgagcg cctgggcttc 540
accgtgaccg ccgatgtcga ggtgcccgag ggacctagga cctggtgtat gacacgaaaa 600
cctggcgcct aatgatctag a                                           621
<210>94
<211>1672
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>94
aaagccacca tggaagatgc caaaaacatt aagaaggggc ctgctccctt ctaccctctt 60
gaagatggga ctgctggcga gcaacttcac aaagctatga agcggtatgc tcttgtgcca 120
gggacaattg cgttcacgga tgctcacatt gaagtagaca tcacatacgc tgagtatttt 180
gagatgtcgg tgcggctggc agaagctatg aagcgctatg ggctgaatac aaaccataga 240
attgtagtgt gcagtgagaa ctcgttgcag ttctttatgc ccgtgctggg ggctctcttc 300
atcggggtgg ctgtggctcc tgctaacgac atctacaacg agcgagagct gttgaactcg 360
atggggatct ctcagcctac agtggtgttt gtgagtaaga aagggcttca aaagattctc 420
aatgtgcaaa agaagctgcc tattatacaa aagattatta ttatggactc taagacagac 480
taccaggggt ttcagtccat gtacacattt gtaacctctc atctgcctcc tggcttcaac 540
gagtacgact tcgtgcccga gtctttcgac agggacaaaa cgattgctct gatcatgaac 600
agctccgggt ctaccgggct gcctaagggt gtagctctgc cccatcgaac agcttgtgtg 660
agattctctc atgccaggga cccgatcttt ggaaaccaga tcatccctga cactgctatt 720
ctgtcggtgg tgccctttca tcatgggttt gggatgttca caacactggg atacctcatt 780
tgcgggttta gagtggtgct catgtatagg tttgaagaag aactattcct acgctctttg 840
caagattata agattcagtc tgctctgctg gtgccaacac tattctcttt ttttgctaag 900
tctacgctca tagacaagta tgacttgtcc aacttgcacg agattgcttc tggcggagca 960
cctctgtcta aggaggtagg tgaggctgtg gctaagcgct ttcatctgcc tggtatcaga 1020
caggggtacg ggctaacaga aacaacttct gctattctga ttacaccaga gggcgatgac 1080
aaacccgggg ctgtagggaa agtggtgccc ttttttgaag ccaaagtagt tgatcttgat 1140
accggtaaga cactaggggt gaaccagcgt ggtgaactgt gtgtgcgggg ccctatgatt 1200
atgtcggggt acgttaacaa ccccgaagct acaaatgctc tcatagacaa ggacgggtgg 1260
cttcatagcg gcgacattgc ctactgggac gaggatgagc atttcttcat cgtggacaga 1320
ctgaagtcgt tgatcaaata caaggggtat caagtagctc ctgccgagct tgagtccatt 1380
ctgcttcaac accccaatat cttcgatgct ggggtggctg ggctgcctga tgatgatgct 1440
ggagagctgc ctgctgctgt agtagtgctt gagcatggta agacaatgac agagaaggag 1500
atcgtggatt atgtggcttc acaagtgaca acagctaaga aactccgagg tggcgttgtg 1560
tttgtggatg aggtgcctaa agggctcact ggcaagctgg atgccagaaa aattcgagag 1620
attctcatta aggctaagaa gggtggaaag attgctgtgt aatagttcta ga         1672
<210>95
<211>1166
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>95
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgtctatttc gttcgtccat agtggcctga ctccccgtcg tgtagattac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggca ccggatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
gagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt cagctccggt tcccagcggt caagccgggt 420
cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tattatcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900
ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960
atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020
agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080
tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgatctaag cttggcaatc 1140
cggtactgtt ggtaaagcca ccatgg                                      1166
<210>96
<211>1166
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>96
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgtctatttc gttcgtccat agtggcctga ctccccgtcg tgtagattac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactccggt tcccagcggt caagccgggt 420
cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900
ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960
atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020
agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080
tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgttcgaag cttggcaatc 1140
cggtactgtt ggtaaagcca ccatgg                                      1166
<210>97
<211>1166
<212>DNA
<213>人工序列
<220>
<223>合成构建体
<400>97
gcggccgcaa atgctaaacc actgcagtgg ttaccagtgc ttgatcagtg aggcaccgat 60
ctcagcgatc tgcctatttc gttcgtccat agtggcctga ctccccgtcg tgtagatcac 120
tacgattcgt gagggcttac catcaggccc cagcgcagca atgatgccgc gagagccgcg 180
ttcaccggcc cccgatttgt cagcaatgaa ccagccagca gggagggccg agcgaagaag 240
tggtcctgct actttgtccg cctccatcca gtctatgagc tgctgtcgtg atgctagagt 300
aagaagttcg ccagtgagta gtttccgaag agttgtggcc attgctactg gcatcgtggt 360
atcacgctcg tcgttcggta tggcttcgtt caactctggt tcccagcggt caagccgggt 420
cacatgatca cccatgttgt gcaaaaatgc ggtcagctcc ttagggcctc cgatcgttgt 480
cagaagtaag ttggccgcgg tgttgtcgct catggtaatg gcagcactac acaattctct 540
taccgtcatg ccatccgtaa gatgcttttc cgtgaccggc gagtactcaa ccaagtcgtt 600
ttgtgagtag tgtatacggc gaccaagctg ctcttgcccg gcgtctatac gggacaacac 660
cgcgccacat agcagtactt tgaaagtgct catcatcggg aatcgttctt cggggcggaa 720
agactcaagg atcttgccgc tattgagatc cagttcgata tagcccactc ttgcacccag 780
ttgatcttca gcatctttta ctttcaccag cgtttcgggg tgtgcaaaaa caggcaagca 840
aaatgccgca aagaagggaa tgagtgcgac acgaaaatgt tggatgctca tactcttcct 900
ttttcaatat gtttgcagca tttgtcaggg ttactagtac gtctctcttg agagaccgcg 960
atcgccacca tgtctaggta ggtagtaaac gaaagggctt aaaggcctaa gtggccctcg 1020
agtccagcct tgagttggtt gagtccaagt cacgtttgga gatctggtac cttacgcgta 1080
tgagctctac gtagctagcg gcctcggcgg ccgaattctt gcgttcgaag cttggcaatc 1140
cggtactgtt ggtaaagcca ccatgg                                      1166

Claims (69)

1.一种分离的核酸分子,其包含具有选择性多肽编码区的合成核苷酸序列,其中所述合成核苷酸序列与编码相应选择性多肽的亲代核酸序列具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密码子与亲代核酸序列密码子不同的结果,其中所述核苷酸序列编码选择性多肽,所述多肽与亲代核酸序列编码的相应选择性多肽具有至少85%的氨基酸序列同一性,其中相对于调节序列的平均数,所述合成核苷酸序列的调节序列数目减少,这是所述合成核苷酸序列和所述亲代核酸序列之间序列上不同的密码子随机选择的结果,其中所述合成核苷酸序列在细胞中表达时,赋予氨苄青霉素、嘌呤霉素、潮霉素或新霉素抗性。
2.权利要求1的分离的核酸分子,其中所述调节序列包括转录因子结合序列、内含子剪接位点、聚腺苷酸化位点、启动子组件和/或启动子序列。
3.权利要求1的分离的核酸分子,其中大多数不同的密码子是所需宿主细胞的优选密码子,和/或不是该宿主细胞的低使用密码子。
4.权利要求3的分离的核酸分子,其中在所述合成核酸序列中大多数不同的密码子是哺乳动物中更频繁使用的密码子。
5.权利要求3的分离的核酸分子,其中在所述合成核酸序列中大多数不同的密码子是人体中的优选密码子。
6.权利要求3的分离的核酸分子,其中所述大多数不同的密码子是密码子CGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC和TTC。
7.权利要求1的分离的核酸分子,其中所述核酸分子编码所述选择性多肽与萤光素酶的融合物。
8.权利要求7的分离的核酸分子,其中所述萤光素酶是肾海鳃萤光素酶、萤火虫萤光素酶或叩头虫萤光素酶。
9.权利要求1的分离的核酸分子,其中所述亲代核酸序列是野生型neo、hyg、bla或puro序列。
10.权利要求1的分离的核酸分子,其中所述亲代核酸序列是SEQ ID NO:1、SEQ ID NO:6、SEQ ID NO:15或SEQ ID NO:41。
11.权利要求1的分离的核酸分子,其中所述合成核苷酸序列包含以下序列中的可读框:SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:30、SEQ ID NO:38、SEQID NO:39、SEQ ID NO:42、SEQ ID NO:44;SEQ ID NO:70、SEQ IDNO:71、SEQ ID NO:72、SEQ ID NO:73、SEQ ID NO:74、SEQ IDNO:80、SEQ ID NO:81、SEQ ID NO:82、SEQ ID NO:83或SEQ IDNO:84。
12.权利要求1的分离的核酸分子,其中所述合成核苷酸序列减少了至少10%的调节序列。
13.权利要求1的分离的核酸分子,其中所述合成核苷酸序列具有数目增加的AGC丝氨酸编码密码子、数目增加的ATC异亮氨酸编码密码子、数目增加的CCC脯氨酸编码密码子和/或数目增加的ACC苏氨酸编码密码子。
14.权利要求1的分离的核酸分子,其中在所述合成核苷酸序列中不同的密码子与所述亲代核酸序列相应密码子编码相同的氨基酸。
15.权利要求1的分离的核酸分子,其与以下任一序列中的可读框具有至少90%核苷酸序列同一性:SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:30、SEQID NO:38、SEQ ID NO:39、SEQ ID NO:42、SEQ ID NO:44、SEQ IDNO:70、SEQ ID NO:71、SEQ ID NO:72、SEQ ID NO:73、SEQ IDNO:74、SEQ ID NO:80、SEQ ID NO:81、SEQ ID NO:82、SEQ ID NO:83或SEQ ID NO:84或它们的互补序列。
16.权利要求1的分离的核酸分子,其中所述核酸分子编码所述选择性多肽与一种或多种其它肽或多肽的融合物,其中至少所述选择性多肽由所述合成核酸序列编码。
17.权利要求16的分离的核酸分子,其中一种或多种其它肽是具有蛋白质不稳定序列的肽。
18.包含权利要求1的核酸分子的质粒。
19.权利要求18的质粒,其还包含多克隆区。
20.权利要求18的质粒,其还包含目标可读框。
21.权利要求18的质粒,其还包含与所述合成核苷酸序列操作性连接的并且能在特定宿主细胞中起作用的启动子。
22.权利要求21的质粒,其中所述启动子在原核细胞中起作用。
23.权利要求21的质粒,其中所述启动子在真核细胞中起作用。
24.权利要求20的质粒,其还包含与目标可读框操作性连接的启动子。
25.一种分离的核酸分子,其包含编码萤火虫萤光素酶的合成核苷酸序列,其中所述合成核苷酸序列与含有SEQ ID NO:43的亲代核酸序列具有80%以下的核酸序列同一性,或者与含有编码萤火虫萤光素酶的SEQ ID NO:14的亲代核酸序列具有85%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密码子与所述亲代核酸序列密码子不同的结果,其中所述合成核苷酸序列编码萤火虫萤光素酶,所述酶与所述亲代核酸序列编码的相应萤光素酶具有至少85%氨基酸序列同一性,其中相对于调节序列的平均数,所述合成核苷酸序列的调节序列数目减少,这是所述合成核苷酸序列和所述亲代核酸序列之间序列上不同的密码子随机选择的结果。
26.权利要求25的分离的核酸分子,其中所述调节序列包括转录因子结合序列、内含子剪接位点、聚腺苷酸化位点、启动子组件和/或启动子序列。
27.权利要求25的分离的核酸分子,其中大多数不同的密码子是所需宿主细胞的优选密码子,和/或不是该宿主细胞的低使用密码子。
28.权利要求27的分离的核酸分子,其中在所述合成核酸分子中大多数不同的密码子是哺乳动物中更频繁使用的密码子。
29.权利要求27的分离的核酸分子,其中在所述合成核酸分子中大多数不同的密码子是人体中的优选密码子。
30.权利要求27的分离的核酸分子,其中所述大多数不同的密码子是密码子CGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC和TTC。
31.权利要求25的分离的核酸分子,其中所述合成核苷酸序列包含SEQ ID NO:21、SEQ ID NO:22或SEQ ID NO:23的可读框序列或者与其具有至少90%核苷酸序列同一性。
32.权利要求25的分离的核酸分子,其中所述合成核酸分子在哺乳动物宿主细胞中表达,其表达水平高于所述亲代核酸序列的表达水平。
33.权利要求25的分离的核酸分子,其中所述合成核酸分子具有数目增加的AGC丝氨酸编码密码子、数目增加的CCC脯氨酸编码密码子、数目增加的ATC异亮氨酸编码密码子和/或数目增加的ACC苏氨酸编码密码子。
34.权利要求25的分离的核酸分子,其中所述合成核苷酸序列减少了至少10%的转录调节序列。
35.权利要求25的分离的核酸分子,其中在所述合成核苷酸序列中不同的密码子与所述亲代核酸序列相应密码子编码相同的氨基酸。
36.权利要求25的分离的核酸分子,其中所述核酸分子编码萤光素酶与一种或多种其它肽或多肽的融合物,其中至少所述萤光素酶由所述合成核酸序列编码。
37.权利要求36的分离的核酸分子,其中一种或多种其它肽是具有蛋白质不稳定序列的肽。
38.包含权利要求25的核酸分子的质粒。
39.权利要求38的质粒,其还包含多克隆区。
40.权利要求38的质粒,其还包含与所述合成核苷酸序列操作性连接的启动子。
41.权利要求38的质粒,其还包含权利要求1的核酸分子的合成核苷酸序列。
42.一种表达载体,其包含权利要求25的核酸分子及与所述核酸分子连接并能在细胞中起作用的启动子。
43.权利要求42的表达载体,其中所述启动子在真核细胞中起作用。
44.权利要求42的表达载体,其中所述表达载体还包含多克隆位点。
45.权利要求42的表达载体,其中所述启动子在哺乳动物细胞中起作用。
46.权利要求42的表达载体,其中所述合成核苷酸序列与Kozak共有序列操作性连接。
47.一种质粒,其包含含有SEQ ID NO:74的核苷酸序列或者与SEQ ID NO:74具有至少80%核酸序列同一性的核苷酸序列,所述核苷酸序列包含与SEQ ID NO:41具有90%以下核酸序列同一性的可读框,所述可读框在宿主细胞中的表达赋予氨苄青霉素抗性。
48.包含权利要求42的表达盒的宿主细胞。
49.包含权利要求17、38或47中任一项的质粒的宿主细胞。
50.一种试剂盒,所述试剂盒包括合适容器中的权利要求17、38或47中任一项的质粒。
51.一种多核苷酸,其在严格性杂交条件下能与以下序列杂交:SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:9、SEQ ID NO:10、SEQ IDNO:11、SEQ ID NO:30、SEQ ID NO:38、SEQ ID NO:39、SEQ IDNO:42、SEQ ID NO:44、SEQ ID NO:70、SEQ ID NO:71、SEQ IDNO:72、SEQ ID NO:73、SEQ ID NO:74、SEQ ID NO:80、SEQ IDNO:81、SEQ ID NO:82、SEQ ID NO:83、SEQ ID NO:84、SEQ IDNO:21、SEQ ID NO:22、SEQ ID NO:23或所述多核苷酸的互补序列,其中所述多核苷酸或其互补序列编码选择性多肽或萤火虫萤光素酶。
52.权利要求51的多核苷酸,其不含有SEQ ID NO:1、SEQ IDNO:6、SEQ ID NO:15、SEQ ID NO:41、SEQ ID NO:14或SEQ IDNO:43。
53.一种分离的核酸分子,其包含不编码所需要的肽或多肽但包含抑制转录和/或翻译的序列的合成核苷酸序列,其中所述合成核苷酸序列与不编码所需要的肽或多肽的相应亲代核酸序列相比具有不同序列的至少20个核苷酸,其中所述合成核苷酸序列与所述亲代核酸序列具有90%以下的核酸序列同一性,其中所述序列差异是所述合成核苷酸序列与所述亲代核酸序列相比具有数目减少的一个或多个调节序列的结果。
54.权利要求53的分离的核酸分子,其中所述合成核苷酸序列具有SEQ ID NO:49。
55.权利要求53的分离的核酸分子,其还包含多克隆区和/或聚腺苷酸化位点。
56.权利要求53的分离的核酸分子,其中所述抑制转录的序列包含一个或多个聚腺苷酸化位点。
57.权利要求53的分离的核酸分子,其中所述抑制翻译的序列包含一个或多个阅读框中的一个或多个终止密码子。
58.权利要求53的分离的核酸分子,其中所述亲代核酸序列包含多克隆区。
59.权利要求53的分离的核酸分子,其中所述亲代核酸序列包含抑制转录和/或翻译的序列。
60.权利要求53的分离的核酸分子,其中所述亲代核酸序列具有SEQ ID NO:76。
61.权利要求53的分离的核酸分子,其中相对于所述亲代核酸序列来说,所述合成核苷酸序列具有数目减少的一个或多个限制性内切核酸酶识别位点。
62.包含权利要求53的核酸分子的质粒。
63.一种质粒,其包含具有SEQ ID NO:89、SEQ ID NO:90的序列,或者与其具有至少90%核酸序列同一性的序列,或者它们的互补序列,所述序列编码至少一种可选择和/或可筛选多肽。
64.权利要求63的质粒,其还包含多克隆区。
65.权利要求63的质粒,其还包含其它的可选择或可筛选多肽。
66.权利要求63或65的质粒,其中所述至少一种可选择或可筛选多肽包含一个或多个蛋白质不稳定序列。
67.权利要求63的质粒,其中所述至少一种可选择和/或可筛选多肽的序列不是SEQ ID NO:41。
68.一种至少100个核苷酸的合成核苷酸序列,其具有选择性多肽的编码区并赋予氨苄青霉素、嘌呤霉素、潮霉素或新霉素抗性,其中所述合成核苷酸序列与所述选择性多肽的亲代核酸序列相应区具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列的密码子与亲代核酸序列相应区的密码子不同的结果,其中相对于调节序列的平均数,所述合成核苷酸序列的调节序列数目减少,这是所述合成核苷酸序列和所述亲代核酸序列之间序列上不同的密码子随机选择的结果。
69.一种分离的核酸分子,其编码选择性多肽并包含具有选择性多肽编码区的至少100个核苷酸的合成核苷酸序列,其中所述合成核苷酸序列与编码选择性多肽的亲代核酸序列相应区具有90%以下的核酸序列同一性,其中所述降低的序列同一性是所述合成核苷酸序列密码子与亲代核酸序列密码子不同的结果,其中所述合成核苷酸序列编码选择性多肽区,该选择性多肽区与亲代核酸序列所编码的选择性多肽的相应区具有至少85%氨基酸序列同一性,其中相对于调节序列的平均数,所述合成核苷酸序列的调节序列数目减少,这是所述合成核苷酸序列和所述亲代核酸序列之间序列上不同的密码子随机选择的结果,其中所述分离的核酸分子在细胞中表达时,赋予氨苄青霉素、嘌呤霉素、潮霉素或新霉素抗性。
CNA2005800392825A 2004-09-17 2005-09-16 合成核酸分子及制备方法 Pending CN101061221A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/943,508 2004-09-17
US10/943,508 US7728118B2 (en) 2004-09-17 2004-09-17 Synthetic nucleic acid molecule compositions and methods of preparation

Publications (1)

Publication Number Publication Date
CN101061221A true CN101061221A (zh) 2007-10-24

Family

ID=35448059

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800392825A Pending CN101061221A (zh) 2004-09-17 2005-09-16 合成核酸分子及制备方法

Country Status (6)

Country Link
US (2) US7728118B2 (zh)
EP (1) EP1797181A2 (zh)
JP (1) JP2008513021A (zh)
CN (1) CN101061221A (zh)
CA (1) CA2580773A1 (zh)
WO (1) WO2006034061A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108884459A (zh) * 2016-04-26 2018-11-23 科济生物医药(上海)有限公司 一种改善免疫应答细胞功能的方法
CN109086890A (zh) * 2017-06-14 2018-12-25 Landigrad有限责任公司 信息编码和信息解码的方法
CN112301047A (zh) * 2020-11-02 2021-02-02 江苏东玄基因科技有限公司 一种精确调控重组蛋白表达的方法
CN112513069A (zh) * 2018-08-01 2021-03-16 南克维斯特公司 具有对于验证的靶标的二次归巢激活的趋化因子反应性激活的自然杀伤细胞

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030157643A1 (en) * 2000-08-24 2003-08-21 Almond Brian D Synthetic nucleic acids from aquatic species
US7879540B1 (en) * 2000-08-24 2011-02-01 Promega Corporation Synthetic nucleic acid molecule compositions and methods of preparation
US7728118B2 (en) 2004-09-17 2010-06-01 Promega Corporation Synthetic nucleic acid molecule compositions and methods of preparation
US20070212332A1 (en) * 2005-08-11 2007-09-13 Department Of Veterans Affairs Methods for accelerating bone repair
JP5409354B2 (ja) * 2006-05-25 2014-02-05 インスティチュート フォー アドバンスド スタディ 配列モチーフを同定するための方法、およびその応用
EP2468298B1 (en) 2006-07-13 2015-09-02 Institute For Advanced Study Methods of optimizing vaccine production
WO2008064056A2 (en) * 2006-11-22 2008-05-29 Pioneer Hi-Bred International, Inc. Tetracycline repressor and uses thereof
EP2180058A1 (en) * 2008-10-23 2010-04-28 Cellectis Meganuclease recombination system
US9006405B2 (en) 2010-06-10 2015-04-14 SwitchGear Genomics, Inc. Modified renilla luciferase nucleic acids and methods of use
BR112013010855A2 (pt) 2010-11-02 2017-06-27 Promega Corp luciferases derivadas de oplophorus, novos substratos de coelenterazina e métodos de uso
SG189494A1 (en) 2010-11-02 2013-05-31 Promega Corp Coelenterazine derivatives and methods of using same
US9200046B2 (en) * 2011-06-29 2015-12-01 Cornell University Reporter system for high throughput screening of compounds and uses thereof
US11072811B2 (en) 2013-03-15 2021-07-27 Promega Corporation Substrates for covalent tethering of proteins to functional groups or solid surfaces
US9790537B2 (en) 2014-01-29 2017-10-17 Promega Corporation Quinone-masked probes as labeling reagents for cell uptake measurements
EP3099691B1 (en) 2014-01-29 2019-11-20 Promega Corporation Pro-substrates for live cell applications
EP3191600A1 (en) 2014-09-11 2017-07-19 Promega Corporation Luciferase sequences utilizing infrared-emitting substrates to produce enhanced luminescence
EP4089175A1 (en) 2015-10-13 2022-11-16 Duke University Genome engineering with type i crispr systems in eukaryotic cells
US10316070B2 (en) 2016-09-09 2019-06-11 Promega Corporation Dual protected pro-coelenterazine substrates
CN109797166A (zh) * 2018-11-20 2019-05-24 陕西师范大学 基于CRISPR-Cas9靶向基因组修饰技术构建Egr2-Luciferase-KI-HEK293细胞系方法
US20200292543A1 (en) 2019-03-12 2020-09-17 Quidel Corporation Compositions, kits, and methods for detecting autoantibodies

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE428379B (sv) 1978-05-31 1983-06-27 Lkb Produkter Ab Bioluminiscens bestemning av atp och reagens herfor
US4412001A (en) * 1981-01-30 1983-10-25 Board Of Trustees Of The University Of Illinois Isolation of bacterial luciferase
US4503142A (en) * 1982-06-25 1985-03-05 Litton Bionetics, Inc. Open reading frame vectors
US4581335A (en) * 1982-12-01 1986-04-08 Texas A&M University System Process for producing a cloned luciferase-synthesizing microorganism
US5096825A (en) * 1983-01-12 1992-03-17 Chiron Corporation Gene for human epidermal growth factor and synthesis and expression thereof
US5380831A (en) * 1986-04-04 1995-01-10 Mycogen Plant Science, Inc. Synthetic insecticidal crystal protein gene
US5168062A (en) * 1985-01-30 1992-12-01 University Of Iowa Research Foundation Transfer vectors and microorganisms containing human cytomegalovirus immediate-early promoter-regulatory DNA sequence
US5583024A (en) * 1985-12-02 1996-12-10 The Regents Of The University Of California Recombinant expression of Coleoptera luciferase
US5221623A (en) * 1986-07-22 1993-06-22 Boyce Thompson Institute For Plant Research, Inc. Use of bacterial luciferase structural genes for cloning and monitoring gene expression in microorganisms and for tagging and identification of genetically engineered organisms
US4968613A (en) * 1987-07-29 1990-11-06 Kikkoman Corporation Luciferase gene and novel recombinant DNA as well as a method of producing luciferase
US5182202A (en) * 1987-11-30 1993-01-26 Kikkoman Corporation Purified luciferase from luciola cruciata
JPH088864B2 (ja) * 1988-04-12 1996-01-31 キッコーマン株式会社 ルシフェラーゼ
EP0353464B1 (en) 1988-07-01 1993-10-20 Kikkoman Corporation Luciferase gene and novel recombinant DNA as well as a method for production of luciferase
ATE145004T1 (de) 1988-08-09 1996-11-15 Toray Industries Verfahren zur herstellung von luciferase durch rekombinante expression eines luciferase- kodierenden gens
US5604123A (en) * 1988-08-09 1997-02-18 Toray Industries, Inc. Luciferase, gene encoding the same and production process of the same
JPH0771485B2 (ja) 1988-09-01 1995-08-02 キッコーマン株式会社 ルシフェラーゼの製造法
US5196524A (en) * 1989-01-06 1993-03-23 Eli Lilly And Company Fusion reporter gene for bacterial luciferase
DE69026851T2 (de) 1989-02-14 1996-10-31 Wako Pure Chem Ind Ltd Verfahren zur Erhöhung von Chemilumineszenz
FI901681A0 (fi) 1989-04-10 1990-04-03 Ela Technologies Inc Foerfarande foer oekning av kaensligheten hos luminescensanalyser.
JPH03167288A (ja) 1989-11-27 1991-07-19 Chisso Corp 界面活性剤によるエクオリンの増感発光法
US5292658A (en) * 1989-12-29 1994-03-08 University Of Georgia Research Foundation, Inc. Boyd Graduate Studies Research Center Cloning and expressions of Renilla luciferase
US5219737A (en) * 1990-03-27 1993-06-15 Kikkoman Corporation Mutant luciferase of a firefly, mutant luciferase genes, recombinant dnas containing the genes and a method of producing mutant luciferase
WO1991016432A1 (en) 1990-04-18 1991-10-31 Plant Genetic Systems N.V. Modified bacillus thuringiensis insecticidal-crystal protein genes and their expression in plant cells
US5283179A (en) * 1990-09-10 1994-02-01 Promega Corporation Luciferase assay method
EP0575319B1 (en) 1991-03-11 1999-11-10 The University Of Georgia Research Foundation, Inc. Cloning and expression of renilla luciferase
US5229285A (en) 1991-06-27 1993-07-20 Kikkoman Corporation Thermostable luciferase of firefly, thermostable luciferase gene of firefly, novel recombinant dna, and process for the preparation of thermostable luciferase of firefly
JPH07500966A (ja) * 1991-10-30 1995-02-02 プラント・ジエネテイツク・システムズ・エヌ・ベー 修飾遺伝子及びそれらの植物細胞における発現
US5629168A (en) 1992-02-10 1997-05-13 British Technology Group Limited Chemiluminescent enhancers
AT401526B (de) 1993-02-10 1996-09-25 Scheirer Winfried Reagenzlösung zur stabilisierung der lumineszenz bei der luciferasemessung
CA2104815A1 (en) 1993-02-26 1994-08-27 Naotaka Kuroda Method for measuring adenyl group-containing substances
US5610335A (en) 1993-05-26 1997-03-11 Cornell Research Foundation Microelectromechanical lateral accelerometer
US6118047A (en) 1993-08-25 2000-09-12 Dekalb Genetic Corporation Anthranilate synthase gene and method of use thereof for conferring tryptophan overproduction
JPH0767696A (ja) 1993-09-06 1995-03-14 Tosoh Corp バックグランド発光の低減法
AU698424C (en) 1994-01-03 2002-10-10 Promega Corporation Mutant luciferases
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
GB9501170D0 (en) 1994-03-23 1995-03-08 Secr Defence Luciferases
US5786464C1 (en) * 1994-09-19 2012-04-24 Gen Hospital Corp Overexpression of mammalian and viral proteins
US5795737A (en) * 1994-09-19 1998-08-18 The General Hospital Corporation High level expression of proteins
US5670356A (en) * 1994-12-12 1997-09-23 Promega Corporation Modified luciferase
IN186115B (zh) 1995-01-20 2001-06-23 Secr Defence Brit
US5744320A (en) * 1995-06-07 1998-04-28 Promega Corporation Quenching reagents and assays for enzyme-mediated luminescence
EP0859841B1 (en) 1995-08-18 2002-06-19 MorphoSys AG Protein/(poly)peptide libraries
US5874304A (en) * 1996-01-18 1999-02-23 University Of Florida Research Foundation, Inc. Humanized green fluorescent protein genes and methods
US6020192A (en) * 1996-01-18 2000-02-01 University Of Florida Humanized green fluorescent protein genes and methods
JPH09294600A (ja) 1996-04-26 1997-11-18 Kikkoman Corp 複数のプロモーター活性の測定法
WO1997047358A1 (en) 1996-06-11 1997-12-18 Merck & Co., Inc. Synthetic hepatitis c genes
JPH1087621A (ja) 1996-09-13 1998-04-07 Sankyo Co Ltd ルシゲニン化学発光の増強剤
US6114148C1 (en) * 1996-09-20 2012-05-01 Gen Hospital Corp High level expression of proteins
WO1998013487A1 (en) 1996-09-27 1998-04-02 Maxygen, Inc. Methods for optimization of gene therapy by recursive sequence shuffling and selection
US5976796A (en) * 1996-10-04 1999-11-02 Loma Linda University Construction and expression of renilla luciferase and green fluorescent protein fusion genes
JP3167288B2 (ja) 1997-03-17 2001-05-21 株式会社バンダイ 携帯用電子機器装置
GB9707486D0 (en) 1997-04-11 1997-05-28 Secr Defence Enzyme assays
US6074859A (en) * 1997-07-08 2000-06-13 Kikkoman Corporation Mutant-type bioluminescent protein, and process for producing the mutant-type bioluminescent protein
AU8148398A (en) * 1997-07-15 1999-02-10 Dow Agrosciences Llc Nucleotide sequences of genes encoding sink proteins and uses thereof for improving the nutritional quality of feeds
EP1015601B1 (en) 1997-09-19 2015-01-07 Promega Corporation Thermostable luciferases and methods of production
US6602677B1 (en) 1997-09-19 2003-08-05 Promega Corporation Thermostable luciferases and methods of production
US6306600B1 (en) * 1998-04-17 2001-10-23 Clontech Laboratories, Inc. Rapidly degrading GFP-fusion proteins and methods of use
US6130313A (en) * 1997-10-02 2000-10-10 Clontech Laboratories, Inc. Rapidly degrading GFP-fusion proteins
US7090976B2 (en) 1999-11-10 2006-08-15 Rigel Pharmaceuticals, Inc. Methods and compositions comprising Renilla GFP
US6700038B1 (en) * 1999-03-31 2004-03-02 Wisconsin Alumni Research Foundation Plant expression vectors based on the flock house virus genome
CA2385162A1 (en) 1999-09-30 2001-04-05 William L. Fodor Compositions and methods for altering gene expression
EP1305412A2 (en) 1999-10-14 2003-05-02 Clontech Laboratories Inc. Anthozoa derived chromo/fluoroproteins and methods for using the same
FR2812883B1 (fr) * 2000-08-11 2002-10-18 Aventis Cropscience Sa Utilisation d'inhibiteurs d'hppd comme agents de selection dans la transformation de plantes
US20030157643A1 (en) 2000-08-24 2003-08-21 Almond Brian D Synthetic nucleic acids from aquatic species
US7879540B1 (en) * 2000-08-24 2011-02-01 Promega Corporation Synthetic nucleic acid molecule compositions and methods of preparation
AU2002309989A1 (en) 2001-05-18 2002-12-03 Rigel Pharmaceuticals, Incorporated Directed evolution of protein in mammalian cells
WO2003042401A2 (en) 2001-11-13 2003-05-22 Clontech Laboratories, Inc. Novel chromophores/fluorophores and methods for using the same
AU2003272419B8 (en) * 2002-09-16 2008-08-21 Promega Corporation Rapidly degraded reporter fusion proteins
AU2003301883A1 (en) 2002-10-30 2004-06-07 University Of Tennessee Research Foundation Modified luciferase nucleic acids and methods of use
JP4311003B2 (ja) 2002-12-02 2009-08-12 アイシン精機株式会社 原核生物の遺伝子発現解析方法
US6878531B1 (en) * 2003-11-10 2005-04-12 Medical College Of Georgia Research Institute Method for multiple site-directed mutagenesis
US7728118B2 (en) 2004-09-17 2010-06-01 Promega Corporation Synthetic nucleic acid molecule compositions and methods of preparation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108884459A (zh) * 2016-04-26 2018-11-23 科济生物医药(上海)有限公司 一种改善免疫应答细胞功能的方法
CN108884459B (zh) * 2016-04-26 2024-04-02 科济生物医药(上海)有限公司 一种改善免疫应答细胞功能的方法
CN109086890A (zh) * 2017-06-14 2018-12-25 Landigrad有限责任公司 信息编码和信息解码的方法
CN112513069A (zh) * 2018-08-01 2021-03-16 南克维斯特公司 具有对于验证的靶标的二次归巢激活的趋化因子反应性激活的自然杀伤细胞
CN112301047A (zh) * 2020-11-02 2021-02-02 江苏东玄基因科技有限公司 一种精确调控重组蛋白表达的方法

Also Published As

Publication number Publication date
JP2008513021A (ja) 2008-05-01
WO2006034061A3 (en) 2006-05-26
CA2580773A1 (en) 2006-03-30
WO2006034061A2 (en) 2006-03-30
US8008006B2 (en) 2011-08-30
US20060068395A1 (en) 2006-03-30
EP1797181A2 (en) 2007-06-20
US7728118B2 (en) 2010-06-01
US20080070299A1 (en) 2008-03-20

Similar Documents

Publication Publication Date Title
CN101061221A (zh) 合成核酸分子及制备方法
CN1304578C (zh) 新的基于蜕皮激素受体的可诱导的基因表达系统
Horstick et al. Increased functional protein expression using nucleotide sequence features enriched in highly expressed genes in zebrafish
CA2438119C (en) Chimeric retinoid x receptors and their use in a novel ecdysone receptor-based inducible gene expression system
JP5963391B2 (ja) Anthozoa綱の非生物発光性種由来の蛍光タンパク質、そのようなタンパク質をコードする遺伝子、およびそれらの使用
Romano et al. Conservation of Endo16 expression in sea urchins despite evolutionary divergence in both cis and trans-acting components of transcriptional regulation
JP2002512015A (ja) 迅速分解性gfp融合タンパク質および使用方法
EP2307543B1 (en) Improved protein expression system
US20090191622A1 (en) Synthetic nucleic acids from aquatic species
EP2166107A1 (en) Lentiviral vectors for the expression of shRNA
CN1418250A (zh) 信号序列捕获
US20150376627A1 (en) Inducible Expression System Transcription Modulators Comprising A Distributed Protein Transduction Domain And Methods For Using The Same
CN109790539A (zh) Hspa5基因的启动子
Romano et al. Efficient in vitro and in vivo gene regulation of a retrovirally delivered pro-apoptotic factor under the control of the Drosophila HSP70 promoter
CN108034674B (zh) 一种快速建立基因敲除细胞株的重组载体及其方法
JP6436908B2 (ja) 外因性遺伝子発現ベクター、形質転換体判別マーカー及び形質転換体
JP2006521802A (ja) 鱗翅目の後部絹糸腺における有用ポリペプチド発現を指令する核酸およびその応用
CN111718929B (zh) 利用环形rna进行蛋白翻译及其应用
JP2016514477A (ja) 哺乳動物細胞内で生物活性タンパク質を発現させるための方法および構築物
Wang et al. Analysis of the structure and activity of the promoter regions of the metallothionein genes of the freshwater pearl mussel Hyriopsis schlegelii
Lee et al. Molecular characterization of a heat shock cognate 70-4 promoter from the silkworm, Bombyx mori
CN1756840A (zh) 诱导体细胞同源重组的方法
Izadi et al. Producing a mammalian GFP expression vector containing neomycin resistance gene
CN1729008A (zh) 离域分子及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20071024