电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

DNA编码范文

来源:文库作者:开心麻花2026-01-071

DNA编码范文(精选4篇)

DNA编码 第1篇

1994年, 南加州大学的Adleman博士在Science上发表的文章“Molecular Computa tion of Solutions to Combinatorial Probl ems”标志着一个新的研究领域-DNA计算的诞生[1]。

DNA计算是一个包括计算机、分子生物、数学、物理、化学以等领域的多学科交叉的前沿研究领域, 通常, DNA计算主要包括三个步骤: (1) 编码, 即将所要解决的问题映射为一个DNA分子的集合; (2) 计算过程, 进行各种生化反应如杂交、连接及延伸等生成可能解空间; (3) 解的分离和读取 (如PCR反应和凝胶电泳) 。而编码问题是整个DNA计算机研制中最为核心的问题。

2、DNA编码问题

2.1 编码的定义

Garzon给出了DNA计算中的编码问题定义[2], Garzon将DNA计算中的编码问题定义为:在字母表Σ={A, G, C, T}上, 存在一个长度为n的DNA分子的编码集合S, 显然集合S的大小S=4n。求S的一个子集C⊆S使得C中的任意二个编码Si, Sj满足

其中k为正整数, z是评价编码性质的准则, 如海明距离、移位距离、最小相同子序列数目等。显然, 在编码问题中主要关心二个指标:编码质量和编码数量。编码质量越高, DNA计算的可靠性越高;编码数量越大, 解决问题的应用规模也就越大。但是, 在实际问题中这二个指标是相互矛盾的。因此, 通常是在满足一定编码质量的条件下, 求所能得到的最大的编码集合。他还借鉴二进制超立方体的理论对编码进行研究。

2.2 约束条件编码距离[3]

任何计算模式的实质都可以归结为对信息的传输和处理过程, 编码距离实际上就是描述任意二个编码间“相似度”常用的一个参数。编码距离越大其“相似度”越小。信息论中纠错码方法有效的解决了以0, 1编码的电子计算机中的编码问题, 其数学基础是用海明距离来度量二进制超立方体空间中的二个顶点间的距离。由于DNA计算的特殊性, 又引伸出其它几种扩展形式。下面简要介绍一下它们的定义:

1.海明距离H (X i, Xj) :序列Xi和X j上所有对应位置上字符不同的总和;

2.海明反距离Hr (X i, X j) :序列Xi和序列Xj的反序列Xjr之间的海明距离;

3. 海明补距离Hc (X i, X j) :

序列Xi和序列Xj的补序列X jc (X i, X j) 之间的海明距离, 对于二进制序列, 其补序列是将所有的“0”变为“1”, 所有的“1”变为“0”后得到的。对于DNA序列, 则是将所有字母变为与其配对的碱基字母;同时, 其方向将发生变化, 即原来序列方向为5'3', 则其补序列变为3'5';

4.移位距离 (HG) :序列X j相对序列Xi移动k (-n

其中ρk表示偏移k个位置, Cij为序列Xi和Xj的最长公共子序列。

3、DNA编码研究及方法

3.1 DNA编码方法[4]

DNA编码质量研究的主要内容是依据问题的规模来找出满足确定约束条件的一定数量的DNA序列。所采用的约束条件通常是Hamming距离约束和热力学约束, 主要研究方法包括理论上的构造和计算机搜索两种主要方法。

3.1.1 模板映射方法

该方法最初是由Wisconsin大学的Frutos等提出的, 他们主要从事基于表面方式的DNA计算方面的研究。模板映射方法是将DNA分子的编码过程分为二步: (1) 搜索满足一定条件的二进制串作为模板集合T, 其中“1”代表A/T的位置, “0”代表G/C的位置; (2) 搜索满足一定条件的二进制串作为映射集合M, 然后由T*MS, 最终得到所期望的DNA编码序列集合, 其规则为1*1T, 1*0A, 0*1G, 0*0C。

3.1.2 模板框

模板框的概念是刘文斌博士提出的。主要的思想是:在模板方法中, 当编码集合S给定后, 其模板集合T和映射集合M也就唯一确定。设模板集合T由m个长度为n的二进制序列组成T={t 1, t 2, ...t m}, 则称由这m模板序列形成的一个排列P=t1 t 2...tm为一个模板框。对于二个二进制序列ix和xj, 设xj的长度|x j|大于ix的长度|ix|, 则ix和xj的移位距离H'G (x i, xj) 为ix和xj中所有长度为|x j|的子序列的汉明距离中的最小汉明距离。定义模板集合T和模板框P的位移距离为HG (T, P) =1miinmHG (t i, P) 。

4、DNA编码的不足及拟采取的研究方案

4.1 DNA编码的不足之处

条件很多时, 遗传算法几乎搜索不到符合要求的编码。遗传算法应用于编码搜索的最大难点在于影响编码的因素众多, 很难用一个有效的适应度函数对其进行评价。因此, 目前对于DNA编码方法的研究还丞待更一步的完善。

4.2 DNA编码拟采取的研究方案

基于上述DNA编码方法的不足之处, 可以通过改进已有算法或提出新的算法来进一步地克服上述算法的不足;另外, 目前DNA计算编码问题的研究的主要方法是集中在对于组合约束和热力学约束的研究。大多数的研究都只是对其中的一种约束进行研究, 可以拟同时考虑组合约束和热力学约束, 并将改进的算法或新算法和DNA计算结合, 采用新的手段来得到一种新的DNA编码的方法。

摘要:DNA计算是近年来出现的一种新的自然计算方法, 因为其具有高度的并行性和海量的存储能力, 引起了科学家的关注.而编码问题是DNA计算中一个重要的步骤, DNA编码序列的质量与数量直接影响DNA计算的可靠性和规模。本文主要阐述了DNA编码研究现状, 并分析目前DNA编码研究的不足, 最后提出了拟采取的研究方案。

关键词:DNA计算,编码问题,编码的质量,编码的数量

参考文献

[1]刘文斌, 朱翔鸥, 王向红, 陈丽春, DNA计算的研究进展, 电子学报[J], 2006, 34 (11) , 2053-2057.

[2]Aili Han and Daming Zhu。DNA Enencoding Methods in the Field of DNA Computing, Studies in Computational Intelligence (SCI) 94, 293–322 (2008)

[3]Deaton R.and Garzon M..Thermodynamic Constraints on DNA-based Computing, in Computing with Bio-Molecues:Theory and Expirements.ed.Cx Paun, Springer-Verlag:Singapore, 1998, 138-152

DNA编码 第2篇

随着近几年互联网技术的飞速发展,人们的生活已经与互联网密切相关,大量个人或企业图像信息被存放在网络上,或开始在网络中传输,然而这些图像都存在着一定的安全隐患。于是对图像进行加密处理开始变得十分关键。由于传统加密算法如DES、AES、IDEA等,并没有考虑图像格式的特点,另外,数据量大、冗余度高和像素的相关性强等,所以不再适合应用于图像加密。而当前广泛使用的基于图像像素点置乱的图像加密技术,如Arnold变换[1]、Hilbert曲线变换[2]、矩阵变换[3]等,均具有周期性,且无法改变图像的灰度直方图特性,安全性相对较低。

近年来许多学者开始对混沌应用于加密技术越来越感兴趣,人们发现混沌对初始值的敏感性、伪随机性、统计学和拓扑学等特性,非常适合应用于加密系统。因此将置乱与混沌系统相结合应用于图像加密正成为热点。文献[4]将Arnold变换和扩散函数相结合来对数字图像进行置乱加密,虽然解决了Arnold变换无法改变图像灰度直方图特性的缺陷,但其算法相对简单,安全性不高。文献[5]将图像进行DNA编码后分为4个子图像,并利用Logistic混沌序列分别对每个子图像置乱加密,但此算法密钥空间小,无法抵抗穷举攻击。文献[6-8]将DNA编码与混沌系统相融合应用于图像加密,DNA编码由于继承了遗传分子的并行性和高信息密度等特性[11],现今被广泛应用于加密系统[6]。而混沌系统与DNA编码相结合也成为了研究的热点。

为了解决普通置乱方法中置乱序列的周期性和无法改变图像灰度直方图特性的问题,本文利用混沌伪随机序列来控制图像矩阵中像素点位置的交换,然后利用另一种混沌序列对置乱后图像加密。基于DNA编码应用于加密系统的巨大优势,本文同时将DNA编码引入加密系统,提出一种基于混沌占空置乱和DNA编码的图像加密算法。首先使用改进型logistic映射产生图像置乱所需的混沌序列,利用另一种性能良好的改进型Tent映射产生对图像异或运算所需的混沌序列,利用DNA编码规则对图像像素点进行扩散,最终生成加密后的图像。安全性分析显示该方法具有良好的加密特性。

1 混沌系统及DNA编码

1.1 改进型Logistic映射

改进型Logistic映射表达式[9]:

式(1)改进型Logistic序列xn∈(-1.2,1.2),相比于原来的Logistic序列迭代范围(0,1)扩大了许多。系统在(2.35,3)区间处于混沌态,相比原来序列密钥空间更大,且改进型的Logistic映射的Lyapunov指数最大值为1.041左右。而Logistic映射的Lyapunov指数最大为0.667,说明改进型系统对初始值更加敏感,序列的随机性更好。本文将其产生的混沌序列应用于图像置乱。

1.2 改进型Tent映射

改进型Tent映射表达式[10]:

式(2)中μ∈(1,2)时,系统处于混沌状态,改进型系统迭代范围为(0,k),其中k>1,相比于原来的区间(0,1)迭代范围有了明显的扩展。

1.3 DNA编码

本文采用DNA编码理论对像素位置被置乱并加密处理后的图像进行编码。将每一个像素用8位二进制表示,每2位用一个DNA碱基(A,G,C,T)表示。由此可得出8种编码规则[11],如表1所示。

根据碱基互补原则,可以得到6种碱基对,如表2所示。

2 基于混沌占空置乱和DNA编码的图像加密算法

2.1 加密算法

首先利用混沌占空置乱的方法对图像进行置乱。然后利用另一种性能良好的混沌系统产生两个混沌序列分别对置乱图像前n行像素点和其余像素点进行异或运算生成加密图像。最后利用DNA编码规则,对图像矩阵中像素点灰度值的每两位二进制位分别进行对应的互补替换,达到图像扩散的目的,最终生成加密后的图像。

所谓混沌占空置乱,是指利用混沌序列对图像矩阵中行(列)像素点的位置进行交换。假设原始图像G0大小为M×N,其行向量为G0(i),i∈(1,M),像素点值为G0(i,j)∈(0,255),i∈(1,M),j∈(1,N),x(i)为映射到(0,255)的一维离散混沌序列。

首先将原始图像G0初始化为所有像素点值为0的图像矩阵G1,且G1的行向量为G1(i),像素点值为G1(i,j)∈(0,255),则混沌占空行置乱的数学表达式为:

式中,G0代表原始图像矩阵,即明文;G1代表置乱后的图像矩阵;[x(i)]表示对序列x(i)取整。ROR(X)表示在1-M中查找满足G1(f(X),0)=0的X值。

混沌占空列置乱,原理同行置乱。

2.2 图像加密与解密

图像加密的流程如图1所示。

图像加密算法的步骤如下:

步骤1

将灰度图像转化为大小为M×N的二维矩阵G,灰度值为0~255。

步骤2

改进型Logistic映射的初值a0,参数μa。生成离散一维的混沌序列La,然后将La映射到0~255之间,根据其位置编号与值的关系,交换矩阵G的行和列,从而得到置乱后的图像G2。

具体算法如下:

(1)原始图像的行号如表3所示。

(2)行置乱的方法如下:

混沌序列及量化结果如表4所示。

备注:量化公式为ceil(x×M)。占位结果如表5所示。

说明:根据第1步的量化结果,0.58量化为5,所以将行号为1的所有像素点放在第5行的位置;0.36量化结果为3,所以将行号为2的所有像素点放到第3行的位置。依次类推,如果放置的位置已经被占用,就要循环右移,直到没有被占领的位置为止,然后将相应的行放在这个位置。

行置乱的向量如表6所示。

说明:按照上两步的规则,置乱后的行号排列为表6所示。在编程中,可以利用上面的向量对图像的行或列进行置换,本文是先对行置换,然后对列进行置换。

步骤3

利用改进型Tent映射,两个初始值z0、q0和两个参数μ1、μ2,分别产生两个一维序列Z和Q。然后将Z和Q序列转化为M×N×8的二进制序列,同时需要随机产生一个1~M的整数n。然后利用Z序列对矩阵G2的前n行进行异或运算,剩余部分行利用Q序列进行异或操作,生成加密图像G3。

步骤4

经过如上加密后,图像G3变为M×N×8的二进制二维矩阵,然后随机产生一个1~8的整数r1,根据它来决定使用表1所示的DNA编码规则中的哪种规则。根据DNA编码规则每两位二进制有1位脱氧核苷酸表示,从而将G3转化为一个M×N×4的DNA编码序列G4。

步骤5

随机产生一个1~6的整数r2,从而决定使用如表2中的6种碱基对互补规则中的哪种规则。然后根据选择的规则来决定G4中的核苷酸替换的方法。替换后得到图像的矩阵G5。

步骤6

随机生成一个1~8的整数r3,根据它来决定使用表1中哪种规则对G5进行转换,然后生成M×N×8的矩阵,也就是加密后的图像G6。

解密过程是加密过程的逆运算,在得到密文与正确密钥的情况下,通过解密过程就可以得到原始图像。

2.3 密钥参数

本算法基于混沌占空置乱和DNA编码的图像加密算法,其采用的密钥参数如表7所示。主要由三个部分构成:混沌系统参数、图像分割参数和DNA编码参数。其中a0、ua是改进型Logistic映射的系统参数,a0取值范围为(-1.2,1.2);ua取值范围为(2.35,3)时系统处于混沌态;z0、q0、wz、wq、k是改进型Tent映射的系统参数;z0、q0可以取(0,k)之间的任意值,其中k>1;wz、wq取值(1,2)时,改进型Tent映射处于混沌态;n是图像分割参数,它可以取(1,M)的整数,M表示图像的行数,r1、r2、r3是DNA编码时选择的编码规则的编号,可以参考表1和表2,其中r1取(1,8)的整数,r2(1,6)的整数,r3取(1,8)的整数,它们不同的取值会导致DNA编码结果截然不同。对于算法中参数的取值,分为三种情况分别如表7所示。对于混沌参数的取值要保证混沌系统处于混沌态,图像分割参数选取1~M之间的随机数,目的是增大密钥的空间,提高算法的安全性,DNA编码参数则要参照表1和表2的规则,解编码是编码的逆过程。

3 实验仿真及结果分析

3.1 仿真实验

利用MATLAB软件,结合本文算法,对“lena.bmp”图像进行加密和解密的仿真实验,密钥选用:K=(0.70001,2.55,0.1,0.1000001,1.0001,1.0002,125,3,4,2),结果如图2、图3所示。

图2中(a)为原始图像,(b)为行置乱后图像,置换后图像的部分细节得到了隐藏,(c)为行列置乱后图像,图像明显比只进行行置换的图像(b)隐藏了更多的图像细节,(d)为置乱并Tent加密后图像,图像已经看不出任何的有效信息,(e)为置乱加密并DNA扩散后生成的最终加密图像,即密文,已经完全看不出任何图像的信息,说明加密效果良好。

图3中(a)为密文,(b)为DNA扩散恢复后的图像,(c)为Tent解密后的图像,图像的部分信息已经呈现出来,(d)为列置乱恢复后的图像,(e)为最终的解密图像,解密后图像几乎可以呈现出原始图像的全部信息。

通过比较得知,原始图像图2(a)与解密后图像图3(e),像素点完全相同。仿真结果可以得出,本文提出的算法没有丢失图像的任何信息。

3.2 统计特性分析

3.2.1 直方图分析

直方图是图像每个像素点灰度值与其出现的次数之间的统计关系[14]。如果加密后的图像频率统计直方图可以呈现出均匀状态分布情况,那么就可以表明本文的加密算法能够很好地隐藏明文图像的统计特性,加密效果明显[12]。图4中(a)是原始图像的频率直方图,(c)是解密后图像的频率直方图,(a)和(c)的直方图基本相同,(b)是加密后的频率直方图,可以看出其分布均匀。结果表明,本算法具有较好的加解密效果。

3.2.2 相关性分析

随机选取lena.bmp明、密文图像的1000对相邻像素点值进行相关性统计测试,其中包括水平、垂直、对角3个方向,结果如表8所示。从表8数据可以看出,明文图像中相邻像素存在着很大的相关性,而算法加密后图像相邻像素基本不存在相关性。水平方向选取明、密文中2560对相邻像素点灰度值,然后绘制其分布情况,如图5所示。由图5可以明显看出明文图像的相邻像素点灰度值成连续性特征,经过算法处理后,图像的连续性已经被完全置乱,图像相邻像素点的灰度值随机杂乱的分布,且布满整个二维空间。

3.2.3 信息熵分析

图像信息熵计算式如下所示:

对于256级灰度图像其理想信息熵值为:H(x)=N=8。根据式(4)计算本算法得到的lena.bmp密文图像信息熵为7.9890,说明本算法对图像置乱充分,加密算法对抵抗熵攻击是安全的。

3.3 密钥敏感测试

密钥敏感性指的是密钥很小的变化,就会产生两幅不同的加密图像[13]。解密密钥的很小变化就会导致无法成功解密图像。加密密钥设定为K=(0.70001,2.55,0.1,0.1000001,1.0001,1.0002,125,3,4,2),而解密密钥为K=(0.70002,2.55,0.1,0.1000001,1.0002,1.0002,125,3,4,2)。

密钥微小的变化,结果如图6、图7所示。图6为错误解密图像及直方图,图7为正确解密图像及直方图。可见即使密钥微小的变化也会导致无法得到图像任何有效信息,说明此算法对初始值具有高度的敏感性,其具有对枚举搜索很好的抵抗力,说明算法的安全性很高。

4 算法性能分析

本算法采用混沌占空置乱和DNA编码方法进行加密,其复杂度主要体现在以下几个方面:

1)该算法的密钥为K=(a0,ua,z0,q0,wz,wq,n,r1,r2,r3),a0取值(-1.2,1.2),z0、q0可以取值(0,k)之间的任何值,其中k>1,其密钥空间无穷大;ua取值(2.35,3);wz、wq可以取(1,2)之间任意值,其密钥空间无穷大;n取(1,M)的整数,r1取(1,8)的整数,r2(1,6)的整数,r3取(1,8)的整数。由于密钥的变化,可以大大增加密钥空间,所以,对密钥K的穷举攻击无法破解加密。

2)算法混沌占空置乱所采用的改进型Logistic映射相比原来的映射有着对初始值更好的敏感性。类随机性及不可预测性,不仅扩大了密钥的空间,而且也增加了密钥敏感性,较好地增强了图像加密效果。同时,占空法使用也极大地提高了算法的安全性。

3)算法采用的改进型Tent映射相比原来映射有着更大的迭代空间,利用其产生的两个序列Z和Q。分别对图像矩阵的前n行像素点,和其余像素点进行异或运算生成加密图像,不仅扩大了密钥空间,而且如果改变n的值,就会得出不同的加密图像,从而极大地提高了整个算法的安全性。

4)算法最后,利用DNA编码规则,对图像矩阵中像素点灰度值的每两位二进制位分别进行对应的互补替换,达到图像像素扩散的目的。进一步提高了加密效果,同时也极大地提高了算法的复杂性和安全性。

5 结语

本文介绍了一种基于混沌占空置乱和DNA编码的图像加密算法。该算法以混沌理论为基础,将改进型Logistic混沌映射产生的混沌序列应用于图像置乱。然后使用改进型Tent映射产生两个混沌序列对置乱后的图像的前n行像素点和其余像素点分别进行异或运算。最后利用DNA编码规则,对图像矩阵中像素点灰度值的每两位二进制位分别进行对应的互补替换,达到图像扩散的目的,最终生成加密图像,即密文。

DNA编码 第3篇

关键词:DNA序列,核苷酸二联体,异或,序列分析

随着人类基因组计划的实施和完成以及分子生物学相关学科的迅猛发展, 越来越多的动物、微生物基因组序列得以测定。基因序列数据正在以前所未有的速度迅速增长。然而, 怎样去研究如此众多的基因在生命过程中所担负的功能就成了全世界生命科学工作者共同的课题。DNA (脱氧核糖核酸) 科学的发展就是顺应这一科学发展要求的产物。遗传物质的主要载体是染色体, 而控制生物性状遗传的主要物质是DNA。组成一个链的四个核苷酸是腺嘌呤 (A) 、腺嘧啶 (T) 、鸟嘌呤 (G) 和胞核嘧啶 (C) , 他们通常称为碱基。A和T配对, G和C配对。在分子生物学中, 一个DNA序列是由A, T, G, C组成的序列。DNA序列不产生一个马上有用的或提供消息的刻画。即使被考虑的DNA是短的片段, 比较他们也是困难的[1]。

随着基因序列的增长, 对大量基因序列数据的数学分析已成为生物科学家的一大挑战。近几年, 不少学者提出了DNA序列的图形表示方法并应用于序列分析, 基因序列的图形表示方法已成为研究基因序列的重要手段, 利用图形表达方式描述基因序列具有的直观性, 更有利于对基因的分类以及基因进化关系的分析[2]。其中张春霆院士的基于几何学方法基因序列研究在对SARS序列的研究中取得了一系列的进展[3,4]。另外, Nandy, Randic等针对DNA序列也提出了基于坐标轴的2D, 3D图形表达[5,6,7,8,9,10,11], 廖波在Nandy, Randic等人研究的基础上给出了多种图形表达方法, 这些表达方法克服了在图形表达中所存在的不利因素, 即基因信息的丢失或在图形的表达中产生回路的情况, 同时在这类非退化的图形表达方式中引入几何中心的概念以及构建各类相似矩阵进行相似性比较分析[12,13,14,15,16,17,18,19]。不过这些方法都基于单核苷酸的特征, 这样或多或少丢失了一些隐藏在DNA序列里边的信息。为了克服该类方法的不足, 不少学者开始考虑利用核苷酸二联体或三联体特征进行序列分析[20,21,22,23]。

序列比较大致可以分为四种基本情况: (1) 对于两条长度相近的序列相似, 找出序列的差别; (2) 判断一条序列的前缀与另一条序列的后缀相似; (3) 判断一条序列是否是另一条序列的子序列; (4) 判断两条序列中是否有非常相似的子序列。基于核苷酸二联体给出DNA序列一种编码规则, 利用异或操作进行序列比较。这种二值化的思想既提高了电子计算机的可操作性, 也提高了计算的实时性。

1 DNA序列的编码方式及应用

DNA的四个碱基A, G, C, T根据化学性质的不同, 可分为三类不同的划分:嘌呤R={A, G}/嘧啶Y={C, T};氨基M={A, C}/酮基K={G, T};弱氢键W={A, T}/强氢键S={C, G}。那么考虑相邻两个碱基, 有44种组合方式, 即:Ω={AG, GA, CT, TC, AC, CA, GT, TG, AT, TA, CG, GC, AA, TT, CC, GG}。考虑用一个四位的二进制字符串来表示每一个二联体, 设ϕ=a1a2a3a4, ai∈{0, 1}, i=1, 2, 3, 4, ϕ∈Ω, 这样每一个二联体对应一个唯一的四位二进制字符串, 因此一条长度为n的DNA序列将被转化为一条长度为4 (n-1) 的二进制字符串, 称之为特征序列。例如, 对序列L=ACGGTAA依次获取的二联体有AC, CG, GG, GT, TA, AA, 假设它们对应的四位二进制字符串分别为AC=a11a12a13a14, CG=a21a22a23a24, GG=a31a32a33a34, GT=a41a42a43a44, TA=a51a52a53a54, AA=a61a62a63a64, 这里aij∈{0, 1}, 1i6, 1j4, 这样就将序列L转化为0, 1字符串

L′=a11a12a13a14a21a22a23a24a31a32a33a34a41a42a43a44a51a52a53a54a61a62a63a64。

基于序列的二进制表示, 利用异或操作来进行序列比较。异或操作见表1。

设任意两二联体α=a1a2a3a4, β=b1b2b3b4, 这里ai, bi∈{0, 1}, i=1, 2, 3, 4。

定义αβ= (a1⊕b1) (a2⊕b2) (a3⊕b3) (a4⊕b4) 得到如下定理:

定理1αβ=0000⇔α=β

证明 (1) 如果α=β, 则有a1=b1, a2=b2, a3=b3, a4=b4,

a1⊕b1=a2⊕b2=a3⊕b3=a4⊕b4=0, 故αβ=0000。

(2) 如果αβ=0000, 则a1⊕b1=a2⊕b2=a3⊕b3=a4⊕b4=0, 所以有a1=b1, a2=b2, a3=b3, a4=b4, 即α=β。命题得证。

推论1 如果αβ≠0000, 则αβ不匹配。

定理2 设任意两条DNA序列L1和L2对应的特征序列分别为L′1=α1α2αn, L′2=β1β2βm, 其中nm分别为两条序列的长度-1, αi, 1in;βj, 1jm均为核苷酸二联体对应的四位二进制字符串, 通过异或操作得到如下结论。

(1) 如果αiβj=0000, 1in, 1jm, 则有αiβj匹配。

(2) 对任意满足不等式1ikjmin{m, n}的正整数k, 如果αkβk=0000, 则有α*与β*匹配, 其中α*=αiαj, β*=βiβj。也就是说DNA序列L1和L2有公共子序列。

(3) 对任意满足不等式1kimin{m, n}的正整数k,

(i) 如果αkβm-i+k=0000, 则有序列L1的前缀prefix (L1, i) 跟序列L2的后缀suffix (L2, i) 匹配, 其中prefix (L1, i) =α1α2αi, suffix (L2, i) =βm-i+1βm-i+2βm

(ii) 如果αn-i+kβk=0000, 则有序列L1的后缀suffix (L1, i) 跟序列L2的前缀prefix (L2, i) 匹配, 其中suffix (L1, i) =αn-i+1αn-i+2αn, prefix (L2, i) =β1β2βi

证明 利用定理1很容易证明此定理。

推论2 对任意正整数i, 满足1imin{n, m}, 如果αiβi=0000, 则有

{L1L2nmL1L2nm

即如果nm, 则L1是L2的子序列, 反之L2是L1的子序列。

2 结束语

基于核苷酸二联体给出了DNA序列一种编码规则, 利用异或操作进行序列比较。虽然这种二值化的思想使得序列变得更长了, 但是利用异或操作, 每次考虑的是四位二进制数的异或结果, 并未影响序列的比较。这种二值化的思想既提高了电子计算机的可操作性, 也提高了计算的实时性, 计算简单, 也能体现各核苷酸的分布规律。利用此方法, 如下有关序列比较的四个基本问题就变得很简单: (1) 对于两条长度相近的序列相似, 找出序列的差别; (2) 判断一条序列的前缀与另一条序列的后缀相似; (3) 判断一条序列是否是另一条序列的子序列; (4) 判断两条序列中是否有非常相似的子序列。在未来的研究中将基于此编码规则给出点突变分析方法和序列比对算法。

线粒体DNA编码蛋白质亚基的研究 第4篇

1 线粒体基因组的构成

人类每个mt DNA约有10个基因拷贝,每个细胞包含103~104个线粒体。mt DNA是存在于线粒体内的双链闭环分子,由16569bp组成,双链中一条为重链(H),一条为轻链(L)。这是根据它们的基因产物在Cs Cl中的密度的不同而区分的,两条链均具有编码功能。它除了有DNA外,还有自己的蛋白质合成系统,因为它有22个t RNA基因和2个r RNA基因以及核糖体等。mt DNA蛋白质编码基因的12/13是由mt DNA的重链转录的,所编码的13个蛋白质为:细胞色素氧化酶Ⅰ、Ⅱ、Ⅲ亚基,NADH脱氢酶的ND1-6和ND4L亚基,细胞色素b以及ATP酶6、8亚基[2]。其复制和转录的起始点位于D-loop区(16028~577np)。mt DNA转录与n DNA不同步,其64个密码子中有4个与核基因组不同[3,4]。在mt DNA,除了一小段D环区域外,其他序列无内含子,因此任何mt DNA的突变都会影响到其基因组内的重要功能区域,从而影响线粒体功能。

2 mt DNA编码的蛋白质亚基的结构与功能

2.1 mt DNA编码ATP合酶亚基

mt DNA编码ATP合酶亚基的是F0亚基中的ATPase6和ATPase8。ATPase6基因存在于所有生物中,但是细菌、植物的线粒体基因组不包含ATPase8基因,这与一般后生动物有所不同。在人的线粒体基因中,ATPase6和ATPase8 2个基因相邻并重叠45bp,ATPase8基因长207bp,编码68个氨基酸;ATPase6基因长681bp,编码226个氨基酸[5,6,7,8]。

mt DNA ATPase8和ATPase6是调控能量合成的重要基因,mt DNA ATPase8和ATPase6表达异常会导致线粒体能量合成障碍进而加速细胞凋亡。柏干荣等[5]研究发现,在失血性休克肠上皮细胞mt DNA的ATPase6基因测序研究中发现缺血缺氧时存在碱基突变及编码氨基酸的改变,进而影响F1F0-ATPase蛋白的功能和ATP的合成。李玮等[6]通过研究发现脑出血后血肿周围水肿组织线粒体ATPase-6基因表达开始下降,至第7d时ATPase6基因表达明显下降,这一结果提示脑出血可有足够能量供应促使细胞发生凋亡。张莹等[7]研究发现,长时间的缺血缺氧使mt DNA的ATPase6、ATPase8编码基因改变,继之其转录下调,导致细胞氧化磷酸化缺陷并加速细胞凋亡的发生。ATPase6基因位于8993位点的核酸突变会引起神经病学性肌无力、运动失调和色素性视网膜炎综合[8]。洪灯等[9,10]通过研究成功构建了p G-PH1/GFP/Neomouse-sh ATP8 RNA干扰质粒,为下一步进行ATP ase8基因RNA干扰在卵母细胞发育成熟中的作用奠定基础。并用RT-PCR检测GV期单个卵母细胞中ATPase8基因的表达,发现小鼠GV期卵母细胞特异表达的ATPase8基因可能与卵母细胞的正常发育成熟相关。

2.2 mt DNA编码的细胞色素氧化酶亚基

COXⅠ亚基、COXⅡ亚基、COXⅢ亚基由mt DNA编码。其中COXⅠ亚基基因总长约1542bp,编码513个氨基酸,与血红素a1、血红素a3和Cu B结合;COXⅡ亚基基因总长约684bp,编码227个氨基酸,与Cu A结合,位于线粒体胞质面与细胞色素C进行反应[11];COXⅢ亚基基因总长约781bp,编码260个氨基酸,参与氧化还原连接的质子易位过程,起调节作用。COXⅠ为mt DNA编码的3个亚基中最大的一个,与COXⅡ一起构成细胞色素氧化酶的活性中心[12]。

在不同的组织线粒体COX的活性存在着很大差异,按活性大小排列依次是心脏、肝、肾和脑组织等。近年来有报道,心脏和脑缺血缺氧后会表现相应区域COX活性下降,COX表达改变。Abe等[13]报道,在短暂缺血最敏感的CAl区缺血3min后再灌,沙鼠该区的COX在3h出现下降,8h时更明显,且进行性加重。提示C0X活性的下降可能是细胞能量代谢障碍的重要原因。顾卫东等[14]研究发现,低温可通过保护C0X活性减轻脑缺血/再灌注期间的细胞能量代谢障碍,从而减少延迟性神经元死亡(DND)。

Wang等[15]认为,正常细胞mt DNA的转录水平降低、细胞凋亡增高,使得细胞程序性死亡,而mt RNA的增高可降低细胞凋亡,可能与细胞的癌变有关。并且Lu等[16]指出不同的肿瘤可能出现mt DNA不同的基因表达的改变。Parrella等[17]研究发现乳腺癌患者COXⅡ的表达比正常组织明显增高。韩波等[18]应用RT-PCR方法发现胃癌组织线粒体COXⅠ和ND4的转录水平显著高于远癌正常胃黏膜组织。癌变组织线粒体COXⅠ和COXⅡ的增高可能是肿瘤细胞为满足自身能量需求的一种适应性反应,线粒体可能通过凋亡途径参与肿瘤形成的过程。

高静等[19]研究发现COXⅢ在癫痫急性期表达显著升高,静止期降至对照水平,而慢性期则显著降低。说明急性痫性发作诱发该亚单位的重新合成,而慢性期长期自发性孤立的发作则不足以诱导该亚单位的重新合成,反而破坏其合成机制;并发现COXⅢ基因和蛋白的改变与海马神经元丢失所导致的线粒体含量下降是无关的,可能的机制是活性氧簇机制。

2.3 mt DNA编码的泛醌-细胞色素C还原酶亚基

细胞色素b(Cyt-b)是mt DNA编码的蛋白质。Cyt-b是一个横贯膜两侧的极端疏水性的蛋白,并与内膜结合,含两个血红素b562/b H和b566/b L。Cyt-b基因序列全长为1135bp,编码378个氨基酸和一个终止密码子。对Cyt-b氨基酸组成和结构基因的DNA顺序研究指出,约68%的氨基酸为非极性的。对Cyt-b在电子传递链中的复杂功能至今还不清楚。

研究家兔在单纯疱疹病毒感染的潜伏期神经系统中基因的表达情况,发现Cyt-b的编码基因下调表达[20]。Cyt-b在甲状腺乳头状癌细胞中呈高表达[21]。郭丽君等[22]用PCR法扩增、荧光DNA测序,发现糖尿病组线粒体Cyt-b基因持有多数的单核苷酸多态性(SNPs)是有害的。张默函等[23]研究发现mt DNA Cyt-b的m RNA表达水平在乳腺癌组织较癌旁组织高,mt DNA Cyt-b基因在乳腺癌组织中转录水平的上调,可能是肿瘤细胞为满足自身能量需求的一种适应性反应,但是具体机制尚不清楚,尚有待进一步研究。

由于Cyt-b基因在线粒体基因组中进化速度适中,而且在一定的进化尺度内Cyt-b基因不受饱和效应的严重影响,所提供的系统发育信息和遗传分化水平适于分析种间和属间差异。所以Cyt-b成为研究种内或近缘种间系统发育和遗传问题最常用的工具之一,它的部分或全序列被广泛应用于动物类群的系统进化和分类研究中。付小全等[24]发现萍乡肉红鲫与其他鲫鱼类的Cyt-b基因具有较高的同源性,与普通鲫鱼的相似性为98%,萍乡肉红鲫与普通鲫鱼亲缘关系最近。

2.4 mt DNA编码的NADH还原酶亚基

NADH还原酶疏水部分的7个亚基ND1-ND6和ND4L由mt DNA编码[25]。在人的线粒体基因中,ND1基因长957bp,编码318个氨基酸;ND2基因长1042bp,编码347个氨基酸;ND3基因长346bp,编码115个氨基酸;ND4基因长1378bp,编码459个氨基酸;ND4L基因长297bp,编码98个氨基酸;ND5基因长1812bp,编码603个氨基酸;ND6基因长525bp,编码174个氨基酸;其中ND4和ND4L 2个基因相邻并重叠6bp。

李传连等[26]对弱精子症(AST)精子mt DNA ND3、ND4L基因突变检测和分析时发现线粒体单体型与精子活力可能存在一定的相关性;mt DNA 10398G-10400T多态性可能是精子活力的有益因素,mt DNA G10310A突变可能是精子活力的有害因素。李明珍等[27]研究发现线粒体基因ND4 12026A→G突变携带者的家系临床表现多样,并可能与自身免疫相关。魏佳等[28]通过直接测序检测乳腺癌、良性乳腺肿瘤散发病例外周血和乳腺组织中线粒体ND5基因变异,发现乳腺癌与良性乳腺肿瘤相比线粒体ND5基因更多的发生对线粒体功能产生影响的恶性突变,线粒体ND5基因突变与乳腺肿瘤发生发展可能存在一定相关,这种区别可能成为潜在的肿瘤诊断分子标记。李东等[29]发现mt DNA3394T→C突变与老年线粒体糖尿病的发生与发展有关,并起着重要作用。

3 展望

近年来,随着分子生物学、基因工程、克隆技术等技术手段的发展与完善,mt DNA结构与功能的研究在分子进化、生物分类、群体遗传结构分析、亲缘关系鉴定、法医学鉴定、衰老、疾病诊断、细胞凋亡和氧化磷酸化作用机制等领域已经取得了令人瞩目的成就。在动物重要经济性状的研究方面,比如在牛的肥育性状、产奶量、乳脂率、乳蛋白含量、繁殖性状等方面也已经取得显著的成绩。在人类疾病研究中,已经发现的由mt DNA变异导致的疾病已达70多种,其中包括Parkinson综合征、Alzheimer综合征、Leber氏视神经病(LHON)、老年痴呆与舞蹈综合征(DEMCHO)、耳聋(DMDF)、癫痫(MERRF)等,因此,深入这一领域的研究,对于明确某些疾病的发病机制,寻找新的治疗药物和治疗途径及提高动物重要经济性状等方面均有重要的意义。

摘要:人类线粒体DNA(mtDNA)是全长为16569 bp的双链闭环分子,除负责编码2种rRNA和22种tRNA外,还参与了4种呼吸酶复合物(13种多肽)的形成。包括NADH-CoQ还原酶(NADH-CoQ reductase,ND)中的7个亚基(ND1-6,4L);泛醌-细胞色素C还原酶(CoQ-Cytc reductase)的1个亚基(Cyt-b);细胞色素C氧化酶(cytochrome Coxidase,COX)中的3个亚基(COX I-III);ATP合成酶(ATPase)中的2个亚基(ATPase6,8)。本文就人线粒体DNA编码的各蛋白亚基的结构、功能和研究进展进行综述。

DNA编码范文

DNA编码范文(精选4篇)DNA编码 第1篇1994年, 南加州大学的Adleman博士在Science上发表的文章“Molecular Computa tion of Solutions...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部