那个美国的能源部还有论坛版主Dr.Prion所在的NIH就是厉害,上世界80年代末就决定要把我们身上的DNA碱基给一个个摆出来。人家就是发达也有钱,我们那个时候如果知道论文中要是分析讨论ATCGGTCAACTTG。。。的话那可是要吓人的!
13年过去了,这个课题到了尾声了,听说基本上已经出来了。里面还有中国人1%的实验结果呢!而且14年来,不光是人类的基因序列,其他好多物质的基因序列也给搞出来了。也不光是测测序列,也同时进行其他生物学,特别是分子生物学的研究,也得到了大量的生物数据。做这些工作,要花好多钱的,研究开发了好多“学生们不能随便动的高级仪器” ,也就是那些个“国外进口的测试,分析的机器” 。不管,我们也有钱了,所以也参与了测试,也有了“巨大的贡献” ,是好事。
因为全世界这十几年的生物实验,造成了巨量的生物数据,根本不能写在纸上,用笔来计算分析,用人脑来总结和归纳和演义了,于是计算机的普遍使用解决了它,它也给了计算机学科以新的研究客体。于是,新学科诞生了:生物信息学!
2。研究内容
无非生物学数据,当然最“经典” 的是分子生物学,是DNA序列。
(1)数据库
目前公开的有500多个生物信息学数据库,拿大家熟悉的GenBank, Swiss-Prot, KEGG….涉及核酸序列,基因组(全序列),蛋白质序列,蛋白组,蛋白质结构,代谢反应及途径,其他混合型,其他方方面面的东西。每年“Nucleic Acids Research”(http://nar.oupjournals.org) 第一期便有大量新的和更新的数据库的专辑。生物数据库的建立要用上计算机学数据库和网络方面的技术了。应该说是生物信息学研究的基础和重点。目前生物数据如DNA序列,蛋白质结构等数据比较复杂,所以要求服务器的性能相对要高些。往往他们还要推出基于该数据库的分析程序。如NCBI的Blast系列工具,背后都是大量生物信息学的工作。另外,基于一级数据库而建立的二级数据库,由于不同数据库的数据格式是heterogeneous,因为不是每个人都用得起象oracle的大型数据库,有些就用用mysql就行,甚至微软的access,或干脆txt文本,所以又得好多人有事干了:data mining, data integration. 又考虑开发标准化的生物数据等。感觉国内搞的人不多。
(2)算法研究
属于经典生物信息学领域,尤其研究序列对准的,20多年的历史了。老的算法如记分法和概率统计法:BLAST算法,SMITH-WATERMAN算法和Hidden Markov Model和Neural Network等等。 还有语言学方法,Z曲线法。目前新的,更灵敏,效率高。更有用的算法不断推出,必须经常阅读新出的期刊才能保持不落伍。
(3)软件编写
属于实现算法的工作,懂计算机语言的能力要比懂生物学的高。
(4)其他具体些的领域
其实广义上的生物信息学是可以研究生物学的任何方面。因为生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸
