腾讯工程师提议用中文索引算法创建DNA搜索引擎
用户评价: / 43
好 
作者:深圳网站建设   

科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。

如何快速搜索巨大的生物信息学数据库?多数研究人员使用的是BLAST或FASTA算法,它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜(SOSO.com)的一位计算机科学家王亮(Wang Liang)提出应用中文索引算法去检索生物信息。

王亮指出,中文的每个字之间没有留下间隔,因为索引中文文档的一种方法是将文本分解成N个片段(n-grams),N代表字数,1-grams 表示一个汉字,2-grams表示两个汉字,3-grams表示三个汉字,如果搜索3个汉字,比如“敏感词”,可以通过搜索“敏感”和“感词”完成。一些 中文搜索引擎就只索引2-grams。王亮称,DNA序列的统计分布应该遵循齐夫定律(Zipf'slaw)。

齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词 则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度,他发现平均长度为12个字母,因此用12- gram索引基因组数据也许最优。

 

评论信息

分享到: