云文档网 - 专业文章范例文档资料分享平台

基于生物医学文献的蛋白质关系发现

来源:网络收集 时间:2024-05-03 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ:370150219 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

                      作者:彭春艳 张晖 包玲玉 陈昌平

  论文关键词:知识发现 生物命名实体识别 实体关联

  论文摘要:实验提出了一种基于词频统计的蛋白质关系知识发现方法.该方法首先通过生物命名实体识别技术识别出蛋白质实体.然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。

  1引言

  分子生物学研究的飞速发展,使生物医学文献呈指数级增长。如此多的文献资源,为科研人员运用数据挖掘和文本挖掘技术,发现隐含的、有价值的知识提供了有利的条件。

  由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文本挖掘是一个交叉的研究领域,它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术,可以发现许多有用的信息。一些科研人员利用文本挖掘工具,发现了许多对人类有用的知识,例如:鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外,从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。

  2相关研究

  生物医学的知识发现,一般针对文献进行研究。基于文献的知识发现,主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的Swanson教授提出了基于单词的词频统计方法。首先统计出共出现的单词的频率,然后对文献集进行分析。通过这种方法,Swanson发现了许多对人类有益的知识。例如,鱼肝油对于雷诺氏症的治疗作用,镁的缺失会引起偏头痛,某些病毒可以成为潜在的生化武器等等,这些发现都得到了临床上的证实。

  Hristovski日将关联规则挖掘引入了基于文献的知识发现。他将生物文献看作数据库中的事务,而用来代表文献内容的词则看作是规则中的项,通过设置支持度阈值和置信度阈值来产生关联的词汇。Wren为词汇间具有信息的关联。他使用互信息方法来计算词的关联度,通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性,可以用来推广到很多的研究领域。

  WeebeIlq等人设计了一个文本挖掘工具DAD系统。它利用自然语言处理系统MetaMap将文献中的语句映射为UMLS本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用DAD系统找出了生姜潜在的医疗作用。在关联规则挖掘中,有效阈值的设定很困难。如果阈值设置的过低,会产生大量的候选规则,而设置的过高,则有可能过滤掉许多有意义的规则。另外,基于语义的方法,需要构建领域本体,这需要许多专业人士的共同参与。因此,本文在Swanson的理论基础提出了一种基于命名实体的词频统计方法,该方法通过实体提取、句子分析等过程发现蛋白质之间潜在的关系。该方法阈值的设定对实验结果影响不大,而且不需要领域专家的参与。

  3方法描述

  本文实现了一个蛋白质知识发现系统。该系统使用Medline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别,形成蛋白质实体列表,然后对句中的每个蛋白质实体对进行共出现频率统计,进而生成候选实体对,最后找出最高出现频率的实体对,从而发现最可能的实体关联。该系统的框架如图1所示。

  3.1蛋白质实体识别

  在对生物医学领域的文本挖掘中,实体识别的目的是对文本中的专业词汇,包括基因、蛋白质、DNA和RNA等加以确认和分类。对蛋白质的知识发现,第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法,该方法以Mallet工具为基础,并增加了单词的数字、字母、以及距离依赖特性。

百度搜索“yundocx”或“云文档网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,云文档网,提供经典计算机基于生物医学文献的蛋白质关系发现在线全文阅读。

基于生物医学文献的蛋白质关系发现.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.yundocx.com/shiyong/119795.html(转载请注明文章来源)
Copyright © 2018-2022 云文档网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:370150219 邮箱:370150219@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:7 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219