查看: 667|回复: 0
打印 上一主题 下一主题

专家大咖齐聚YOCSEF深圳,论道AI与医疗健康

[复制链接]

621

主题

625

帖子

1895

积分

金牌会员

Rank: 6Rank: 6

积分
1895
跳转到指定楼层
楼主
发表于 2018-9-9 21:45:42 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
2018 年 9 月 5 日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳(CCF Young Computer Scientists & Engineers Forum,简称为 YOCSEF)共同承办的学术报告分享交流会在北京大学深圳研究生院举办。
本次交流会上,生物信息学科学家 Stephen J. Song 和哈尔滨工业大学计算机科学学院副教授汤步州分别就 《人工智能在生药大数据中序列标注问题的关键应用》、《中国临床自然语言处理:研究现状与挑战》两大主题做主题演讲。
据了解,YOCSEF 是由中国计算机学会 ( CCF ) 于 1998 年创建的系列性学术活动,总部设在北京,已在上海、杭州、长沙、成都、苏州、西安、深圳、南京、昆明等 26 个城市建立了分论坛,每年活动数百次,活动形式主要包括:专题论坛、学术报告会、学术评价、评奖、扶贫助教等。
AI+ 生物信息学,助力生物蛋白序列标注</b>
广义的生物信息学是一门致力于开发新的方法或软件以帮助研究者加深对生物学数据理解的交叉学科,涉及计算机、生物学、数学与统计学以及工程学等学科门类 , 重点在于集成各种算法和异构数据源的计算框架 / 方法 / 平台。从信息科学技术的角度来看 , 生物信息学的研究是一个从 " 数据 " 到 " 发现 " 的过程。
目前,功能被充分表征的基因产物(蛋白)的数量与根本没有功能注释的基因产物(蛋白)的数量之间的差距越来越大。确定蛋白质功能的实验技术往往是昂贵且耗时的。当 AI 与生物信息学相碰撞时,基于机器学习的人工智能可以应用到预测蛋白质的柔性和无序区域、预测蛋白酶特异性靶切割位点、预测细菌分泌效应蛋白、预测酶催化残基、预测单个氨基酸多态性的功能影响等多个方面。
在会上,Stephen J. Song 博士介绍了他们开发的一种名为 Bastion4 的生物信息学方法,主要采用了基于多种机器学习分类器集成学习算法,用来预测 T4SE 序列。一般的机器学习的训练方法包括训练集、测试集和验证集,Bastion4 的数据集包含了 390 个阳性 T4SE 序列和 1112 个阴性非 T4SE 序列,期间采用了 CD-HIT 程序用于去除高度同源的序列以避免模型训练中的潜在偏差。
据了解,这种新算法的好处在于:
(1)与通过组合各种特征训练的单个模型相比,使用单个特征训练的单个模型的集成模型显着地改善了预测效果 ;
(2)基于具有不同单一特征的集成学习模型预测的多数表决策略,预测结果更为稳定和准确。
Stephen J. Song 表示,基于机器学习的框架通常可用于基于序列数据解决其他蛋白质、 DNA 、 RNA 序列表征问题。


此外,Stephen J. Song 还提出了一种称为 PREvaIL 的新计算方法,该方法结合了互补的序列、结构以及网络特征,用于鉴定具有 3D 结构信息但尚未在功能上表征的结构基因组学靶蛋白的功能残基。
Stephen J. Song 是澳大利亚蒙纳士大学生物医学发现研究所癌症与感染与免疫项目的高级研究员和团队负责人,是计算生物医学、数据挖掘、机器学习和蛋白质组学的生物信息学和数据科学家。
当回答亿欧记者如何解决模型的泛化问题时,Stephen J. Song 表示,这与研究的数据集和所选择的实验方法有关,一些具备特定属性的样本会相对易于检测,而另外一些则难以被检测出来。
NLP 助力临床医疗文本处理</b>
随着电子病历的迅速普及和医疗大数据时代的到来,自然语言处理技术(简称 NLP)在生物医学领域迅速发展,已经成为当前的研究热点。所谓 NLP 技术,就是用机器来处理人类赖以交流的书写文字和口头语言。它利用语言学和统计学,加上机器学习,以便在自动化服务中对语言进行建模。
目前,临床医学信息大多以非结构化(或半结构化)文本形式存储于信息系统中,NLP 是从医疗文本中提取有用信息的关键技术。通过自然语言处理,如句子的分词,实体识别,实体的归一化和链接等,这些非结构化的医疗文本可以被转化为包含重要医学信息的计算机可以进行计算的结构化数据,有助于科研人员从结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。
在交流会上,汤步州主要分享了医疗领域中的自然语言处理问题及相关技术,通过自身在中文临床医疗自然语言处理方面的一些研究工作,探讨中文临床医疗文本处理当前所面临的问题与挑战。


汤步州是深圳哈尔滨工业大学计算机科学学院副教授,同时也是中国计算机学会会员,人工智能学会青年工作委员会委员。近年来,他在重要国际期刊和会议上发表学术论文近 60 篇,其中 SCI/EI 检索论文 40 多篇,他的研究方向主要包括机器学习,数据挖掘,自然语言处理,信号处理和医学信息学等。
目前汤步州已经开发了中文 Clinical NLP 工具,可以做到分词、词性标注、临床医疗实体识别、时间信息抽取和标准化分离以及临床医疗实体标准化,后续还会进一步开发临床医疗实体及属性抽取、隐私信息抽取等。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

推荐阅读 More>
广告位




00853澳门论坛X

0511.net镇江网 分享生活 温暖你我

0511.net镇江网|镇江大小事,尽在镇江网! 镇江网由镇江亿速网络科技有限公司组建。镇江网汇集了镇江本地新闻信息,视频专题、国内外新闻、民生资讯、社会新闻、镇江论坛等。镇江网是镇江地区最具影响力的综合性门户网站,是镇江人浏览本地新闻的首选网站。...

点击查看详情 
快速回复 返回顶部 返回列表
友情链接