编辑导语:随着互联网的不断发展,互联网医疗信息化也不断完善,如今电子病历也已经广泛运用了,用账号进行登录有助于病例的查找;本文作者分享了关于基于电子病历(EMR)的大数据知识挖掘,我们一起来学习一下。
随着医疗机构信息化建设的大力推进,电子病历数据持续的海量增长,针对电子病历数据的知识挖掘也应运而生;电子病历记录了病患就诊的全过程,包含数字、图像、文本等多种数字化信息。
 
项目从电子病历应用场景出发,根据完整的医疗活动过程中不同的角色,分别从临床医疗、教学科研、管理部门和病患四个角度进行需求分析;明确电子病历的功能定位,挖掘出电子病历中潜在的医学规则和模式;一方面为医务人员临床诊断中提供决策支持,另一方面方便向大众普及病症知识,为疾病防治与健康医疗模式带来改变。
 
核心技术
 
数据清洗
 
隐私数据处理
 
电子病历中包含患者的全部信息,对电子病历的信息抽取涉及到患者隐私,因此需要将患者身份信息隐藏,仅保留研究相关的诊断信息,以保护患者基本权益不受侵犯。
 
主数据目录(分词、词性、同义词、相似词)
 
首先保障数据的完整性、一致性与唯一性,自动分词和词性标注是文本挖掘的基础,分词和词性算法的优劣直接决定了文本挖掘的效果。
 
首先融合权威词表、官方标准,通过网络尽可能完整地收录医学词汇,构建医学词典,避免分词错误;同时构建词性标注集合,确保适应电子病历的词性体系;并结合基于统计和机器学习的分词和词性算法,对未登录词进行识别,提升电子病历分词和词性效果;构建电子病历分词和词性标准,为后续电子病历的挖掘奠定基矗

dawei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注