排名第一的Python语言，是如何应用于医疗临床？-





首页 产品与服务 解决方案 客户案例 技术支持 合作发展 关于美创 用户退出 合作商登录 用户登录 申请试用

行业解决方案政府解决方案金融解决方案医疗解决方案教育解决方案能源解决方案物流交通解决方案

售后服务文档中心年度培训

渠道政策申请成为合作伙伴渠道专区

公司动态行业资讯安全研究

热门阅读

数字医学与健康大会DMHC——美创与您相约古都金陵

2025-08-12

美创科技打造县域医疗灾备新标杆｜神木市医院 HIS 系统数据库分钟级切换演练实录

2025-07-02

百万罚单警示！DCAS助力金融机构筑牢数据安全防线，实现监管合规

2025-06-20

2025中国互联网产业年会丨《中国互联网产业绿色算力发展倡议》正式发布

2025-02-07

美创用户专访 | 精细化管理：医疗行业数据分类分级的策略与实践

2025-01-10

数字医学与健康大会DMHC——美创与您相约古都金陵

2025-08-12

「月」读美创｜标准筑基、行业引领、产业赋能

2025-08-11

报名开启｜2025年国产数据库赋能培训（第二期）

2025-08-06

政务数据安全高效共享，嵊州特色数据安全建设方案值得借鉴！

2025-08-04

深度解读｜美创科技参编国家标准《数字水印技术实现指南》

2025-07-29

排名第一的Python语言，是如何应用于医疗临床？

发布时间：2017-07-28 阅读次数： 919 次

AlphaGo战胜了围棋领域的人类第一高手，让人们惊叹于人工智能的发展速度。一夜之间，人工智能的应用成为了大家最热议的话题。在医疗领域，人工智能应用已逐渐渗透，如病理诊断、影像、肿瘤治疗等。

人工智能的核心是算法和数据，尤其是海量的优质数据，是人工智能发展的关键。过去“以药养医”，存在过度治疗、过度检查等问题，对医院的临床数据特别是治疗数据造成了污染。而数据质量的高低则直接决定了智能医疗的成功与否。

为了获得持续高质量的医疗大数据，数据治理和自然语言的处理不可或缺。在临床科研中，存在着很多无法描述的自然语言，我们需要将自然语言处理成可量化、可统计的数据。

每家医院都存有大量无法标准化的历史病案数据，特别是B超、放射、病理等数据。如B超的检查结果：

肝：肝大小形态正常，包膜光，实质回声均匀，管网清，右肝内胆管见约0.4cm强光斑，门脉不扩。胆：胆囊大小形态正常，壁光，内未见明显占位及结石，肝内外胆管不扩。胰：胰腺大小形态正常，实质回声均匀，主胰管不扩。脾：脾大小形态正常，内部回声均匀。双肾：双肾大小形态正常，包膜光，左肾见约0.7*0.7cm高回声结节，右肾见约0.4*0.3cm强光斑，余实质回声均匀，双肾盂不扩。CDFI：双肾内血流分布正常。输尿管：双侧输尿管未见明显扩张。膀胱：膀胱充盈尚可，壁毛糙，内透声佳。前列腺：前列腺大小约5.3*3.3*3.7cm，重约34g，内见多枚强光斑，较大约0.8cm，余实质回声欠均匀。

为了解析这部分的数据，我们需要自然语言处理工具，将其切分，分解成可统计、可分析的标准化数据。

一、Python自然语言处理：NLTK

自然语言工具箱（NLTK，Natural Language Toolkit）是一个基于python的类库，它是当前最为流行的自然语言编程和开发工具之一。NLTK是一个高效的平台，为自然语言的处理提供了很多的接口。

Python和NLTK的安装不在本文的讨论范围，在此不再赘述。接下来通过一些实例介绍NLTK的使用。

1.分句

针对一段文字的描述，我们希望把它分成一个一个的句子。使用NLTK中的punkt句子分割器：

importnltk

sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

paragraph = "The first time I heard that song was in Hawaii on radio. I was just a kid, and loved it very much! What a fantastic song!"

sentences = sent_tokenizer.tokenize(paragraph)

print(sentences)

得到的结果为：

`'The first time I heard that song was in Hawaii on radio.', 'I was just a kid, and loved it very much!', 'What a fantastic song!'`

2.分词

分成了句子之后，我们还要将句子分词，得到一个个的词组。使用NLTK 包中的 WordPunct tokenizer：

import nltk

sentence = "Are you old enough to remember Michael Jackson attending the Grammys with Brooke Shields and Webster sat on his lap during the show?"

words = nltk.word_tokenize(sentence)

print(words)

得到的结果：

`'Are', 'you', 'old', 'enough', 'to', 'remember', 'Michael', 'Jackson', 'attending', 'the', 'Grammys', 'with', 'Brooke', 'Shields', 'and', 'Webster', 'sat', 'on', 'his', 'lap', 'during', 'the', 'show', '?'`

3.词性标注

分句和分词之后，我们还可以对分词做词性标注：

import nltk

sentence = "Are you old enough to remember Michael Jackson attending the Grammys with Brooke Shields and Webster sat on his lap during the show?"

words = nltk.word_tokenize(sentence)

tags = nltk.pos_tag(words)

print(tags)

得到的结果如下：

`('Are', 'NNP'), ('you', 'PRP'), ('old', 'JJ'), ('enough', 'RB'), ('to', 'TO'), ('remember', 'VB'), ('Michael', 'NNP'), ('Jackson', 'NNP'), ('attending', 'VBG'), ('the', 'DT'), ('Grammys', 'NNP'), ('with', 'IN'), ('Brooke', 'NNP'), ('Shields', 'NNP'), ('and', 'CC'), ('Webster', 'NNP'), ('sat', 'VBD'), ('on', 'IN'), ('his', 'PRP$'), ('lap', 'NN'), ('during', 'IN'), ('the', 'DT'), ('show', 'NN'), ('?', '.')`

以上都是NLTK自然语言处理工具包的基础功能，更深入的应用如词干提取、词形还原、频率分布、关键词排序等，大家可以在实际的使用中对其做更深入的研究。

二、中文分词

中文与英文的最大不同在于中文需要分词。现在最流行的分词工具包括斯坦福中文分词器、哈工大分词包、结巴分词等。本文主要介绍结巴分词工具的使用。

结巴分词支持三种分词模式：精确模式、全模式、搜索引擎模式，同时支持自定义词典。主要功能包括分词、添加自定义词典、关键词提取、词性标注等。

我们以文初的B超诊断结果描述作为处理文本介绍结巴分词的功能：

1.分词

代码示例：

import jieba

detail = "肝：肝大小形态正常，包膜光，实质回声均匀，管网清，右肝内胆管见约0.4cm强光斑，门脉不扩。"

seg_list = jieba.cut(detail, cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut(detail, cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut_for_search(detail) # 搜索引擎模式

print(", ".join(seg_list))

输出结果：

Full Mode: 肝/ / / 肝/ 大小/ 形态/ 正常/ / / 包膜/ 光/ / / 实质/ 回声/ 均匀/ / / 管网/ 清/ / / 右/ 肝/ 内胆/ 胆管/ 管见/ 约/ 0/ 4cm/ 强光/ 光斑/ / / 门/ 脉/ 不/ 扩/ /

Default Mode: 肝/ ：/ 肝/ 大小/ 形态/ 正常/ ，/ 包膜/ 光/ ，/ 实质/ 回声/ 均匀/ ，/ 管网/ 清/ ，/ 右肝内/ 胆管/ 见/ 约/ 0.4/ cm/ 强/ 光斑/ ，/ 门脉/ 不/ 扩/ 。

肝, ：, 肝, 大小, 形态, 正常, ，, 包膜, 光, ，, 实质, 回声, 均匀, ，, 管网, 清, ，, 右肝内, 胆管, 见, 约, 0.4, cm, 强, 光斑, ，, 门脉, 不, 扩, 。

2.添加自定义词典

从上面的分词结果中我们可以看到精确模式下分词的准备度还是比较高的，包膜、右肝内等都能识别出。不过在医疗领域有较多的专有名词，如皮髓质、远程回声、不扩等症状描述的词汇，可以通过自定义词典的方式，提高分词的准确度，如上面的“门脉不扩”分词为“门脉/不扩”。

3.关键词提取

结巴分词有“基于TF-IDF算法的关键词提取”和“基于TextRank算法的关键词提取”两个接口。

代码示例：

import jieba

import jieba.analyse

detail = "肝：肝大小形态正常，包膜光，实质回声均匀，管网清，右肝内胆管见约0.4cm强光斑，门脉不扩。"

print('='*40)

print('关键词提取'')

print('-'*40)

print(' TF-IDF')

print('-'*40)

for x, w in jieba.analyse.extract_tags(detail, withWeight=True):

print('%s %s' % (x, w))

print('-'*40)

print(' TextRank')

print('-'*40)

for x, w in jieba.analyse.textrank(detail, withWeight=True):

print('%s %s' % (x, w))

输出结果：

关键词提取

----------------------------------------

TF-IDF

----------------------------------------

右肝内 0.8539119644928571

0.4 0.8539119644928571

cm 0.8539119644928571

门脉 0.8539119644928571

光斑 0.7825884766285715

----------------------------------------

TextRank

----------------------------------------

管网 1.0

包膜 0.9956270686506203

实质 0.9532805433007815

回声 0.9497949058021358

门脉 0.7884070838128903

4.词性标注

代码示例：

import jieba

import jieba.posseg

detail = "肝：肝大小形态正常，包膜光，实质回声均匀，管网清，右肝内胆管见约0.4cm强光斑，门脉不扩。"

words = jieba.posseg.cut(detail)

for word, flag in words:

print('%s %s' % (word, flag))

输出结果：

肝 n

： x

肝 n

大小 b

形态 n

正常 d

， x

包膜 n

光 n

， x

实质 n

回声 v

均匀 a

， x

管网 n

清 t

， x

右肝 n

内 f

胆管 n

见 v

约 d

0.4 m

cm eng

强 a

光斑 n

， x

门脉 n

不 d

扩 v

。 x

简单总结

自然语言处理是一个庞大的课题，在医疗领域更是如此。本文只是对python中自然语言处理工具NLTK和结巴分词做了简单的介绍，更多的使用研究如NLTK和结巴分词的结合使用、统计分析、机器学习等还需要进一步的研究。

使用自然语言处理的工具以及医疗主数据、机器学习等，将医院的病案大数据格式化、标准化，相信一定可以对临床研究与智能医疗领域提供最有利的支持。

上一条：这一定是切了个“假”系统！
下一条：医疗行业信息安全3大“致命”痛点

免费试用

服务热线

马上咨询

400-811-3777

回到顶部



热门推荐

政府解决方案

金融解决方案

医疗解决方案

教育解决方案

能源解决方案

物流交通解决方案

热门资讯

热门资讯

热门资讯

热门资讯





热门推荐

政府解决方案

金融解决方案

医疗解决方案

教育解决方案

能源解决方案

物流交通解决方案

热门资讯

热门资讯

热门资讯

热门资讯

 



