pyhanlp 共性分析与短语提取内容详

By dffgghgh at 2019-02-18 • 0人收藏 • 154人看过

HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。


共性分析


 


图4.JPG


互信息mi,左熵lr,右熵re,详细解释见下文


信息论中的互信息


图5.JPG 




一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)。


根据熵的连锁规则,有


 


1| H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)


 


登录后方可回帖

登 录
信息栏

Carbon Forum是一个基于话题的高性能轻型PHP论坛

下载地址:Carbon Forum v5.9.0
QQ群:12607708(QQ我不常上)

donate

手机支付宝扫描上方二维码可向本项目捐款

粤公网安备 44030602003677号
粤ICP备17135490号-1

Loading...