欢迎访问文稿网!

相关度度量方法介绍

范文之家 分享 时间: 加入收藏 我要投稿 点赞

相关度度量方法介绍

相关度度量方法介绍_文本自动标引与自动分类研究

    6.3.2 相关度度量方法介绍

    度量两个事件相关程度的方法有很多种。如信息论中利用熵值、混乱度、互信息(MI)、相对信息(CG)、信息增益(IG)来度量,统计学上有条件概率、并发概率、Dice测度、Log L测度、x 2-统计量、Ø2-统计等方法,下面就简要介绍其中的几种度量方法。

    (1)互信息(Mutual Information,MI)

    在信息论或统计学中,互信息MI(W1,W2)定义为:

    img46

    若A、B分别表示关键词和分类号出现的事件,则MI(A,B)可表示关键词与分类号的相关程度,即:

    若MI(A,B)>>0,则表示A、B是高度相关的;

    若MI(A,B)=0,则表示A、B是独立的;

    若MI(A,B)<<0,则表示A、B是互补分布的。

    可以看出,互信息与事件的并发概率、每个事件出现的概率有关系。

    (2)Dice测度(Dice Measure)

    Dice测度的公式定义如下:

    img47

    利用Dice测度可估计关键词与分类号的并发概率。它排除了零概率事件的发生。

    (3)Log L测度

    两个事件间的Log L值定义如下:

    img54

    为方便应用,将词汇A、B的各种可能出现频次转换为下面的联立表(表6-2):

    

    表6-2 事件A、B的可能出现频次表

    img55

    则公式(6-9)可以转换成公式(6-10):

    img56

    其中:

    [1]表示并发事件,即事件A(关键词出现)与事件B(分类号出现)同时发生;

    [2]表示事件A发生,但事件B不发生;

    [3]表示事件B发生,但事件A不发生;

    [4]表示事件A和B都不发生;

    [5]表示事件A发生;

    [6]表示事件A不发生;

    [7]表示事件B发生;

    [8]表示事件B不发生;

    [9]表示数据库规模。

    (4)相对信息

    相对信息是事件A在事件B发生和不发生条件下的信息熵之差,其表达公式如下:

    img57

    利用CG可以衡量关键词与分类号的相关程度。

    除此之外,还有其他的一些度量方法,如相关系数法、夹角余弦法、最大-最小法、几何平均法、算术平均法、Jaccard系数法、覆盖系数法、反相似系数法、Hamming距离法等等[9],在此不再详细介绍。

221381
领取福利

微信扫码领取福利

微信扫码分享