本体的相关性质

由 范文之家 分享时间：2023-10-18 08:34:07 加入收藏我要投稿点赞

本体的相关性质

本体的相关性质_多语种叙词本体

2.2　本体的相关性质

2.2.1　本体的体系结构

本体的体系结构包含3个要素:元素、元素间的交互以及从这些元素到规范语义间的映射关系。现有关于本体体系结构的规定有Chaudhri等人(1998)提出的“开放的知识底层的连通性”模型(OKBC，Open Knowledge Base Connectivity，它是向本体中的基本元素即那些能够被机器加工的语言信息，提供规范语言的模型)和ISO704标准(1987)的术语学原理与方法。

ISO704包括三个部分:

(1)概念，人们根据客体特性概括而得到的心理构想，它是思维的单元;

(2)定义，对概念的语言描述，它指出某一概念在概念体系中的确切位置，并将该概念同相关概念区分开来;

(3)术语，专业领域中概念的语言指称，概念的自然语言表达方式。

ISO704建议，一个概念应该用一个自然语言的术语得到理想的表达。

概念之间有4种基本关系: Part-of表达概念部分与整体的关系; Kind-of表达概念间的继承关系，类似面向对象中的父类和子类之间的关系; Instance-of表达概念间实例和概念之间的关系，类似面向对象中的对象和类之间的关系; Attribute-of表达某个概念是另一个概念的属性，例如概念“价格”可以作为概念“桌子”的一个属性。在实际应用中，概念之间的关系将不会局限于上述4种关系，可以根据特定领域的具体情况定义相应的关系，以满足需要。

在《本体理论在文献检索系统中的应用研究》一书中，作者李景认为本体作为知识组织的重要手段应该具有以下要素。

(1)声明(Statement)。声明用来说明本体所表示的知识范围、主体以及它的主要用途和目的。

(2)公理(Axiom)。公理通常都是一阶谓词逻辑的表达式。公理是那种无须再进行证明的逻辑永真式。例如，两条平等线永远不会相交。

(3)概念，又称为类(Concept，Class)。类是相似术语所表达的概念的集合体。

(4)属性(Property，Slot)。属性用来描述类中的概念，具有限制类中概念和实例的功能。一些类具有某一属性，另外一些类不具有这一属性。属性是区分类的标准。属性具有继承性。一个属性必须具有相应的属性值。例如，“中华人民共和国公民”这一个类，具有属性“民族”，属性取值类型是枚举型，范围是“汉族、壮族、蒙古族、维吾尔族、朝鲜族、藏族、高山族……”

(5)函数(Function)。函数是关系(Relation)的特定表达形式。函数中规定的映射关系，可以使得推理从一个概念指向另一个概念。例如:函数Mother()的定义，是将某个人或生物与他(它)的母亲联系到一起。对于任何人或动物而言，Mother()的值是唯一确定的。而Mother()的逆反函数Children()的值不见得是唯一的。

(6)实例(Instance)，也称个体。归根结底，类是实例的类，实例是类的实例。函数是实例的函数，实例是函数的实例。实例是本体中最小对象。它具有原子性，即不可再分性。如果某个实例还可以再进行划分，那么它就是一个类，而不是实例。实例可以代入函数中去进行运算，而函数的运算结果一定是另外一些实例或者是类。类，包含实例，而每个实例都有不属于其他实例的属性，这是区分不同实例的唯一标识。

只有全部满足以上6个条件的知识表示体系才可以称为“知识本体”。如果缺少函数、公理等要素，则不过是一部词表，充其量只能称为轻量级本体。

2.2.1.1　语言记号学

作为一种知识表示方法，了解语言记号学(Semiotics，也称符号学)对理解本体体系结构有很大的帮助，以下是语言记号学的基础:

(1)语法(Syntax)，用以处理符号间的关系;

(2)语义(Semantics)，用以分析真实世界中符号和事件代表的事物间的关联;

(3)语用(Pragmatics)，研究怎样使这些符号用于特殊目的，它分析的是符号和特定主体(对象)间的关系。

2.2.1.2　本体语言基础

本体语言在具备描述能力的同时，也应具备足够的推理能力。因此本体语言一般都是基于某种逻辑语言，而目前所开发的本体语言，基本上是基于一阶逻辑和描述逻辑。尽管高阶逻辑拥有所有已知逻辑中最强的表达能力，但是它没有足够良好的计算性，虽然存在真命题，但不可证明。在一般情况下，如果不需要高阶语义，二阶逻辑可以转换为一阶逻辑。

(1)一阶逻辑

一阶逻辑是一种形式语言系统，研究的是假设与结论之间的蕴含关系，即用逻辑的方法研究推理的规律。它可以看做是自然语言的一种简化形式。由于其精确、无二义性，所以容易被计算机理解并进行处理，同时又与自然语言相似，具有很强的表达能力，因此一阶谓词逻辑系统可以用来表示人类的某些知识。但是一阶逻辑作为一种形式语言，还远远不能表示人类自然语言所能表达的全部知识。

用一阶逻辑表达某一领域有关问题的知识，实际上就是如何用一阶逻辑对自然语言命题进行符号化的问题。首先要将一个原子命题分解为个体词和谓词两个部分，接着找出原子命题中所包含的量词［存在量词(E)或所有量词(A)］，然后用符号表示原子命题中个体词(如x)与谓词的关系。例如，“所有的人都要呼吸”这样一个全称命题，可用一阶逻辑表示为: A(x)［Human(x)→Breath(x)］。目前开发的基于一阶逻辑的本体语言主要有: Cycl，Ontolingua和Loom。

(2)描述逻辑

描述逻辑是一种基于对象的知识表示的形式化，也叫概念表示语言或术语逻辑。它建立在概念和关系之上，其中概念解释为对象的集合，关系解释为对象之间的二元关系。描述逻辑是一阶逻辑的一个可判定的子集，具有合适定义的语义，并且具有很强的表达能力。一般的，描述逻辑依据提供的构造算子，在简单的概念和关系上构造出复杂的概念和关系，通常描述逻辑至少包含以下算子:交(∩)，并(∪)，非(﹁)，存在量词(E)，全称量词(A)。例如，“Happy Father”用描述逻辑可表示为: Man∩(has-child: human)∩(has-child: Hap-py)。在这种最基本的描述逻辑的基础上再添加不同的构造算子，则构成不同表达能力的描述逻辑。

与一阶谓词逻辑不同的是，描述逻辑系统能提供可判定的推理服务，它保证推理算法总能停止，并返回正确的结果。一阶逻辑虽然具有很强的表达能力，但其推理过程复杂，不利于本体的检验;而描述逻辑的推理复杂度可知，更适用于本体检验。并且，描述逻辑的语法容易转换成XML/RDF形式，因此基于描述逻辑的本体模型更适合于网络环境下的概念建模与知识共享。

(3)知识交换格式(Knowledge Interchange Format，KIF)

知识交换格式是由斯坦福大学开发的一种基于一阶逻辑的形式语言，用于各种不同计算机程序和系统之间进行知识交换。当一个计算机系统需要和其他的系统通信时，可通过将其内部的数据结构转换成KIF来实现。KIF对一阶逻辑进行了扩展和限制，其核心语义(即没有规则和定义的KIF)与一阶逻辑语义相似，也保持了一阶逻辑的简洁性和半决定性，但增加了处理非标准运算符的功能和对非单调推理与定义的支持。KIF的主要特点在于:①KIF语言具有语义宣布性，即K IF表达式的语义是可以理解的，不需要求助解释程序;②KIF语言在逻辑上是可理解的，可以谓词演算的形式提供任意句子的表达式;③KIF语言提供元知识支持，这样就可以在不修改语言的情况下引进新的知识表示结构。

2.2.1.3　本体建模元语

Perez等人(1999)认为Ontology可以按分类法来组织，它归纳出Ontology包含5个基本的建模元语(Modeling Primitive)。这些元语分别是:类(classes/concepts)，关系( relations)，函数(functions)，公理(axioms)和实例(instances)。

(1)类(或概念)。它的含义非常广泛，可以指任何事物。如工作描述、功能、行为、策略和推理过程。从语义上讲，它表示的是对象的集合，其定义一般采用框架(frame)结构，使用槽来表示概念的名称。它包括概念的名称，与其他概念之间的关系的集合，以及用自然语言对概念的描述。

(2)关系。它代表了在领域中概念之间的交互作用。形式上定义为n维笛卡儿乘积的子集: R: C₁×C₂×…×C_n。

(3)函数。它是一类特殊的关系。在这种关系中，前n－1个元素可以唯一决定第n个元素。形式化定义为: F: C₁×C₂×…×C_n－1→C_n。

(4)公理。它代表永真断言。如概念乙属于概念甲的范围。

(5)实例。它代表元素。从语义上讲实例表示的就是对象。

2.2.1.4　Guarino的本体特性理论

本体的概念和方法被信息领域采用，用于知识表示，知识共享和重用。直观地讲，本体是一个实体，是对某领域应用本体分析、建模的结果，即把现实世界中的某个领域抽象为一组概念及概念之间的关系，本体的本质是概念模型。概念和概念之间的差别，不仅体现在概念的内涵上，同时也体现在概念的某些特性上。比如，概念“人”和概念“学生”之间不仅有明显的内涵上的区别，同时也有概念本身特性上的区别。对于概念“人”的任何一个实例，例如，张三是人，那么张三永远是人;但对于概念“学生”的实例却没有上述特性。例如，李四是学生，并不代表李四永远是学生。

Guarino等人对本体的基础理论中概念进行了深入而细致的研究，通过分析什么是概念、概念的特性、概念之间的关系和概念的分类，提出了关于概念分类方面的理论。基于这些理论，他又提出了面向本体的建模方法，从理论上为本体建模提供了一个通用的模式。Guarino认为，概念之间的差别不仅体现在其定义上，也体现在其某些特性上。从这些特性出发，归纳出概念的元特性(最基本的特性)，从而用公式给出元特性的严格的形式定义。在此基础上，又讨论了元特性之间的关系的约束，最终把研究结果作为概念分类的基本理论工具并提出一套完整的概念分类体系结构。Guarino的理论可以归纳为:概念的元特性是概念分类理论的基础。以元特性为出发点，按照一定的规则，把具有相同元特性的概念归为一类，进而给出一般意义上的概念分类体系。概念的基本特性包括:持久特性、非持久特性、反持久特性、半持久特性、载体标识特性、支持标识特性、外部依赖特性等。

持久特性是指概念的所有实例都必须满足概念的特性，例如，“人”就具有持久特性，而“学生”就不具有持久性。非持久特性表达的是对某概念而言，存在某些实例不会永远属于该概念，例如“学生”就具有非持久特性。反持久特性表达的是对概念的任何一个实例，这个实例不会永远属于该概念，例如，“青年人”，显然每个青年人都不可能永远年轻。半持久特性是非持久特性与反持久特性的差集，也就是说半持久特性是非持久特性，但不是反持久特性。显然，非持久特性包含半持久特性和反持久特性，半持久特性和反持久特性是不相交的。

载体标识特性和支持标识特性反映的是概念区分其个体的能力。例如，“人”就具有支持标识特性，因为它的每个实例相互之间是可区分的，人与人之间的差别可由标识(如身份证)来区分。而“学生”就不具备支持标识特性，但是具备载体标识特性。一般知道学生张三和学生李四是不同的学生，但他们之间的差别不是作为学生来区分的，而是作为人来区分的。

外部依赖特性表达的是一个概念对另外一个概念的某种依赖关系。概念A对概念B的外在依赖关系表现为对概念A中的任何一个实例a，必蕴涵属于概念B的实例b，而b不是a的一部分。例如:父母外在依赖于小孩，因为某个人是父母就蕴涵他(她)有小孩，他的小孩当然不是他身体的一部分。

本体基本特性间的关系如表2-2所示。

表2-2　概念的基本元特性

Guarino等人提出的概念分类体系，不仅从理论上澄清了概念分类上存在的模糊和混淆的现象，同时为实际应用中本体概念模型的建立提供了良好的分析、设计和评估的手段。

2.2.2　本体的特征

本体作为一种知识组织的方法具有以下特征:

(1)在逻辑表达的形式上，本体不同于叙词表之类的知识表示体系，局限于特定的专业术语。在本体中，可以使用自然语言或半自然语言的术语进行描述。

(2)在概念的组织结构上，本体中的类/概念的分布不再仅仅是一张平面的知识表示图，所有的知识点只是以类似于坐标的形式出现在这张图中。其类/概念的分布是一种网状的立体的结构，可以在四维的空间中随着时间的发展呈现动态的变化。

(3)在系统的开放性上，本体拥有一个开放的集成的体系结构，随着相关学科领域知识的更新和发展，它的底层知识库和概念集合也会发生变化，自动进行修正和更新。通过利用本体这一特性，观察本体概念动态更新的过程，可以从中找出学科发展的规律，从而进行预测。

(4)一般来说，本体中概念间的关系可以分为6种，如表2-3所示。

(5)在包含的内容上，本体是关于某一学科领域的自备知识库，是一个完备的知识组织体系。从这个意义上来看，本体应该具有智能查询、回答用户问题以及预测学科发展规律等特性。

(6)在学科分类体系上，各个学科都是在不断发展演化的，由于本体结构的开放性，可以保持其主要框架的前提下，对其细节进行一定的修改，将修改后的框架应用到其他学科本体的构建，从而实现本体体系结构的复用。

我们之所以在知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息交换和软件工程等领域研究和发展本体，是因为本体有以下突出的特点。

表2-3　本体中概念间关系

(1)本体可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射，以实现不同系统之间的互操作和继承。

(2)从功能上来讲，本体和数据库有些相似。但是本体比数据库表达的知识丰富得多。首先，定义本体的语言，在词法和语义上都比数据库所能表示的信息丰富得多;最重要的，本体提供的是一个领域严谨丰富的理论，而不单单是一个存放数据的结构。

(3)本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化的描述成为软件系统中可重用和共享的组件。

(4)本体可以为知识库的构建提供一个基本的结构。以描述对象的类型而言:有简单事实及抽象概念，这些可以描述成一个本体的静态实体部分，它们主要描述的是事物或概念的各个组成部分以及这些组成部分之间的静态联系;本体也可以描述事物或概念的运动和变化。应用本体，知识库就可以运用这类结构去表达现实世界中浩如烟海的知识和常识，这一点在中科院数学所陆汝钤(Lu，2000)研究员建立的Pangu知识库中得到了很好的体现。

(5)对于知识管理系统来说，本体就是一个正式的词汇表。本体可以将对象知识的概念和相互间的关系进行较为精确的定义。在这样一系列概念的支持下进行知识搜索、知识积累、知识共享的效率将大大提高，真正意义上的知识重用和知识共享也能成为现实。

(6)本体适合表示抽象的描述。而企业模型是人们对企业或者企业的某些模型的抽象描述，因此在企业逻辑建模中，本体的使用可以帮助我们清楚地理解企业特定领域的相关元素、关系和概念，让知识表达更加准确便捷，帮助人们进行更好的企业决策。

2.2.3　本体的作用

本体是实现领域知识共享、集成和重用的基础。本体提出的最初目标是实现知识的共享、集成和重用，这也是本体的主要作用和研究本体的意义所在。本体的具体作用如下:

(1)提供通识术语。本体通过为群体提供了描述客观世界的标准要领和受到严格控制的术语，得到了群体共同认可，有利于群体对通用知识的理解。

(2)隐性知识形式化。隐性知识包括存在于群体生活环境和人脑中的、人们日常无意识使用的概念体系和专家知识。本体将对这些知识的形式化表达起到关键作用。

(3)知识结构化。本体通过提供一定的知识组织模式或知识组织大纲，描述了客观世界存在实体的概念及其之间的关系。数据库的概念模式可以说是数据库的本体。

(4)知识体系化。本体为知识体系化提供了一些构件。这些构件是经过严格定义了的、获得群体共识的概念和术语。通过构件能丰富地描述各种现象、事实和理论知识。

(5)标准化。正如工业标准化工作在工业生产中所起的决定性作用一样，本体将在网络化、大规模化、高效率知识处理中发挥重要的作用。

(6)元模型。模型是实体存在的抽象，模型的组成来自于实体存在的概念和彼此建立的关系。组成模型的最小集又可以被认为是元模型。从本体的“组织知识的知识”(构件知识)上讲，本体是一种元模型。

(7)内容的理论。从问题求解的数据结构、数据处理和数据视图三阶段划分来看，本体是研究数据结构或系统内容的理论。

对以上本体的作用可以归纳为以下几点:

(1)支持知识交流。本体的分析澄清了领域知识的结构，从而为知识表示打好基础。本体可以重用，从而避免重复的领域知识分析。通过构建一个统一框架或者一个规范模型来减少概念和术语上的差异，使得工作在不同领域之中或者应用不同操作平台的人员之间信息的共享和交换成为可能。

(2)支持不同系统之间的互操作。在不同的建模方法、范式、语言和软件工具之间进行翻译和映射，以实现不同系统之间的互操作和集成。这种应用可细分为两类:低概念化本体和高概念化本体。前者只要求操作者使用相同的词汇，但不能够保证他们对于同一词汇(或者知识)有相同的解释或是理解，这种应用中本体一般不包含有语义信息。后者本体是一种对知识表示语言中的构建和约束作一般化的语义解释，目的就是实现使用者之间进行语义层次上的知识共享和互操作。

(3)提高信息化的实施效率和质量。制造企业知识集成技术的研究在软件系统的设计以及实现过程中，采用基于本体的方法有很多好处。利用本体对需求解决的问题和任务进行规范描述，可以提高需求分析、信息获取的效率，节约成本。同时，利用本体概念化的表达可以实现对信息(或者知识)的一致性进行自动或者半自动的检查，从而提高系统的可靠性。另外，本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件。

2.2.4　本体的分类

关于本体的分类方法，目前有很多种，这里介绍几种通用的、得到普遍认可的分类方法。

(1)应用领域分类

目前，本体主要应用于以下几个领域:①人或组织间的通信;②系统间的互操作;③系统工程领域。如图2-2所示:

图2-2　本体应用的3个主要领域

在不同领域，对本体研究关注的重点会有所不同。依照本体对各学科领域的依赖程度，可以将本体细分为顶级本体、领域本体、应用本体和表示本体四种，且该分类在知识工程领域是得到普遍认可的:

①顶级本体(也称上层本体或通用本体，General ro Upper ontology)。顶级本体主要研究非常通用的概念，它为客观世界的实体划分了不同的种类，定义了最基本的概念类、属性及语义关系，如空间、时间、对象、行为等，顶级本体能够处理物理对象的时间－物质属性，如整体－部分关系、适当的交迭、内置的部分等。它们完全独立于特定的问题或领域，具有普遍的意义，与具体的应用无关，其他种类的本体都是该类本体的特例。

②领域本体(Domain ontology)。领域本体是专业性比较强的本体，描述特定领域中的概念及概念之间的关系，它利用顶层概念集来细化定义具体应用领域的专用概念类、属性及语义关系。这类本体表示的知识只针对某一专业学科领域，例如教育、农业等。该本体描述的词表关系特定学科领域，且提供了关于该学科领域中的概念及其之间的关系，有时还会包括该学科领域的重要理论。如Plinius ontology是陶瓷物质化学成分领域的本体。

③应用本体(也称求解本体，Application ontology or Problem-solved ontology)。应用本体描述了既依赖于某个特定领域又依赖于某个课题的知识。这类本体与用来描述专业领域的概念相关联，这些概念是解决问题的方法体系的组成部分，也与解决问题的方法相关联。利用这类本体，在特定的问题的方法体系中，专业领域的概念所起的作用可得以明确表示。

④表示本体(也称元本体，Representation ontology or Meta-ontology)。表示本体是指在一个特定的知识表示体系中，用来获取对知识进行形式化的元词的本体。

(2)本体的形式化程度分类

本体的形式化程度主要跟其应用有关，如对机读性要求越高，则形式化程度越高，反之亦然。

①完全非形式化本体。此种本体完全使用自然语言来描述，其机器可理解性最差，目的在于帮助人们阅读、理解形式化程度更高的本体。如爱丁堡大学企业项目中的Enterprise Ontology自然语言版。

②结构非形式化本体。此种本体采用受限的或者结构化的自然语言表示，以减少概念的二义性。

③半形式化本体。此种本体是一种采用人工定义的形式化语言表示的本体。Ontolingua描述的本体都属于这一类。

④格形式化本体。此种本体对所有的概念术语、术语的关系、术语的一致性和完整性等都进行了形式化的语义定义。

除以上两种分类方法，其他专家根据自己的理解也提出了各自的分类方法。

1995年，Mizoguchi等人提出按照本体的内容进行划分，将本体分成领域本体、顶级(通用)本体和任务本体三种。前面我们介绍了领域本体和顶级本体。任务本体是指利用顶层概念集来细化定义具体通用任务(如支付、传输等)的专用概念类、属性及语义关系，它描述特定任务或行为中的概念及概念之间的关系，提供了用于解决与特定任务或行为的有关问题的术语集合。

1997年，Guarino提出了根据本体描述的详细程度和本体对某一特定学科领域的依赖程度进行划分的方法。详细程度是相对的、较模糊的一个概念，指描述或刻画建模对象的程度。详细程度高的称作参考本体(Reference ontology)，它把万维网上已经存在的本体作为对象来建立本体，目的是为了保存各种本体的元数据。详细程度低的称为共享本体(Share ontology)。依照本体对各学科领域的依赖程度，可以将本体细分为顶级本体、领域本体、任务本体和应用本体四种，它们之间的层次关系如图2-3所示。

图2-3　本体分类与层次

1999年，Perez和Benjamins在研究分析了大量本体分类方法的基础上，提出了10种本体类型，分别是:知识表示本体(Knowledge-Representation ontology)、通用本体(General ontology)、顶级本体(Top ontology)、核心本体(也称元本体，Core or Meta ontology)、领域本体(Domain ontology)、语言本体(Languange ontology)、任务本体(Task ontology)、领域—任务本体(Domain-Task ontology)、方法本体(Method ontology)和应用本体(Application ontology)。此种划分方法是对Guarino划分方法的细化和扩充，基本上所有的本体都可以被划分种类。然而这十种本体之间并没有明显的界限，彼此之间还存在交叉和模糊地带，层次也不够分明，不利于用户更深入的理解。

在国内，也有专家提出关于本体类型的划分方法。2005年，李景在本体的推理功能的基础上提出了相应的分类方法。她认为:构建本体的目的决定了它的应用领域和功能。不具备推理功能的本体，即使涵盖的概念再多，充其量仍然不过是词表扩展后的加强版。从这个意义上来说，本体可以分为以下三种类型:

①轻量级本体(Lightweight ontology)。轻量级本体不具备任何逻辑推理功能，如叙词表和WordNet。

②中量级本体(Middle ontology)。中量级本体只具有比较简单的逻辑推理功能，系统可以识别诸如一阶谓词逻辑的表达式。

③重量级本体(Heavyweight ontology)。相比前两种本体，重量级本体具有更为复杂的逻辑推理功能，系统可以识别更加复杂的诸如二阶谓词逻辑的表达式，并为更加复杂的推理功能的实现预留了接口，如Cyc本体系统。