搜档网
当前位置:搜档网 › 基于《知网》的语义相似度计算

基于《知网》的语义相似度计算

基于《知网》的语义相似度计算
软件使用手册

功能简介
本软件是根据[刘群 2002]一文中的原理编写的词汇语义相似度计算程序。
主要实现了以下功能:
基于交互输入的义原查询、义原距离计算、义原相似度计算
基于交互输入的词语义项查询、义项相似度计算、词语相似度计算;
基于文件输入的词语义项查询、词语相似度计算;
相似度计算中的参数调整。
安装说明
本软件包一共有四个文件:
《基于<知网>的词汇语义相似度计算》软件使用手册.doc:本使用手册
《基于<知网>的词汇语义相似度计算》论文.pdf:本软件所依据的论文,采用pdf格式,用Acrobat Reader阅读时需要安装简体中文支持包。
自然语言处理开放资源许可证.doc:本软件包的授权许可证
WordSimilarity.zip:程序文件
软件安装时,将文件WordSimilarity.zip文件解压缩一个目录下即可,解压缩后有以下几个文件:
WordSimilarity.exe:可执行程序;
Glossary.dat:《知网》数据文件
Semdict.dat:《知网》数据文件
Whole.dat:《知网》数据文件
必须确保《知网》数据文件在程序执行时的当前目录下。

界面说明
软件使用简单的对话框界面,如下所示:

功能说明
义原操作
义原查询
首先在“输入1”框中输入义原名称;
点击“察看义原1”按钮;
在“义项1”框中将依次显示出该义原及其所有上位义原的编号、中文、英文;
类似的方法可以查询“输入2”框中的义原;
义原距离计算
首先在“输入1”和“输入2”框中输入两个义原;
点击“计算义原距离”按钮;
在“输出”框中显示两个义原的距离;
义原相似度计算
首先在“输入1”和“输入2”框中输入两个义原;
点击“计算义原相似度”按钮;
在“输出”框中显示两个义原的相似度;
基于交互输入的词语操作
词语义项查询
首先在“输入1”框中输入要查询的词语;
点击“察看义项1”按钮;
在“义项1”框中将依次显示出该词语的所有义项;
类似的方法可以查询“输入2”框中的词语义项;
义项相似度计算
首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;
点击“察看义项1”按钮和“察看义项2”按钮;
在“义项1”框和“义项2”框中将分别显示出这两个词语的所有义项;
分别在“义项1”框和“义项2”框中点击需要计算相似度的两个词语义项;
点击“计算义项相似度”按钮;
在“输出”框中将显示选中的两个义项的相似度;
词语相似度计算
首先分别在“输入1”和“输入2”框中输入要计算相似度的两个词语;
点击“计算词语相似度”按钮;
在“输出”框中将显示两个词语

的相似度;
说明:词语相似度定义为两个词语的所有义项相似度中的最大值。
基于文件输入的词语操作
文件输入
点击“文件:输入”按钮,系统将使用缺省的文本编辑器打开输入文件TestWords.Txt;
编辑输入文件,其格式如下
每行一个词;
若干个词构成一组,组与组之间用空行分隔;
例如:
男人
女人

孩子
老人
少女
工人
保存文件;
按文件查询词语义项
首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;
点击“文件:查询词语义项”按钮,系统将使用缺省的文本编辑器词语义项文件TestMeanings.Txt;
词语义项文件中将显示所有的词语义项,
格式为:
:男人
N human|人,family|家,male|男
N human|人,male|男
:女人
N human|人,family|家,female|女
N human|人,female|女

:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
按文件计算词语相似度
首先点击“文件:输入”按钮,按照上面的说明在文件中输入要查询的词语;
其次点击“文件:查询词语义项”按钮,按照上面的说明得到词语义项文件TestMeanings.Txt;
编辑打开的词语义项文件TestMeanings.Txt,删除无关的义项(整行删除即可),但每个词语至少应保留一个义项;
假设上述例子中删除“男人”和“女人”的各一个义项,得到文件为:
:男人
N human|人,male|男
:女人
N human|人,family|家,female|女

:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
点击“文件:计算词语相似度”按钮,系统将根据上述词语义项文件TestMeanings.Txt中每个词语的义项,计算以空行分隔的同一组词语中两两之间的词语相似度,并显示在文件TestSimilarities.Txt中;
还是按照上面的例子,结果文件为:
:男人
N human|人,male|男
:女人
N human|人,family|家,female|女
------------------------------------------
男人,女人:0.661111
===================================================
:孩子
N human|人,family|家,young|幼
N human|人,young|幼
:老人
N human|人,aged|老
N human|人,family|家,aged|老
:少女
N human|人,female|女,young|幼
:工人
N human|人,#occupation|职位,industrial|工
------------------------------------------
工人,孩子:0.661111
工人,老人:0.661111
工人,少女:0.568519
孩子,老人:0.861111
孩子,少女:0.8
老人,少女:0.661111
===================================================

参数修改
可以直接在对话框中修改以下参数:α,β1,

β2,β3,β4,γ,δ。
参数的含义见参考文献[刘群 2002]。
每次修改后参数不保存,下次允许程序需重新修改参数。
版权说明
本软件由中国科学院计算技术研究所刘群编制,全部版权(不含《知网》版权)属于中国科学院计算技术研究所所有。
使用者可以自由的拷贝、发布或者修改本资源,但是必须完全遵守“自然语言处理开放资源许可证”(许可证版本编号1.0)中所列各项条款之规定。
资源提供者不承诺提供任何技术支持,也不会对使用者由于使用本资源而造成的任何后果(不论是直接的还是间接的)承担责任。详细信息请参阅“自然语言处理开放资源许可证”中的具体条款。
一份“自然语言处理开放资源许可证”的文本拷贝会随同本资源一起发布。如果没有,请访问“中文自然语言处理开放平台( HYPERLINK "https://www.sodocs.net/doc/9a8139529.html," https://www.sodocs.net/doc/9a8139529.html, )”以获得一份完整的许可证文本
感兴趣者请与刘群联系,邮件地址是: HYPERLINK "mailto:liuqun@https://www.sodocs.net/doc/9a8139529.html," liuqun@https://www.sodocs.net/doc/9a8139529.html, ,
也可访问中国科学院计算技术研究所自然语言处理课题组网站: HYPERLINK "https://www.sodocs.net/doc/9a8139529.html," https://www.sodocs.net/doc/9a8139529.html,
或者访问中文自然语言处理开放平台: HYPERLINK "https://www.sodocs.net/doc/9a8139529.html," https://www.sodocs.net/doc/9a8139529.html, 。

本软件使用了《知网》2000版。《知网》的全部版权由董振东、董强先生所有,感兴趣者请访问《知网》主页: HYPERLINK "https://www.sodocs.net/doc/9a8139529.html," https://www.sodocs.net/doc/9a8139529.html, 。
参考文献
[刘群 2002] 刘群,李素建, HYPERLINK "E:\lang\WebSite\liuqun\research\publications\基于《知网》的词汇语义相似度计算Final.doc" 基于《知网》的词汇语义相似度计算 ,第三届汉语词汇语义学研讨会,台北,2002年5月
[知网] https://www.sodocs.net/doc/9a8139529.html,




***[JimiSoft: Unregistered Software ONLY Convert Part Of File! Read Help To Know How To Register.]***



相关主题