搜档网
当前位置:搜档网 › 宾州中文树库编辑器说明

宾州中文树库编辑器说明

宾州中文树库编辑器说明
宾州中文树库编辑器说明

树库编辑工具(TreeEditor)使用说明书

詹卫东

北京大学中文系

目 录

一程序文件与界面 (1)

1.1 程序文件 (1)

1.2 程序界面 (1)

二树库文件的格式 (2)

2.1 输入 (2)

2.2 输出 (2)

2.2.1 表(list)输出格式 (2)

2.2.2 XML输出格式 (3)

2.2.3 导出原始句子文件 (3)

三句子结构树的显示与编辑 (3)

3.1 显示 (3)

3.1.1 树图的缩小与放大 (4)

3.1.2 句子列表显示模式切换 (4)

3.2 编辑 (4)

3.2.1 节点拖动 (4)

3.2.2 节点删除 (4)

3.2.3 修改标签 (5)

3.2.4 插入节点 (5)

3.2.5 恢复 (5)

3.2.6 整句删除 (5)

3.2.7 字符串编辑模式 (5)

四辅助编辑功能 (6)

4.1 跳转 (6)

4.2 查找 (6)

4.3 续查 (9)

4.4 高级查找 (9)

4.5 Find in Files (14)

4.6 子树替换 (15)

4.7 查错 (17)

五从树库中抽取语言数据 (19)

5.1 抽取规则 (19)

5.2 抽取词表 (20)

5.3抽取短语实例 (20)

5.4 统计短语分布 (21)

5.5 统计句长分布 (22)

六其他辅助功能 (23)

6.1 树图打印 (23)

6.2 文件管理 (23)

6.3 句子管理 (23)

致谢 (23)

一 程序文件与界面

1.1 程序文件

本程序运行需要下面三个文件。

1) TreeEditor.exe, 可执行程序;

2) syntag.txt, 定义树库中用到的各种标记,帮助程序进行标记的合法性检查;

3) check.txt , 说明树库编辑过程中可能出现的结构错误,用于进行树结构的合法性检查。 以上三个文件需要在同一个目录下(缺少后两个txt 文件不影响程序的基本运行,比如编辑操作,但无法查错)。

1.2 程序界面

程序界面包含三大区域:

二树库文件的格式

2.1 输入

1. 树库文件必须为文本文件(.txt , .TXT),文件格式为每行一个句子(如果一个句子被回车分成了两行,将作为两个句子看待)。目前程序对树库文件的限制是不能超过10000个(行)句子,每句不超过5000个字节长度。

2. 句子结构的表示必须遵循严格的格式规范。目前编辑工具支持如下五种格式(以例子形式给出):

格式1) s[np[n[猎人]],vp[v[回来],u[了]]] // 程序内部对树结构的字符串表示形式 格式2) s[np[n[猎人]]vp[v[回来]u[了]]] // 将格式1中的逗号分隔符去掉 格式3) s[np[n<猎人>] vp[v<回来> u<了>]] // 将格式2中叶子节点以< > 标记

格式4) s(np(n<猎人>) vp(v<回来> u<了>))// 格式4是将格式3中的[ ]替换为( )

格式5) s(np(n(猎人)) vp(v(回来) u(了))) // 格式5是将格式2中的[ ]替换为( )

格式6) (s(np(n(猎人)) vp(v(回来) u(了)))) // 格式6比格式5最外层多了一对括号 格式7) (s(np(n 猎人))(vp(v 回来) (u 了))) // 叶子节点跟属性标记之间以空格分开

以上格式7是美国宾州大学树库格式。程序打开树库文件时自动对当前文件中的树表示格式进行判别。

上述格式中,“属性标记”前均可再添加 ! (西文感叹号),这个符号的含义是中心词标记。它标记了它后面的成分在短语结构中是中心成分。比如:

( np ( ap ( a ( 新 ) ) !np ( n ( 家庭 ) ) ) )

在上面这个短语结构中,“!np ( n ( 家庭 ) )”是整个np的中心成分。

2.2 输出

2.2.1 表(list)输出格式

1. 点击“保存图标”按钮或“文件”菜单项下“保存”命令(见

2.2.2中图),可以保存当前打开的树库文件。保存前,程序会对句子结构进行合法性检查,通过检查后才能顺利保存。树库中所允许的句法标记集存放在文本文件(syntag.txt)中,程序读入其中的标记作为判断句子结构(标签)合法性的依据。

点击“保存”,树库文件按2.1中所示“格式6”形式保存;

点击“另存为”,树库文件按2.1中所示“格式1”形式保存。

点击“导出宾州树库格式”,则以“格式7”形式保存文件。如果当前没有打开的树库文件。则用户可以选择多个树库文件(格式为1-6),导出为符合“宾州树库格式”要求的树库文件。新的文件将直接覆盖(替换掉)原来的文件。

2. 如果做了编辑操作后没有保存就退出程序,会弹出对话框提示用户保存。

2.2.2 XML输出格式

2.2.3 导出原始句子文件

点击 [文件] 菜单项下的 “导出原始句子文件”选项,可以导出当前树库文件的原始句子形式。由用户指定文件的保存位置和文件名。

三句子结构树的显示与编辑

3.1 显示

打开文件后,所有句子按每句一行在右上角的窗口(“句子列表窗口”)中显示,任意选择其中一句,右下的窗口中显示该句子的图形树状结构,左边的窗口显示该句子的层次树状结构。图形树状结构便于操作者观察,快速找出句子结构的错误之处,层次结构便于编辑(节点拖动,节点标签值修改,以及添加节点等)。

3.1.1 树图的缩小与放大

在图形树状结构显示窗口中,如果图形超出了屏幕范围,可以通过拖动滚动条来查看其它部分,也可以点击工具栏上的“缩小”按钮来减小节点间的距离;如果节点距离太近以至出现节点交叠的情况,可以点击工具栏上的“放大”按钮来增加节点间距离。

3.1.2 句子列表显示模式切换

在句子列表窗口中,如果想查看不带句法结构标记的原始句子,可以点击工具栏上的“切换”按钮,来进行显示模式的切换。

3.2 编辑

3.2.1 节点拖动

将一个节点(包括它的所有子孙节点)拖动到其他位置,同时删除该节点原来所在位置。

拖动操作包括两种基本情况:

i) 设有非叶子节点x,对x执行拖动操作,是指将x从原位置移走,成为非叶子节点y的儿子节点。这种情况下,在拖动前要满足条件:x不能是y的儿子节点。

这种拖动操作的影响对象是节点x下所有的节点,即整个一棵子树x。

执行上面这种拖动操作会有两种情况:

拖动后,x作为y的第一个儿子节点,如果x所辖叶子节点先于y所辖叶子节点

拖动后,x作为y的最后一个儿子节点,如果y所辖叶子节点先于x所辖叶子节点

ii) 设有叶子节点x, 对x执行拖动操作,是指将x从原位置移走,与另一个叶子节点y合并为一个叶子节点。

执行这种拖动操作后,如果x的父亲节点没有其他子女,则自动删除x的父亲节点,并且按照这种原则依次向上删除x的祖先节点。

这种拖动操作实际上是为了实现叶子节点的合并,即解决分析中存在的分词错误问题(将不该分的词分开成两个词了)。

比如树中有两个叶子节点,分别是“计算”和“机”,如果这是分词错误,有必要把这两个叶子节点合并为一个,成为“计算机”。具体操作方法为:将叶子节点“机”拖到“计算”的父亲节点(记作Nf)上,两个叶子节点即合并为一个,成为 Nf 的儿子节点。

3.2.2 节点删除

叶子节点是不允许删除的。删除节点操作只针对非叶子节点。

设有x,y,z三个节点,x是y的父亲节点,y是z的父亲节点,如果将z节点拖动到x节点下,使得z成为x的儿子节点,则y节点被删除。

拖动叶子节点可能造成叶子节点的祖先节点被删除,可参见3.2.1的说明。

3.2.3 修改标签

将一个节点的标签(label)修改为另一个名称,比如一个节点被分析为np结构,但实际上是vp 结构,这时应将节点标签 np改为vp。

具体操作与在windows资源管理器(或“我的电脑”)环境下修改文件名完全一样,即先用鼠标左键单击该节点,当光标定位到该节点所在方框内部时,即可对框内字符进行编辑操作。

3.2.4 插入节点

可以在一个非叶子节点x后插入一个兄弟节点y。具体操作方法如下:

在x节点上点击右键,就会在x之后产生一个空节点y,可以用跟“修改节点的标签值”同样的方式,在y中输入适合的标签。

注意:上述操作均不允许改变原句子中字符的顺序关系!!!

3.2.5 恢复

对于在树图操作窗口中所做的操作,可以点击工具栏上的“恢复”按钮,恢复上一步状态直至最初状态。其它窗口内容也会同步更新。

3.2.6 整句删除

在句子列表显示子窗口,选定需要编辑的句子(被选中的行以蓝色显示),点击鼠标右键,弹出菜单有两个选项,delete表示删除当前选定句子,edit表示对当前选定句子进行文本编辑操作。 选择delete,当前被选定句子即从句子列表中删除,原选定句子行成为一个空行。

注意:删除是无法恢复的操作。

3.2.7 字符串编辑模式

在句子列表显示子窗口,选定需要编辑的句子(被选中的行以蓝色显示),点击鼠标右键,弹出菜单有两个选项,delete表示删除当前选定句子,edit表示对当前选定句子进行文本编辑操作。 选择edit,弹出文本编辑框,被选定句子及其句法结构均显示在文本框中,可以手工加入标签(np,vp,...),修改词语(处理分词错误,把应该分开而没有分开的词分开)。

编辑结束后,按 [OK] 按钮返回,所有子窗口内容随即更新。

注意:字符串编辑模式下所做的编辑操作是无法恢复的。

[整句删除] [字符串编辑模式] 的弹出式菜单图示如下:

四辅助编辑功能

4.1 跳转

按下“跳转”按钮,可以在弹出的对话框中输入数字,程序会在句子列表框中定位到指定行。

4.2 查找

按下“查找”按钮,弹出对话框,用户可输入查找条件。

查找条件有三种模式:

(1)[树结构]查找模式:这种情况下要求输入根节点和儿子节点作为查找条件。

比如,在下面的图中,根节点为“np”,儿子节点为“vp np”(多个儿子节点之间以空格隔开)。

点击“OK”按钮后,程序将定位到包含 np[vp np] 短语结构模式所在的行。

注意:

A. 这种查找模式下,“查找”条件只能指定父亲节点和儿子节点(两层),不能嵌套更多层次。下面4.4“高级查找”功能支持多层次嵌套的树结构查找。

B. 在这种查找模式下,还可以指定是否“包含中心词标记!”。缺省(default)的查找条件是“不包含中心词标记”,即在查找时程序将跳过树库中的!标记;如果用户选择“包含中心词标记”,则查找时将包含!号,进行匹配。

仍以上图例子来说,对于上面这个查询条件,因为没有选择“包含中心词标记”,因此程序在匹配时将树库中的 ! 标记忽略, np[vp np] np[vp !np] !np[vp !np] … 等短语模式都将被匹配上。如果选择了“包含中心词标记”,则只有第一个短语结构模式会匹配上,其余的都不匹配。如果用户选择“包含中心词标记”,同时希望查找带有 ! 标记的短语模式,则在指定“查询条件”时,应该包含 ! 标记。如下图所示:

C.在这种查找模式下,用户还可以指定“保存查询结果到文件中”(缺省情况下不保存查询结果)。如果用户指定“保存查询结果到文件中”,程序将弹出对话框由用户指定文件名和位置。如果用户没有指定“保存查询结果到文件中”,则程序将定位到匹配成功的句子所在的行。

“包含中心词标记” “保存查询结果到文件中”两个选项仅对第1种查询模式有效,对下面第2,3两种查询模式无效。

(2)[字符串匹配]查找模式:这种情况下可输入任意字符串作为查询条件。查询对象是带有句法结构标签的句子。如下图所示的查询条件将去匹配“社会发展”按照np+vp方式形成的短语结构:

(3)[在原文中查找]模式:这种情况下可输入任意字符串作为查询条件。查询对象是不带句法结构标签的原始句子。如下图所示的查询条件将去匹配包含“发展经济,加强法制”子串的句子。如果匹配成功,则定位到该句子所在的行。

注意:

(A)每次只能按照一种模式查询。

(B)上述三种查询模式是有优先顺序的。也就是说,如果用户同时指定第1,2种模式,则第2种模式无效,依次类推。

(C)查找范围是从当前选定行开始到句子结束。

4.3 续查

查询条件不变,希望查找更多符合查询条件的句子,可按“续查”按钮(Find Next)。要改变查询条件,则按“查找”按钮。

“查找”范围是从当前选定句开始到文件末尾,“续查”范围是从当前选定句的后一句开始到文件末尾。查找文件末尾后如果再点击“续查”,则返回第一句开始查找。

“编辑”菜单下的 [查找] [查找下一个] 菜单项的功能与 [查找] [续查]按钮功能相同。 4.4 高级查找

在“编辑”菜单下选择“高级查找”菜单项,会弹出“高级查找”对话框。

[高级查找]功能支持多层树结构的查找,用户可以指定树的根节点,儿子节点,孙子节点,…,以及树的宽度,深度等等作为查找条件。根节点的儿孙节点用“表”(list)形式给出,同层节点

之间以逗号分隔。

下面是用户指定“高级查找”条件的对话框。

目前“高级查找”功能支持的组合查找条件包括以下三种:

(1)同时指定 根节点 + 子节点 (此时深度=宽度= 0,即深度和宽度不作为查找条件)

(2)同时指定 根节点 + 深度范围 (深度取值为大于0,小于100的整数)

(3)同时指定 根节点 + 宽度范围 (宽度取值为大于0,小于100的整数) 上述三种查找模式是排他的,并且是有先后顺序的,即如果指定了第一种查找模式,则第二、三种查找模式无效,依次类推。

用户可以选择将查找结果输出到文件;或者定位到符合查找条件的句子所在的行;

用户可以指定查找的起始行;

如果用户选择将查找结果输出到文件,在上述第(1)种查找模式下,用户可以选择输出结果为命中的整句树结构,或者是完全匹配的子树(短语);在第(2),(3)查找模式下,输出结果均为完全匹配的子树(短语),而不是输出整句。换句话说,在第一种查找模式下,“输出整句”选项是有效的,但在第二、三种模式下,“输出整句”选项不起作用。

树的深度是指从根节点到叶子节点的最大层数。树的宽度是指一棵树的叶子节点的个数。树的深度和宽度可以反映一个句法结构的复杂程度。比如下面这个np树的深度为6,宽度为7。

注意:高级查找时对中心词标记是敏感的,例如“!np” 和 “np”将被看作是不同的节点。

下面是查找条件设置示例:

(1)比如在根节点栏填 np,在儿子节点栏填:np[n],np[n,n]

表示: 查找一个np结构,该np由两个np构成,其中第一个np由一个n组成,第二个np由两个n组成。

图示如下:

(2)在下面查找示例中,用户可以在树库中找到深度为6的np子树。

(3)在下面的查找中,用户可以在树库中查找深度从6到10之间的vp短语,并将结果保存到文件。

特别提示:

[高级查找]支持通配符(用“*”表示)查找。根节点和子节点中均可以包含 * 。比如:

(4)在下面的查找中,用户可以在树库中查找所有的中间包含“的”字的三分支结构,并将查找结果输出到文件。

(5)* 可以跟其他字母配合起来使用,比如 “!*” 表示 跟 “!”开头的字符串匹配;“*j”表示跟 “j”字母结尾的字符串匹配; “!*j”表示跟“!”开头,“j”结尾的字符串匹配。

在下面的查询中,用户可以在树库中查找到所有中间包含“的”字的三分支结构,并且,“的”

字左边的节点是以“j”结尾的。

(6) 下面这个示例查找 “的(ude1)”字结构作中心语的短语结构,即根节点为 “!*”,指跟所有以!开头的节点匹配。

特别提示:

[高级查找] 支持逻辑非(用“-”号表示)查找。比如“-np”表示“不是np”的短语。注意:- 只能出现在一个节点标签值的开头。像“n-p”“!-np”这样的标签是非法的。

(7)下面这个示例查找根节点不是ap的“的(ude1)”字短语。

(8)下面这个示例查找不是“的(ude1)字短语的np短语。

(9) 下面这个示例查找 “的(ude1)”的兄弟节点不含 !标记的子树。在查找时,“-!*”表示一个节点不是以!开头的。(注意,在“替换子树”中,“-!*”表示把节点标签中开头的!删掉,见下文4.6中的说明)

注意:目前一个节点中仅可以包含一个*。像“*p*”“***”“!*j*”这样的串都是非法的。

如果选择“输出到文件”,按下上面对话框的“OK”按钮后,用户可以进一步指定查找结果的保存位置和文件名。

[查找] [续查] [高级查找] 均需要在打开树库文件的情况下进行操作。或者说只能对单个文件进行操作。下面的“Find in Files”不需要打开树库文件,可以对多个树库文件进行操作。

4.5 Find in Files

点击“编辑”菜单下的“Find in Files”菜单项,可以弹出“高级查找”对话框。用户指定查询条件后,可以选择多个文件,在这多个文件中进行查找。查找结果保存在与被查文件同目录下的search_result.txt文件中。该文件中记录了满足查找条件的文件的文件名及句子所在的行。

“Find in Files”的主要目的是尽快定位到某个规则模式对应的实例所在的文件行。

在“Find In Files”查找模式下,“高级查找”对话框中仅“根节点”和“子节点”两项有效。其他输入框均无效。

4.6 子树替换

程序首先根据用户指定的树结构查找条件,查找符合用户指定条件的句树,并将相应的内容替换为用户指定的目标树结构。查找方式与“高级查找”(见4.4)相同。

注意:(1)替换时对中心词标记是敏感的,例如“!np” 和 “np”将被看作是不同的节点。

(2)替换前后叶子节点数目不能改变。

替换后的结果以文件形式保存。用户可以指定保存位置和文件名。

下面是示例:

(1)在下面的替换中,np原本是三分支结构(两层),由m+q+n组成;替换后成为二分支结构(三层)。由mp+np组成,其中mp又由m+q组成,np由n组成。

替换时,节点的标签值是可以更改的(比如原来的m可以改为任何一个其他的合法的词性标记。

(2)在下面的替换中,np子树(二分支,其中后一个儿子节点为ude1)被替换为ap子树(二分支,其中前一个儿子节点继承替换前np的第一个儿子节点,后一个儿子节点仍为ude1)。

子树替换操作允许在树结构中使用 * 作为通配符,* 代表一个节点,可以跟任何一个标记匹配。

(3)在下面这个替换中,任意一个包含“的”(ude1)的二分支子树,都将被替换为np子树,np的第一个节点从替换前子树的第一个儿子节点继承,np的第二个节点仍为ude1。

(4)在下面这个替换中,任意一个包含“的”(ude1)的三层二分支子树,将被替换为一个两层三分支子树。并且,替换之前,ude1的兄弟节点如果含有 ! 标记,替换后,将不再含有 ! 标记;此外,替换后,ude1的后一个兄弟节点将含有 ! 标记,无论在替换前它是否含有 ! 标记。

替换前后的树形图如下:

替换前: 替换后:

关于“子树替换”操作,需要注意:

(1)“查找子树”部分,跟“高级查找”中用户指定待查找子树的方式完全一样。可以包含*, *j, n*, !*p , !n* ,-!*,-np,…… 等等字符串形式,其中通配符 * 可以跟其他任意字母配合起来使用,非号“-”只要出现在开头,也可以跟其他字母配合使用。

(2)“替换”部分,通配符 * 只有三种形式(相应的,非号 – 只有其中的一种形式):

* 表示在替换时完全继承 [查找子树] 部分对应的节点标签值;

!* 表示在替换后,在源节点标签前加上 ! 标记,如果原来没有 ! 标记的话;

-!* 表示在替换后,将源节点标签前的 ! 标记删除,如果原来有 ! 标记的话;

(其中 – 是西文减号)

“替换”部分不允许出现 *j, n*, !*p , !n* , …… 等等 * 跟字母连用的形式;也不允许 –np,-!*np 这样的形式。

无论是查找,还是替换,节点中只能包含一个 *。不允许含多个 * 的形式。“-”号只能出现在开头。

子树替换操作可以同时对多个文件进行。在当前没有打开树库文件的情况下,用户可以在指定替换条件后,选择多个文件进行替换操作。对多个文件的替换操作将直接改变原文件内容,并且没有对原文件进行备份,因而替换操作是不可恢复的。在确定替换前请仔细检查替换条件与替换目标。

4.7 查错

程序目前能检查出来的“错误”主要是不符合规范的“硬伤”(不涉及到语言学知识),另外程序也对一些可能存在的“软伤”(涉及到语言学知识),猜测性地做出报告(在树库加工中操作人员可能判断有误,或者是误操作,造成一些错误的组合模式,程序尝试发现这类错误)。目前程序定义的错误包括以下类型:

(1)子节点数超过5个,并且节点中不含标点;

(2)把汉字标记为标点;

(3)后置成分充当短语的开头;

(4)形如np->np,或 dj->vp这样的单分支节点错误;

(5)形如q->q n这样的由词性标记充当短语类的错误;

(6)子节点中包含两个以上中心词标记 ! 的错误;

(7)子节点中没有标记中心词标记 ! 的错误;

(8)check.txt文件中定义的各种错误可能性较大的组合类型。

注意:上述第8类“错误”有可能并不是错误,但树库加工人员应该谨慎对待程序报告的每一个错误提示信息,进行认真核查。

“查错”有三种方式。如下图菜单项所示。其中 [查错] 菜单项和 [查错] 按钮功能一样,是对当前当打开的树库文件进行查错操作;[检查全部句子1] [检查全部句子2] 既可以对当前打开的树库文件进行查错,也可以由用户指定多个文件,进行查错。二者输出错误报告文件的方式不同。对这两种查错模式来说,用户可以选择是否检查“中心词标记”。下面对三种查错模式分别加以说明。

(一) 按下“查错”按钮(或[核查]菜单下的[查错]菜单项),程序即对当前打开的树库文件逐句进行检查,在句子列表框中定位到包含错误的句子所在的行。定位后,用户可以用鼠标点击该句子,程序即会显示当前可能有错误的句子,等待用户进行编辑操作,如果程序报告的错误属实,用户修改后点击“查错”,该句即可通过检查;如果程序报告的错误属于误报,则用户可选中下一个句子,然后点击“查错”,即跳过刚才报错的句子,继续进行检查。在这种查错模式下,每次查错范围:以当前选定句子为起始,最后一句为结束。查到第一个错误即停止。

(二) 按下[核查]菜单项下的[检查全部句子1]项,如果当前有打开的树库文件,程序对当前树库文件中的全部句子进行检查,并将检查结果输出到文件中保存。检查结果的文件名命名原则是:如果当前树库文件名为 MyTree.txt,则检查结果文件名为 MyTree_err1.txt,与树库文件在同一目录下。在这种查错模式下,无论当前用户选定哪一个句子,查错范围都是整个文件。检查结果按照句子原始顺序排序,即第i句中包含的错误信息先于第i+1句的错误信息。如果当前没有打开的树库文件,则由用户指定一个或多个文件进行查错。结果输出到 errorlist_1.txt 文件。

(二) 按下[核查]菜单项下的[检查全部句子2]项,如果当前有打开的树库文件,程序对当前树库文件中的全部句子进行检查,并将检查结果输出到文件中保存。检查结果的文件名命名原则是:如果当前树库文件名为 MyTree.txt,则检查结果文件名为 MyTree_err2.txt,与树库文件在同一目录下。在这种查错模式下,无论当前用户选定哪一个句子,查错范围都是整个文件。检查结果按照所查到的错误信息的先后顺序输出,每条错误信息后面记录包含了这类错误的句子的序号。如果当前没有打开的树库文件,则由用户指定一个或多个文件进行查错。结果输出到 errorlist_2.txt 文

件。

五从树库中抽取语言数据

5.1 抽取规则

按下[工具]菜单下的[抽取规则(LHS字母序)], [抽取规则(LHS字母序)], [抽取规则(LHS 字母序)], [抽取规则(LHS字母序)]等项目(如下页图示),程序可以对当前已打开的树库文件进行分析,获取其中的产生式规则(各菜单项的功能差别在于规则的排序方式的不同)。用户可以在文件保存对话框中指定结果文件的保存位置和文件名。

如当前无打开的树库文件,可由用户打开一个新的树库文件,这时对文件中的句子数量无限制。程序自动以所打开的树库文件名后接“_rule”作为结果文件的文件名,保存在跟树库文件相同的目录下。

按下[工具]菜单项下的[抽取规则(两重排序)]菜单项,如果当前已经有打开的树库文件,则弹出对话框,由用户指定规则输出到文件时的排序标准。用户可以指定两级排序标准,也可以只指定一个排序标准,也可以不指定排序标准(这时不进行排序)。

按下[工具]菜单项下的[抽取规则(两重排序)]菜单项,如果当前没有打开的树库文件,则先弹出对话框,由用户指定规则输出到文件时的排序标准(方式同上),然后会弹出文件对话框,由用户选择树库文件,此时可以选择一个或多个文件。程序将从多个文件中抽取所有包含的规则,输出到rule.txt文件中。

从功能上说,[抽取规则(两重排序)]菜单项的功能覆盖了其他“抽取规则…”菜单项的功能。但考虑到使用方便,当用户不需要多重排序标准对规则进行排序时,可以直接点击其他“抽取规则…”菜单项,而不需要选择“抽取规则(两重排序)”菜单项。

抽取规则的菜单项界面,以及点击[抽取规则(两重排序)]菜单项后弹出的对话框如下面图示。

文本编辑器使用使用说明

文本编辑器使用说明书

目录 1文本编辑器结构 (1) 1.1功能操作按钮栏 (1) 1.2内容栏 (1) 2功能分解 (1) 2.1功能操作按钮栏第一排 (1) 2.1.1全屏编辑 (2) 2.1.2预览 (2) 2.1.3粘贴 (2) 2.1.4粘贴为无格式文本 (2) 2.1.5从MS Word 粘贴 (2) 2.1.6撤销 (3) 2.1.7重做 (3) 2.1.8插入/编辑图像 (3) 2.1.9插入/编辑表格 (4) 2.1.10插入水平线 (4) 2.1.11插入/编辑超链接 (4) 2.1.12取消超链接 (5) 2.1.13查找 (5) 2.1.14替换 (5) 2.1.15全选 (5) 2.1.16清除格式 (5) 2.2功能操作按钮栏第二排 (5) 2.2.1格式 (6) 2.2.2字体 (6) 2.2.3大小 (6) 2.3功能操作按钮栏第三排 (6) 2.3.1空格 (6) 2.3.2加粗 (6) 2.3.3倾斜 (7) 2.3.4下划线 (7) 2.3.5删除线 (7) 2.3.6左对齐 (7) 2.3.7居中对齐 (7) 2.3.8右对齐 (7) 2.3.9两端对齐 (7) 2.3.10插入/删除编号列表 (8) 2.3.11插入/删除项目列表 (8) 2.3.12文本颜色 (8) 2.3.13背景颜色 (8) 2.3.14下标 (8) 2.3.15上标 (8) 2.3.16源代码 (9)

1文本编辑器结构 文本编辑器大体结构可以分为两部分,分别为:功能操作按钮栏和内容栏。 1.1功能操作按钮栏 功能操作按钮栏:用于对内容进行编辑。 1.2内容栏 内容栏:用于显示输入的内容。 2功能分解 在功能操作按钮栏中功能按钮分为三排,下面将分别按照每排的顺序进行逐一介绍。 2.1功能操作按钮栏第一排 功能操作按钮栏第一排中共包含16个功能按钮,如下图所示。 图2-1-1 功能操作按钮栏第一排

汉语树库综述 - 当代语言学

《当代语言学》第11卷2009年第1期47-55页,北京 汉语树库综述 王跃龙姬东鸿武汉大学 提要 树库作为一种经过了结构标注的语料库,对于语料库方法的语言学研究及其应用具有非常重要的意义。本文简要介绍了目前汉语树库建设的主要情况,包括国内外几个比较重要的汉语树库的建设过程和主要特点,对目前汉语树库建设中存在的问题提出建议,并对今后的汉语树库建设作出展望。 关键词 树库汉语树库 1.树库定义 随着计算语言学的发展,人们逐渐认识到基于规则的语言学研究方法的局限性。计算机的运算速度的飞速发展,也使得人们能够方便地使用统计学的方法从真实语料中获取自然语言的数据,因此语料库方法越来越受到人们的重视。这些语料库中的真实语料往往经过不同层次的加工,包含了各种各样的语言信息,可以使获取的语言规律更加客观和准确。 树库(treebank )就是一种经过了结构标注的语料库。一般来说,一个句子虽然表面上呈现词语的线性排列,其内部的成分组织是存在一定层次结构的。这种层次结构通常用“树”这种形式工具来表示。如果考虑歧义,那么一个句子可能对应多棵树。大量句子以及其对应的树结构的集合就构成树库。 树库作为包含语言结构信息的语言资源,其作用在以下几方面。首先,它可为基于统计的自动句法分析器提供必要的训练数据和统一的测评平台;其次,它能为汉语句法学研究提供真实文本标注素材,便于语言学家从中总结语言规则和规律;第三,它是进一步进行句子内部的词语义项和语义关系标注的基础。 目前许多国家正在或者已经初步建立起自己语言的树库。例如,英语的树库有英国的Lancaster 2Leeds 树库①和美国宾夕法尼亚大学的U 2Penn 树库②;德语的树库有NEGRA 树库③和TI GER 树库④;捷克语有P DT 树库⑤;西班牙语有UAM 树库⑥;汉语的树库有美国宾夕法尼亚大学的U 2Penn 汉语树库⑦和中国台北中研院的Sinica 汉语树库⑧等。 7 4本刊网址:htt p://www .ddyyx .com ① ② ③ ④ ⑤ ⑥ ⑦ ⑧htt p://cl w ww .essex .ac .uk /w3c /cor pus_ling/content/cor pora /list/p rivate /LOB /l ob .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~treebank /(点击日:2006年12月1日)htt p://www .coli .uni 2saarland .de /p r ojects/sfb378/negra 2cor pus/negra 2cor pus .ht m l (点击日:2006年12月1日)htt p://www .i m s .uni 2stuttgart .de /p r ojekte /TI GER /TI GERCor pus/(点击日:2006年12月1日)htt p://ufal .mff .cuni .cz/pdt/index .ht m l (点击日:2006年12月1日)htt p://www .lllf .ua m.es/~sandoval/UAMTreebank .ht m l (点击日:2006年12月1日)htt p://www .cis .upenn .edu /~chinese /ctb .ht m l (点击日:2006年12月1日)htt p://turing .iis .sinica .edu .t w /treesearch /(点击日:2006年12月1日)

Word公式编辑器 《快速上手指南》

Word公式编辑器《快速上手指南》公式编辑器的基本知识 ★公式编辑器的来历 你一定知道在Word中有个“公式编辑器”应用程序,但你可能不清楚它其实不是微软公司开发的,它是Design Science公司的Mathtype“公式编辑器”特别版,是为Microsoft应用程序而定制的。 ★公式编辑器的安装 “公式编辑器”不是Office默认安装的组件,如果要使用它,重新安装Office至如图1所示步骤时,在“Office工具”中选择“公式编辑器”,从选项中选择“从本机运行”,继续进行安装就可以将“公式编辑器”安装成功了。 图1

★启动公式编辑器 需要编辑公式时,单击“插入→对象”命令,打开“对象”对话框(如图2所示),在“对象类型”中找到“Microsoft公式3.0”,选定后,单击[确定]按钮,在文档中就插入了公式编辑窗口,此时文字与公式处于混排状态,如果你勾选了“显示为图标”前的复选框,在文档中插入的是“Microsoft公式3. 0”的图标。 图2 双击图标,可打开一个独立的“公式编辑器”程序窗口,此程序窗口与Word程序窗口是相互独立的,在编辑公式过程中若想编辑文字,直接切换到Word程序窗口进行编辑即可,不需关闭“公式编辑器”程序窗口,给编辑文档带来了很多方便。 在“公式编辑器”程序窗口中编辑完公式后,单击“文件→更新”命令,或者按F3键,文档中的公式即被更新,若直接关闭了“公式编辑器”程序窗口,也可完成更新操作。 小技巧:每次插入完一个公式,都要重新启动“公式编辑器”(是不是觉得有点麻烦?),想不想在工具栏上给“公式编辑器”安个家——建立“公式编辑器”按钮呢?

实验一Virtuoso原理图和图标编辑器的基本使用

实验一Virtuoso原理图和图标编辑器的基本使用 目录 1.实验目的 2.创建一个新的自定义单元库 3.使用 Cadence Virtuoso 原理图编辑器构建一个反相器 4.创建一个自定义元器件图标 1.实验目的 本实验采用AMI06工艺设计一个反相器,以此使学生达到熟悉 Cadence Virtuoso 原理图和图标编辑器使用,记住常用热键组合以及掌握与特定工艺库关联之目的。 2.创建一个新的自定义单元库 启动 Cadence,调用 CIW(Command Interpreter Window) 首先启动计算机,在用户名处键入 cdsusr, 密码处键入123456,进入Linux操作系统桌面,在cdsusr’s Home 文件夹中创建iclabs子文件夹。请记住一定要创建这个子文件夹,这样才不会影响到cdsusr根目录下的cds.lib文件。操作如下:File --> Create Folder, 在新创建的文件夹名称处键入iclabs(可取不同名字,学号和本人名字拼音等)。进入Linux桌面,单击鼠标右键打开终端。见图1。 图1. Linux桌面操作 在打开的终端中执行下列命令:见图2的红色框线内。 图2. Linux终端

执行第二个命令后你就可看见Cadence软件的CIW窗口出现。见图3所示。 图3. Cadence软件的CIW窗口 在CIW窗口中点击Tools-->Library Manager..., 将打开库管理器(图4)。 图4. 库管理器 你可看到NCSU提供的库已显示在Library栏目中,有 NCSU_Analog_Parts,...等。点击库管理器中的File-->New-->Library..., 将打开New Library 对话窗口, 现创建一个新库取名为IClab1。见图5。

脚本编辑器使用手册

VisualField系统软件 流程图脚本编辑器使用手册 浙江中控技术股份有限公司

声明 严禁转载本手册的部分或全部内容。 在不经预告和联系的情况下,本手册的内容有可能发生变更,请谅解。 本手册所记载的内容,不排除有误记或遗漏的可能性。如对本手册内容有疑问,请与我公司联系。 文档标志符定义 警告:标示有可能导致人身伤亡或设备损坏的信息。 WARNING: Indicates information that a potentially hazardous situation which, if not avoided, could result in serious injury or death. 电击危险:标示有可能产生电击危险的信息。 Risk of electrical shock: Indicates information that Potential shock hazard where HAZARDOUS LIVE voltages greater than 30V RMS, 42.4V peak, or 60V DC may be accessible. 防止静电:标示防止静电损坏设备的信息。 ESD HAZARD: Indicates information that Danger of an electro-static discharge to which equipment may be sensitive. Observe precautions for handling electrostatic sensitive devices 注意:提醒需要特别注意的信息。 ATTENTION: Identifies information that requires special consideration. 提示:标记对用户的建议或提示。 TIP:Identifies advice or hints for the user.

编辑器编辑文字、图片常规操作说明

编辑器编辑文字、图片常规操作说明 操作总体说明: 编辑文字、图片分为以下三大步骤,这些步骤只是多种方式之一,熟悉后可自行选择喜欢的方式进行。 一、确认编辑器内空白无内容 二、用无格式粘贴方式粘贴文本内容 2.1、无格式粘贴文本 2.2、设置文本字体大小 2.3、段首行缩进两个汉字 三、插入图片 2.1、插入图片预备操作 2.2、选择并上传图片 2.3、写上图片标注并设置字体大小 附:其他常用操作介绍 1、附件上传。 2、表格粘贴。 3、常用操作技巧。

常规操作图示说明: 一、确认编辑器内空白无内容 确认编辑器内容空白,有助于减少因隐含格式对文本格式的影响。熟悉操作后此步并不一定需要。 二、用无格式粘贴方式粘贴文本内容 2.1、无格式粘贴文本 无格式粘贴文本可分为三个小步骤,具体见下图: 无格式粘贴文本后,如下图:

2.2、设置文本字体大小 无格式粘贴文本后,调整字体大小分三个小步骤,如下图: 字体大小调整成功后,如下图:(请务必将光标点到文字中,看看“大小”框内是否会出现具体的数字,如果出现了则说明字体大小调整成功,若无具体数字说明字体大小调整不成功。)

2.3、段首行缩进两个汉字 段首行缩进两个汉字分三个小步骤,如下图: 段首行缩进两个汉字的效果如下图:

三、插入图片 2.1、插入图片预备操作 插入图片准备分两个小步骤:一、和正文之间空一行;二、设置居中。具体操作如下图: 熟悉以后也可以在插入完图片后再设置居中。 2.2、选择并上传图片 上传图片分三个小步骤,如下图:

插入图片后,可左键单击图片来选中图片,选中效果如下图: 2.3、写上图片标注并设置字体大小 在输入图片标注后,设置字体大小分三个步骤,如下图:

The Chinese Penn Treebank Tag Set中文宾州树库标记及其含义

The Chinese Penn Treebank Tag Set 1 Part-Of-Speech tags: 33 tags 标 记 英语解释中文解释 AD adverbs 副词 AS Aspect marker 体态词,体标记(例如:了,在,着,过)BA把in ba-const “把”,“将”的词性标记 CC Coordinating conjunction 并列连词,“和” CD Cardinal numbers 数字,“一百” CS Subordinating conj 从属连词(例子:若,如果,如…) DE C 的for relative-clause etc “的”词性标记 DE G Associative 的联结词“的” DE R 得in V-de construction, and V-de-R “得” DE V 地before VP 地 DT Determiner 限定词,“这” ET C Tag for words 等,等等in coordination phrase 等,等等 FW Foreign words 例子:ISO IJ interjection 感叹词 JJ Noun-modifier other than nouns LB被in long bei-construction 例子:被,给 LC Localizer 定位词,例子:“里” M Measure word (including classifiers) 量词,例子:“个” MS P Some particles 例子:“所” NN Common nouns 普通名词 NR Proper nouns 专有名词 NT Temporal nouns 时序词,表示时间的名词OD Ordinal numbers 序数词,“第一”

实验一 Virtuoso原理图和图标编辑器的基本使用

实验一原理图和图标编辑器的基本使用 目录 1.实验目的 2.创建一个新的自定义单元库 3.使用原理图编辑器构建一个反相器 4.创建一个自定义元器件图标 1.实验目的 本实验采用06工艺设计一个反相器,以此使学生达到熟悉原理图和图标编辑器使用,记住常用热键组合以及掌握与特定工艺库关联之目的。 2.创建一个新的自定义单元库 启动 ,调用() 首先启动计算机,在用户名处键入 , 密码处键入123456,进入操作系统桌面,在’s 文件夹中创建子文件夹。请记住一定要创建这个子文件夹,这样才不会影响到根目录下的文件。操作如下: > , 在新创建的文件夹名称处键入(可取不同名字,学号和本人名字拼音等)。进入桌面,单击鼠标右键打开终端。见图1。 图1. 桌面操作 在打开的终端中执行下列命令:见图2的红色框线内。 图2. 终端 执行第二个命令后你就可看见软件的窗口出现。见图3所示。

图3. 软件的窗口 在窗口中点击> ..., 将打开库管理器(图4)。 图4. 库管理器 你可看到提供的库已显示在栏目中,有 ,...等。 点击库管理器中的>>..., 将打开对话窗口, 现创建一个新库取名为1。见图5。 图5. 创建一个自定义元件库 点击弹出关联工艺库对话框(图6),选择。

图6. 选择关联工艺库的操作 不同的工艺库对应不同的器件模型,在对原理图进行仿真时需要选择相应工艺库中的模型,这样得到的结果更接近实际情况。提供的一共包含有9个工艺库,其中库显示在最上端。 点击弹出选择特定工艺库对话窗口,对本实验,选择06库。 图7. 关联特定工艺库 在库管理器中选中刚创建的1库,单击菜单>> ...,弹出对话窗(图8),可自己命名如, 选 , 就会默认选中(原理图)。 图8. 指定创建的具体元件的名称和类型 点击中的,就会启动(图9)

电子病历材料模板编辑器使用说明

目录 1.1元素维护 (3) 1.1.1简单元素维护 (3) 1.1.2复杂元素维护 (3) 1.2模板类型维护 (3) 模板类型 (4) 与gy_doc_moban_v4.mobanlx关联,如果是病程记录类型,则mobanlx必须以“BC_”开头,如首次病程录BC_SCBCL,日常病程记录BC_RCBCL (4) 模板类型名称 (4) 作废标志 (4) 书写时限 (4) 无效 (4) 书写次序 (4) 限制病程记录书写顺序,如首程,必须在病程中第一个书写 (4) 重复次数 (5) 限制可重复书写次数,如首程,只可书写一次 (5) 换页标志 (5) 0为不可换页,1为新增时换页,2为单独页,即新增时换页,且后续增加的病程须另起一页。 (5) 编辑抬头 (5) 一般指病程记录:0为不可编辑;1为可在病程类型前增加内容,如主治医生查房,需要录入主治医生姓名,为XXX主治医生查房;2为整个病程类型名称可更改 (5) 顺序号 (5) 在病历编器中排列顺序 (5) 父类模板类型 (5) 设置该类型的上级类型,如病程记录主治医生查房,其父类模板类型为“BCJL” (5) 类别 (5) 0 医生1护士2急诊留观 (5) 显示标志 (5) 病历编辑中模板列表1显示0不显示 (5) 末级标志 (5) 用于分级显示,如“病程记录”,其下级分多种病程类型,则“病程记录”末级标志为0 5 打印病历虚线 (5) 0或空不打印虚线1打印虚线 (5) 1.3基础模板维护 (5) 1.3.1书签应用 (6) 医院名称 (6) HEADER_YIYUANMC (6) 病历标题 (6) HEADER_BINGLIBT (6) 病人姓名 (6) HEADER_XINGMING (6)

ewebeidtor编辑器使用说明

Ewebeditor 使用手册

郑州市企业服务平台-稿件编辑器使用手册1、界面概述 (3) 菜单栏 (3) 编辑区 (3) 2、菜单栏使用说明 (3) 2.1、源代码模式 (3) 2.2、预览模式 (4) 2.3、全屏模式 (4) 2.4、保存内容 (5) 2.5、修改编辑器内容模板 (5) 2.6、剪切、复制、粘贴 (6) 2.7、撤销、重做 (6) 2.8、查找、替换 (6) 2.9、字体样式以及位置设置 (7) 2.10、上标和下标设置 (8) 2.11、插入和取消超链接设置 (8) 2.12、设置文档编号和缩进设置 (9) 2.13、插入媒体(图片、flash、视频) (9) 2.14、插入表格、水平线、特殊符号 (12) 2.15、全选和清除格式 (14) 2.16、使用小技巧 (14) 2.17、常见问题汇总 (15)

1、界面概述 所见即所得的在线编辑器界面主要分为以下两大部分: 菜单栏 编辑器顶部为菜单栏,主要放置各种编辑功能的选项及按钮图标,使用者只需点击图标或选择相关选项即可实时对编辑栏编辑的内容进行添加或修改、修饰。 编辑区 编辑器中部空白处为编辑区,主要是供使用者输入及编辑内容所用,同时所编辑的内容全部都是所见即所得,但有部分内容,如活动的图像、文字、电影等在编辑状态下只会呈现静止状态,需使用者转换到预览状态方可真实再现。 图:稿件编辑器主界面 2、菜单栏使用说明 编辑器菜单栏图标功能使用说明如下: 2.1、源代码模式 图:源代码模式 如上图所示,红线区域内为"源代码"模式图标。默认未选中。点击该图标,

编辑框进入源代码编辑模式,如下图所示: 图:源代码编辑模式 此时“源代码”图标将为选中状态,其它图标为不可选状态。这时在进行内容编辑时,可以通过添加html标签进行设定文本样式。再次点击“源代码图标”编辑器进入普通模式,“源代码”图标取消高亮状态。其它编辑图标恢复可选状态。 2.2、预览模式 图:进入预览模式 如上图所示:红线框为预览模式图标。点击该图标,进入预览模式,可查看刚刚编辑文本内容最终样式如下图所示: 图:进入预览模式 2.3、全屏模式 图:全屏模式图标 如上图红线框内为全屏模式图标。点击该图标,文本编辑器会最大化窗口,增大文本内容编辑面积。 再次点击该图标,编辑器恢复普通编辑模式。

宾州中文树库编辑器说明

树库编辑工具(TreeEditor)使用说明书 詹卫东 北京大学中文系 目 录 一程序文件与界面 (1) 1.1 程序文件 (1) 1.2 程序界面 (1) 二树库文件的格式 (2) 2.1 输入 (2) 2.2 输出 (2) 2.2.1 表(list)输出格式 (2) 2.2.2 XML输出格式 (3) 2.2.3 导出原始句子文件 (3) 三句子结构树的显示与编辑 (3) 3.1 显示 (3) 3.1.1 树图的缩小与放大 (4) 3.1.2 句子列表显示模式切换 (4) 3.2 编辑 (4) 3.2.1 节点拖动 (4) 3.2.2 节点删除 (4) 3.2.3 修改标签 (5) 3.2.4 插入节点 (5) 3.2.5 恢复 (5) 3.2.6 整句删除 (5) 3.2.7 字符串编辑模式 (5) 四辅助编辑功能 (6) 4.1 跳转 (6) 4.2 查找 (6) 4.3 续查 (9) 4.4 高级查找 (9) 4.5 Find in Files (14) 4.6 子树替换 (15) 4.7 查错 (17) 五从树库中抽取语言数据 (19) 5.1 抽取规则 (19) 5.2 抽取词表 (20) 5.3抽取短语实例 (20) 5.4 统计短语分布 (21) 5.5 统计句长分布 (22) 六其他辅助功能 (23) 6.1 树图打印 (23) 6.2 文件管理 (23) 6.3 句子管理 (23) 致谢 (23)

一 程序文件与界面 1.1 程序文件 本程序运行需要下面三个文件。 1) TreeEditor.exe, 可执行程序; 2) syntag.txt, 定义树库中用到的各种标记,帮助程序进行标记的合法性检查; 3) check.txt , 说明树库编辑过程中可能出现的结构错误,用于进行树结构的合法性检查。 以上三个文件需要在同一个目录下(缺少后两个txt 文件不影响程序的基本运行,比如编辑操作,但无法查错)。 1.2 程序界面 程序界面包含三大区域:

简易文本编辑器说明书

中北大学 课程设计说明书 学院、系: 专业: 班级: 学生姓名:学号: 设计题目:简易文本编辑器 起迄日期: 2016年12月16日~2016年12月29日指导教师: 日期: 2016年12月29日

1 设计目的 通过用户调查分析及实际需求,开发出一个文本编辑器,可以方便用户对文本进行编辑。系统需要实现如下基本功能: (1)具有图形菜单界面; (2)查找,替换(等长,不等长),插入(插串,文本块的插入)、块移动(行块,列块移动),删除;(3)可正确存盘、取盘; (4)正确显示总行数。 2 任务概述 要设计一简易的文本编辑器,要求有图形菜单界面,也就是菜单选择的界面,要实现的功能有对文本进行存盘,取盘,在某一个盘中新建一个TXT的文件,在里面输入内容,对这个文件进行取盘,显示出文本内容,并在显示的时候显示行数,具有对文本进行查找、替换、插入、移动、删除等功能。 为实现数据的有序存储,该编辑器应该用顺序表来存储输入的信息。顺序表是数据结构中线性表的一种,它是用一块地址连续的存储空间依次存储线性表的元素。其特点为:在顺序表上逻辑关系相邻的两个元素在物理位置上也相邻;在顺序表上可以随即存取表中的元素。在编辑器的主界面中应有如下提示信息: ⑴显示当前文本信息:从文件中读出文本,在某一个盘中创建一个文本文件,所以要读出来, 显示到显示器上,并统计出行数。 ⑵查找文本信息:因为在下面做插入,删除,移动之类的都需用到查找,在查找的时候,也要 调用一个字符匹配模式的程序,来判断查找的内容是否符合所要查找的内容。 ⑶删除文本信息:首先在数组中查找要删除的信息,查找的时候调用匹配模式的子函数,如果 找到该信息,提示是否确认删除该信息,通过确认来删除信息,如果未找到要删除的信息,提示未找到该信息; ⑷插入文本信息:首先调用字符匹配模式的子函数找到插入点,如果找到该插入点,提示输入 插入信息,确认插入信息后,选择是否在这个位置插入,如果是的话执行插入,不是的话再往下查找下一个插入点。 ⑸替换文本信息:首先在数组中查找要被替换的信息,如果找到该信息,提示输入要替换的 信息内容,否则提示未找到要被替换的信息; ⑹保存文本信息:在这里使用文件写入读出的功能,把你修改完的内容保存到你所建立的文 本中。 ⑺显示文本内容:读出文件中的所有字符,显示到显示器上。 ⑻退出 3 模块划分 (1)系统主要包含主程序模块和其他操作模块。其调用关系如图(一)所示。

汉语句法树库标注体系

汉语句法树库标注体系? 周强 清华大学计算机系 智能技术与系统国家重点实验室 北京100084 zhouq@https://www.sodocs.net/doc/a24758418.html, 摘要:语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。 关键词:句法树库,标注规范,语料库语言学 Annotation Scheme for Chinese Treebank ZHOU Qiang State Key Laboratory of Intelligent Technology and Systems Dept. of Computer Science and Technology Tsinghua University, Beijing 100084 zhouq@https://www.sodocs.net/doc/a24758418.html, ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and ?本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。 作者:周强,男,1967年生,博士,副研究员,主要研究方向:计算语言学、语料库语言学、词汇语义学 1

文本编辑器使用说明书

文本编辑器使用说明书 文本编辑器使用说明书

文本编辑器使用说明书 目录 1文本编辑器结构 (1) 1.1功能操作按钮栏 (1) 1.2内容栏 (1) 2功能分解 (1) 2.1功能操作按钮栏第一排 (1) 2.1.1全屏编辑 (2) 2.1.2预览 (2) 2.1.3粘贴 (2) 2.1.4粘贴为无格式文本 (2) 2.1.5从MS Word 粘贴 (2) 2.1.6撤销 (3) 2.1.7重做 (3) 2.1.8插入/编辑图像 (3) 2.1.9插入/编辑表格 (4) 2.1.10插入水平线 (4) 2.1.11插入/编辑超链接 (4) 2.1.12取消超链接 (5) 2.1.13查找 (5) 2.1.14替换 (5) 2.1.15全选 (5) 2.1.16清除格式 (5) 2.2功能操作按钮栏第二排 (5) 2.2.1格式 (6) 2.2.2字体 (6) 2.2.3大小 (6) 2.3功能操作按钮栏第三排 (6) 2.3.1空格 (6) 2.3.2加粗 (6) 2.3.3倾斜 (7) 2.3.4下划线 (7) 2.3.5删除线 (7) 2.3.6左对齐 (7) 2.3.7居中对齐 (7) 2.3.8右对齐 (7) 2.3.9两端对齐 (7) 2.3.10插入/删除编号列表 (8) 2.3.11插入/删除项目列表 (8) 2.3.12文本颜色 (8) 2.3.13背景颜色 (8) 2.3.14下标 (8) 2.3.15上标 (8) 2.3.16源代码 (9)

1文本编辑器结构 文本编辑器大体结构可以分为两部分,分别为:功能操作按钮栏和内容栏。 1.1功能操作按钮栏 功能操作按钮栏:用于对内容进行编辑。 1.2内容栏 内容栏:用于显示输入的内容。 2功能分解 在功能操作按钮栏中功能按钮分为三排,下面将分别按照每排的顺序进行逐一介绍。 2.1功能操作按钮栏第一排 功能操作按钮栏第一排中共包含16个功能按钮,如下图所示。 图2-1-1 功能操作按钮栏第一排

文本编辑器的详细使用说明

文本编辑器的详细使用说明 ①基本操作:对作业内容进行剪切、复制、粘贴等操作 ②文字格式化:对作业内容进行格式调整,包括字体大小、颜色、样式等。 图标依此为:【段落标签】【字体】【字体大小】【加粗】【斜体】【下划线】【删除线】【字体颜色】【背景颜色】【内容全选】【删除文字格式】 ③段落格式化:对作业中的段落进行格式调整,包括:【对齐】【列表】【减少缩进】【增加缩进】 ④常用的网页编辑: ●超链接: 直接建立超链接:填写链接地址、选择链接页面的打开方式、输入链接文字,点击【确定】 链接我自己的附件:选择电脑上的附件,输入链接文字,点击【确定】 ●取消超链接:选中编辑器中的超链接,点击取消即可。可以直接删除链接文字。 ●图片:

如何上传图片 上传图片(图片要为.jpg格式)请按照使用说明中的步骤进行, 截图后如何存为.jpg格式: ①首先打开画图工具步骤: 点击【开始】----【所有程序】----【附件】----【画图】 ②将图片存为.jpg格式 用qq截图后,在画图工具中的空白处右击鼠标【粘贴】,然后保存时放在桌面上,保存时将图片选择成.jpg格式。 图片的大小判断方法: 鼠标右击要上传的图片,点击【属性】 根据IE浏览器不同分类两类: ①ie6或ie7中点击【摘要】查看高度和宽度,将其记录下后填入如下框中 ②ie8及以上点击【详细信息】查看高度和宽度

山东省2012年小学教师远程研修学员使用手册 上传图片: 在编辑框中找到图片按钮,按照如下步骤进行 ①开编辑框找到图片按钮 ②点击上传,找到要上传的图片

③填写长宽 ④点击确定 您也可以引用网络上的图片,直接输入图片的网络地址。

原理图元件库

1.在查找元件时,为了增加找到原理图元件的机会,在输入的元件名称中,最 好使用通配符 * 。 2.在字符串查找过程中,系统要寻找所有第一个字母为A的字符串的元件,应 该输入 A* 。 3.在查找元件时,可执行菜单命令工具/查找元件或点击元件库文件面 板上的【查找】按钮。 4.新建原理图元件必须在原理图库文件编辑器中进行。 5.制作一个原理图元器件首先要创建元件库。 6.在原理图库文件编辑环境下,“SCH Library”面板的功能是浏览元件库的 元件。 7.在自己建的原理图元件库文件中,要绘制一个新的元件符号,应执行 Tools/New Component(工具/新元件)菜单命令或单击“SCH Library” 面板上的 Add(追加)按钮。 8.启动元件库编辑器有两种方法,一种方法是打开已有元件库,另一种方 法是创建一个新的元件库。 9.原理图元件库编辑器工作区的中心有一个十字坐标轴,将工作区划分为4 个象限,一般在第四象限绘制原理图元件。 10.原理图元件库编辑器工作区的中心位置坐标为(0,0)。 11.通过原理图元件库编辑器的制作工具来绘制和修改一个元件图 形。 12.在原理图元件编辑环境中,“SCH Library”面板上包括“元件”区、“别 名”区、“引脚”区和“模型”区。 13.“Libraries(库文件)”面板上提供了元件库(Libraries)、查找

(Search)和放置(Place) 三个工具按钮。 14.原理图元件库编辑管理器中除了主工具栏,还提供了绘制图形工具栏 和 IEEE 工具栏。 15.元件库编辑器里可以产生元件报表、元件库报表和元件规则检查 表。 16.在绘制直线时,可利用空格键切换直线的转角。 17.在绘制椭圆弧时第一次单击鼠标左键确定的是椭圆弧的圆心位置。 18.原理图元件由两部分组成:外形和引脚。 19.制作元器件时,为了画图形实体的外形,捕获网格的值可以按照需要 改动,但是在放置引脚之前,一定要改回 10 。 20.元件名称是为外形和引脚功能相同的元件取的一个通用名称。 21.当元器件绘制完成后,在原理图元件库编辑管理器中单击“元件”区的 “编辑”按钮可设置元件属性。 22.制作元器件符号时,要更改第一个元件名称必须选工具菜单中的重 新命名元件进行修改;要增加一个制作元件直接按【追加】按钮再修改名称。 23.在放置VCC和GND引脚时,在【电气特性】选项中应选择“Power”。 24.若放置与非门74LS00如图01所示功能单元,则在属性对话框中, Designator输入 U1 ;Part为 4 。 图01 25.当要查看自带库中元器件信息,在打开该元件库后,在弹出的对话框上应 选择抽取源按钮,调用该库。

实验2:原理图设计基础

实验二原理图设计基础 一实验目的 1 熟悉原理图编辑器的窗口界面。 2 认识原理图编辑器菜单以及工具栏。 3 掌握原理图图样设置。 二实验内容 创建原理图文件并设置其图样。 三实验步骤 1 新建PCB项目文件 1)新建PCB项目文件,并重命名保存为“项目二” 2 新建原理图文件 1)执行菜单命令File/New/Schematic,启动原理图编辑器 2)执行菜单命令File/Save,命名为“ZDQ.SCHDOC” 保存。 3 原理图图样设置 1)执行菜单Design/Document Options,弹出如图1所示对话框。 图1 Document Options对话框图2 自定义图纸大小 2)在Sheet Options标签,找到Standard Styles栏。点击输入框旁的箭头将看见一个图纸样式的列表。使用滚动栏来向上滚动到A4样式并点击选择。如果自己有特殊要求,用鼠标左键单击“Use Custom Style”前的复选框,使它前面的方框里出现“√”符号,即表示选中“Custom Style”。 在“Custom Style”栏中有5个设置框,其名称和意义如表1所示。 表1 “Custom Style”栏中各设置框的名称和意义 对话框名称对话框意义 Custom Width 自定义图样宽度 Custom Height 自定义图样高度 X Region Count X轴参考坐标分格 Y Region Count Y轴参考坐标分格 Margin Width 边框的宽度 3)单击Sheet Color更改颜色,可以改为白色,如图3所示 4)点击OK按钮关闭对话框,更新图纸大小。

Altium_Designer6.9集成元件库制作教程

Altium Designer6.9集成元件库制作教程 从第一代ALTIUM DESIGNER6.9开始,官方提供集成元件,即在同一个元件库中,原理图下编辑环境下是原理图库.在PCB编辑环境下是PCB封装库,文件扩展名为:IntLib,那么我们自己能否自己创建一个INTLIB的集成元件库哪?当然是可以的.这里简单介绍一下如何生成一个集成元件库的步骤 第一步:使用Altium Designer6.9或AD6环境下,新建→项目→集成元件库.在PRJECT下就多一个Integrated_Library1.LibPkg的集成元件项目文件.然后保存项目.在集成元件库下新增一个原理图元件库和一个封装库,命名要和集成元件库项目名称一致. 在原理图元件库编辑环境为符号库指定封装.然后在项目单击右键,选 择”Compile Integrated Library ****.LibPgk”(****代表自己命名的元件库名称).就是编译集成元件. 这时你就可以在元件库保存位置上看一个”Project Outputs for ****”的输出 文件夹,,文件夹中就有刚才编译的集成元件库 了。 此时就可以直接在Altium Designer6.9/AD6中直接调用这个元件库了.效果和系统的集成元件一样.下次直接打开集成元件时,就会有这样的提示

选择提取源,你就可以在PROJECT中看到集成元件所有包含的原理图符号库和PCB封装库. 不过要注意的是,如果你对元件库修改后,要记得重新编译一下,否则你是调不到你最新增加的元件库,在项目右键选择” Reompile Integrated Library ****.LibPgk”选项.

HTML在线编辑器的调用方法和使用方法

HTML在线编辑器不需要懂得使用Dreamweaver,会用Word就会使用此编辑器,在文章系统或者是新闻系统需要文字编辑的web程序中非常实用。 但是如何将html编辑器嵌入到web页中和怎么取得里面的数据呢?! 首先我们假定我们所要调用得HTML在线编辑器放在一个单独得页面中,文件名是gledit.htm。 HTML在线编辑器有两种基本调用方法 一、使用object调用: 1、怎么在web页中嵌入html编辑器:我们在需要嵌入得位置加入以下html代码: 其中object标签里面得data后面接得数据就是我们所要调用得在线编辑器页得路径,id 就是我们调用object得id,后面取编辑器中得数据时就要用到这个id。Width和height就是编辑器得高度和宽度了。 2、怎么取得html编辑器中的数据:所有需要提交的内容我们都是放在一个表单里面,同样利用object调用的编辑器也放在这个表单里面,同时我们可以设置一个隐藏的文本区域()用以在提交的时候临时保存html在线编辑器的数据,因为在asp或者jsp,php中不能直接获取表单中的object的内容,所以我们必须借助隐藏文本区域来获取数据。我们在表单提交的同时将object里面的内容复制到隐藏的文本区域中。详细代码如下:

文本编辑器的详细使用说明

文本编辑器的详细使用说明

文本编辑器的详细使用说明 ①基本操作:对作业内容进行剪切、 复制、粘贴等操作 ②文字格式化:对作业内容进行格式 调整,包括字体大小、颜色、样式等。图标依此为:【段落标签】【字体】【字体大小】【加粗】【斜体】【下划线】【删除线】【字体颜色】【背景颜色】【内容全选】【删除文字格式】 ③段落格式化:对作业中的段落进行 格式调整,包括:【对齐】【列表】【减 少缩进】【增加缩进】 ④常用的网页编辑: 超链接: 直接建立超链接:填写链接地址、选择链接页面的打开方式、输入链接文字,点击【确定】

链接我自己的附件:选择电脑上的附件,输入链接文字,点击【确定】 ●取消超链接:选中编辑器中的超链 接,点击取消即可。可以直接删除 链接文字。 ●图片: 如何上传图片 上传图片(图片要为.jpg格式)请按照使用说明中的步骤进行, 截图后如何存为.jpg格式: ①首先打开画图工具步骤: 点击【开始】----【所有程序】----【附件】----【画图】

②将图片存为.jpg格式 用qq截图后,在画图工具中的空白处右击鼠标【粘贴】,然后保存时放在桌面上,保存时将图片选择成.jpg格式。 图片的大小判断方法: 鼠标右击要上传的图片,点击【属性】 根据IE浏览器不同分类两类: ①ie6或ie7中点击【摘要】查看高度和宽度,将其记录下后填入如下框中 ②ie8及以上点击【详细信息】查看高度和宽度

上传图片: 在编辑框中找到图片按钮,按照如下步骤进行 ①开编辑框找到图片按钮 ②点击上传,找到要上传的图片

③填写长宽 ④点击确定

相关主题