字符集-标准资源共享平台

当前位置 > 首页 > 术语细览

字符集

标准号：标准名称：

基本信息

【名称】	字符集
【英文名称】	characterset
【定义】	不同字符(6-1)的有限集合，它对于一定的目的而言是完整的。例:ISO646的国际参照本; 128个ASCf字符。注:本条引自ISO2382-4,

同源术语

·信息：	<信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识，它在一定的上下文中具有特定的意义。注 i本条引自ISO/IEC 2382一l。 2在其他的应用领域，信息的定义不同。
·数据：	为进行通信解释和处理而使用的信息(3-1)的形式化表现形式注 : 本条改自 ISO/IEC2 382-1,
·数据处理：	UP 对数据 ( 3- 2) 进行的系统操作。例 :对数据进行算术运算或逻辑运算，数据的归并(9-5)或分类(9.4),程序的汇编或编译，以及对文本 ( 3. 6) 的操作，如文本编辑(12.3)、分类、归并、存储、检索、显示(9.6)、打印等。注 :本术语不能作为信息处理(3-4)的同义术语 3-4 信息处理 informationp rocessing 对信息 ( 3- 1) 进行的系统操作，‘言包含数据处理(3.3) c 注 1本条改自 IS O/IEC2 382-10 2本术语不能作为数据处理(3.3)的同义术语。
·语言处理：	对语言进行的系统操作，它包括数据处理(3.3) 文本 text 以字符 ( 6- 1) 、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据 ( 3. 2 ) 。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。注本条引自 ISO/IEC 2382-1.
·文本语料库：	语料库 co rp us < 自然语言处理>根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7-4)或文木的某些部分的有组织集合。注 ;文本语料库可按专业领域、容量或时代做不同的限定，例如.从1986年以来的某些特定的期刊、数学文本等文本语料库可用作进一步的语言分析或术语工作的原材料。
·类型：	<目然借言处理夕又不(3·6)甲代农一个佣尼哭别的借吕毕位。注:这种语言单位通常是未用定界符(3 .10)隔开的不间断的字符串。
·类例：	<自然语言处理>类型(3 .8)在文本中的具体表现形式。例:在英语中，如果把good的所有词形定义为类型，那么good better:和besst‘等都是词形good的类例。
·定界符分隔符：	用于指明一个字符吊(6·13)的升始或结尾的一”或多一个军待(6·1)。注 l本条引自150 2382一4。 2空白或标点符号经常用作定界符。
·词形：	给定词的任何形态句法变体。例:在英语中，indicate:indicates, visitor:visitor's. 往 I在屈折语中，词形经常是屈折形式，例如，英语的go,goe5;以及go,went,gone. 2这个定义不包含正词法方面的变体
·词形变化范型：	<自然语言处理)属于某一给定词的各个词形(3.11)的类聚。
·基本词形参照词形：	根据词典编纂学的惯例选出的用以表示一个词形变化范型(3.12)中的各个形式的词形(3.11). 例:在英语中，bind是bind,bound,binds,binding等的基本词形注 1本条改自GR/T15237--19940 2术语‘基本词形’，也可以应用于词组型术语
·词组型术语：	包括两个以上词的术语。
·压缩形规定形缩减形：	经过压缩(8-4)的字符串。例:字符串“input/output-algorithm”变成其压缩形“inputoutputalgorithm", 注:术语“缩减形”和“规定形’.可能会导致误解，建议避免使用这两个术语。
·取消屈折：	取消词形(3.11)中的屈折成分。
·取消屈折的词形：	在取消屈折(3.16)之后余下的词段(3-18).
·词段词片：	为了某种特殊用途从一个词形(3.11)中取出的字符串(6.13),
·词形还原：	从某一给定词形(3.11)生成基本词形(3.13)的过程。例:在英语中，}go是"goes"通过取消屈折(3.16)而得到的荃本词形(3.13);而“go"是"went"通过不规则动词变换得到的墓本词形(3.13)，这种变换不符合标准的屈折规则。注:这样的结果也称为词形还原。
·剖析：	根据给定的算法，将给定的结构分解为其组成成分的操作。例:在英语句子“all unsaturated fatty acids are not degradable by biological methods”中，"all unsaturated fatty acids”和“biological methods”可看成是词组型术语(3.14)，它们可以被抽取 (8-9)。注:剖析不-定必须提供对某-句子的完整分析。
·术语数据集合：	包含特定专业领域有关各种概念的信息(3-1)数据(3.2)集合。
·术语条目：	术语数据集合 (3.21)中所包含的关于一个概念的术语数据(3.2) . 注 :一个术语条目可以包含两个以上的记录(7.9) ,
·同形词：	两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。例 :在英语中，lead铅Pb)和lead(领导); b ar k( 吠 )和 ba rk (树皮 ) 。在汉语中，仪表 (人的外表)和仪表(测量温度、压力等的仪器); 杜鹃 ( 布谷鸟 )和杜鹃 (映山红 ) 。注具有不同书写形式但经过压缩(8-4)之后变为同形的词形(3.11 )不算同形词
·歧义消解：	通过赋子同形词贴切的概念或贴切的句法功能从而分化同形词(3.23 )的过程，或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。例 :在汉语中，分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分别为动宾结构和偏正结构。
·分类值：	排序值 sorting value 根据预先确定的顺序，字符集(6-2)中某一元素的位置。例 :在法语中，字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字毋具有相同的分类值，取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理，有时按不同的字母来处理。
·分类关祖字：	排序键用于满足分类 (9.4 )和归并(9.5)操作要求的字符串(6.13 ). 例 :当给图书数据分类以便产生作者目录时，作者的姓是第一分类关键字，作者的名是第二分类关键字。如果同一个作者有两个题目，则把出版年份或题目作为附加的分类关键字。
·字母排序：	在组织字符串 (6.13 )时，表中的每一个串(6.12 )的位置唯一地由从该串(6.12 )头部开始的分类值 (4. 1) 来确定 . 注 1带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作为特殊的分类值。 2字母排序的规则可以因语言的不同而不同。
·逆字母排序：	在组织字符串 (6.13)时，表中的每一个串(6.12)的位置唯一地由从该串(6.12)尾部开始的分类值 (4- 1) 来确定。
·频度顺序：	在特定的文本(3-6)或文本语料库(3.7)中，根据类例(3.9)出现频度上升或下降的顺序来排列的类型(3-8)的顺序注在通常情况下，表的类型是词形(3.11)频度表或原形词频度表。
·轮排：	使词组型术语中每个实词都作为关键词进行的排序。例:在英语中，对字符串"millions of instructions per second"[MIPS〕轮排时，"instructions,mil lions of per seconds","second,millions of instructions per"等形式分别出现在“instructions”和 "second”等实词的排序表中，这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。注:本条改自GB/T15237-1994
·毗连：	两个以上的字符串(6.13)按特定的顺序合并，形成一个新的串(6.12),其长度等于各个字符串 (6.13)长度的和。
·非用词表：	停用词表stopwordlist 在数据处理(3.3)中任意选择的不予考虑的字符串(6.13)组成的表注 1在术语工作中，产生忽略功能词(代词、冠词等)的词表可能是有益的 2有时，非用词表中的字符串可以被保留下来(例如在词语索引6(.4)中)，但是不注明其频度
·拟用词表加用词表：	要保存或认为要进一步数据处理(3.3)的字符串(6.13)组成的表例;凡包含“bank"(银行)或“credit institution"(信用机构)的所有的句子都抽出; 凡以“M”起头的所有的条目在名字索引中都检索出来; 凡以“anti-”开头的所有的单词都选出来。往如果适合的话，拟用词表也可以包含词段(3.18)或其他的字符串(6.13).
·自由文本搜索：	在文本语料库(3.7)中进行的，能够检索任何类型(3-8)的搜索(8-7)。
·词语索引：	<自然语言处理>按字母顺序排列的词形(3.11)表，其词形(3.11)是从原文中抽取(8.9)出来的包括要检索的词形(3.11)以及该词形(3.11)在原文中的前面部分和后面部分。往:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引
·索引：	<自然语言处理>从一个出处摘出的并属于同一类数据元的有序字符串(6.13)汇集表。注:本条改自GB/T15237--1994,
·术语索引：	参照词汇或术语数据库(7.6)中的术语条目(3.22)而编制的索引(5.5), 注:术语索引中的术语可以按照字母来排序，也可以按照其他系统来排序
·字母索引：	按字母顺序排列的索引(5.5).
·系统索引：	所有的术语排列能反映特定专业领域中概念之间的系统关系的索引(5，5)
·轮排索引：	按轮排(4.6)方式列出的术语索引(5.6),
·逆序索引：	按逆字母排序(4-4)列出的索引(5.5),
·倒排索引：	列出文本(3.6)中的全部类型(3.8)以及全部对应类例(3.9)的索引(5.5)
·词形索引词索引：	文本(3.6)中所有词形(3.11)的索引，其中在文本(3-6)中出现两次以上的词形(3.11)用一个单独的类型(3-8)来代表，并指出其出现次数《即相应的类例(3.9))以及它们的原文参照。
·还原词索引：	用词形(3.11)的荃本词形(3.13)来代表的词形索引(5.12),
·字符：	用于表示、组织或控制数据(3.2)的元素集中的成员。注 1本条引自ISO2382-4 2字符可以分为图形字符和控制字符.
·字母表：	按公认的线性次序排列的字母字符(6.6)集。注 1本条改自ISO2382-4, 2这个定义也砚盖了由字符(6.1)组成的自然语言的字母表，这些字符(6.1)包含带发音符号的字母
·图形字符：	一种具有视觉表示的，通常可以书写、印刷或显示(9.6)的字符(6.1)，它不同于控制字符(6.5), 注 I本条引自ISO2382-4. 2图形字符可W是字母字符(6-6),橄宇(6.7)或特殊字符(6.9).
·控制字符：	在特定上下文中并实现某种控制功能的字符(6.1), 注 1本条引自ISO2382-4, 2控制字符(6.1)启动、修改和停止橄据处理(3.3)的操作。
·字母字符：	圈形字符(6.4)中用于书面表示给定语言的字母。注:它包括带发音符号的字母。
·数字数字字符：	表示非负整数的字符(6.1), 注:本条引自ISO2382-4.
·字母数字字符：	或者是字母宇符(6-6)，或者是数字(6-7)的任何字符(6-1)
·特殊字符：	不是字母数字字符(6-8)的图形字符(6.4)0 例:任何标点符号，and符号〔衣]，百分符号仁%〕，加号「+〕等都是特殊字符。注:本条改自ISO2382-4.
·间隔字符：	引起打印或显示位置沿着直线向前移动一个位置的控制字符(6.5), 注:本条改自ISO2382-40
·空白：	在图形字符(6.4)串中表示一个空位置的字符(6.1)0 注:本条引自ISO2382-4
·串：	由具有相同性质的元素组成的作为总体来看的序列。例:字符(6-1)、二进制位或脉冲等组成的序列。注:本条改自ISO2382-4
·字符串：	未被空白隔开的由多个字符(6-1)组成的序列。注:一个字符串常常代表一个单词
·模样：	当用组合字符(6.1)替换某些字符(6-1)时定义的串(6.12), 注:本条参照GB/T12991.
·汉字：	记录书面汉语的文字。
·汉字字形：	特指构成方块汉字(6.15)的二维图形。注:本条引自GR/T12200.2
·笔画：	构成楷书汉字字形(6.16)的最小连笔单位。汉字最基本笔画有横(一)、竖(})、点(、)、撇())、折 (乙)等。注:本条引自GB/T12200.2.
·笔顺：	书写每个汉字(6.15)时的笔画(6.17)的次序和方一向。注:本条引自GB/T12200.2.
·笔数：	构成一个汉字(6.15)或汉字部件(6.20)的笔画(6.17)数注:本条引自GB/T12200.2
·汉字部件：	由笔画(6.17)组成的具有组配汉字(6.15)功能的构字单位。现代汉字部件按是否成字可分为成字部件与非成字部件例:成字部件:木心口也非成字部件:i了叨丰 7t:本条引自GB/'F12200.2
·部首：	一部分可以成批构字的部件。凡含有某一部件构成的字在字典中均排列在一起，该部件作为领头单位排在开头，成为查字的依据，称为部首。部首多为形旁构成例:木(松、柏、杨、架、杏、林、相……) 注:本条引自GB/T12200.2
·偏旁：	合体字的构字单位的传统称呼，旧称合体字(由两个或两个以上汉字部件构成)，左为偏，右为旁。现代统称偏旁。偏旁本为独体字，在古代汉字(6.15)中偏旁一般与单独成字时形状相同，现代汉字(6.15)偏旁有一些变化，如“心”在左为“t”;“刀”在右为“I]”;“火”在下为“‘、”;左边的’‘埠”和右边的“邑”均作“5”等。注:本条引自GB/T12200.2,
·数据媒体：	用来记录嫩据(3-2)并且检索数据(3.2)的物理媒体。例:磁盘，光盘，缩微胶片。注 1本条改自ISO/IEC2382-1. 2在图书和文献工作的领域，数据媒体被看作数据载体
·格式：	<数据处理>教据(3-2)预先确定的组织形式。注:格式可进一步分为输入格式、存储格式和输出格式。
·数据采集：	收集数据(3.幻或将数据(3-2)装入、存储在数据处理系统中的过程。
·机器可读橄据：	可直接装入数据处理系统的数据(3-2)，简称机读数据。注:通常指磁盘、磁带和光盘中的数据，在一定环境下.采用光学字符识别(OCR)的办法，印刷物上的数据也可以被看成机器可读数据。
·数据库：	按照概念结构组成的数据(3.2)的集合。注:本条改自ISO/IEC2382-1
·术语数据库：	包含术语数据的致据库(7.5)
·数据库集：	包含管理框架的数据库(7.5)的集合。
·术语库集术语数据库集：	含有术语数据(3.2)的数据库集(7-7).
·记录：	作为一个单位来对待的数据元(7.11)的集。注:本条引自ISO2382-a,
·文件文卷：	作为-个单位来存储或处理的命名记录(7.9)的集。注:本条引自ISO2382-4
·数据元：	在一定的上下文中具有区别特征的数据(3-2)单元。注:该条改自ISO2382-4
·数据字段：	为特定的数据元(7.11)而保存在一个记录中的变长或定长的部分。
·数据字段目录：	在一个记录(7-9)内的数据字段(7.12)的位置索引(5-5)，包括在该记录(7.9)之内的每，个数据字段(7.12)的标号(7.16)、长度和位置。
·数据类目：	数据元类型dataelementtype 关于给定数据字段(7.12)的类型说明。
·标识符：	用于标识或命名一个数据类目(7.14)的一个或多个字符(6.1)0 注 1该条改自ISO2382-4 2标识符的命名可表明该数据类目(7.14)的某些性质
·标号：	数据元(7.11)集内或附加到数据元(7.11)集上的用于标识数据(3.2)的标识符(7.15)或关键字注:该条改自ISO2382-4e
·可重复类目：	在同一个记录(7.9)中能够出现两次以上的数据类目(7.14). 例:在多语言术语条目(3.22)中，有些记录(7.9)的某些类目可以对每一种语言都重复出现。在单语言术语条目(322)中，诸如同义术语、出处、上下文等类目也可以重复出现。
·信息检索：	IR 从存储的数据(3.2)中查找信息(3.1)的行动、方法和过程。注 1本条改自ISO/IEC2382-1 2信息检索可以在交互式处理或批处理中进行
·查询语言：	<信息检家>用户用来检索或者修改存储在数据库(7.5)中数据(3.2)的数据操纵语言。
·截断：	<信息检索>为了搜索或选择而将词形(3.11)变为词段(3.18)的过程。注:截断过程可以自动地进行.或者让用户自行选择。截断的方向可以从左向右，也可以从右向左
·压缩：	<自然语言处理>为了数据处理(3.3)的目的，把词形(3.11)转换为简化形式的操作。注:压缩一般是指去掉发音符号.消除空白(6.11)和各种特殊字符(6-9)以及不管大小写的区别。例如，当把某些拼写变体中立化以便生成索引(5-5)时，就需要使用压缩
·搜索词搜索关键字：	<信息检索>用于提供访问记录(7.9)的字符串(6.13), 注搜索词可以是术语、词、字等(英语中还包括单词或者单词的一部分)
·词干搜索递降分析：	按照预先确定的规则，逐次去掉字符串(6.13)中的字符(6.1)，使用自动生成的搜索词(8.5)随意提问的过程。注:根据不同语言中构词方式的不同，其顺序可以从右到左，也可以从左到右
·搜索：	<信息检索>自动地检查数据(3.2)的集合，以匹配(8.8)或抽取(8-9)具有给定特性的元素例:在姓名的集合中查出所有以J开头的姓名。
·匹配：	<信息检索>通过比较来确定不同的数据(3.2)集之间项的同一性，以便选择或分离具有同一性的项。
·抽取：	<信息检索>从一组项中，选择并取出某些符合预先确定的性质的项。
·加权：	<信息检索>根据搜索响应对于相应的搜索提问的相关程度的不同，给它们指派不同权值。
·读：	从救据媒体(7.1)获取擞据(3.2)，并保持数据不变。注:本条改自ISO2382-6,
·写：	将数据(3.2)长期或暂时记录在数据媒体(7.1)上。注:本条改自ISO2382-6.
·拷贝复写：	将数据(3.2)从源数据媒体(7.1)读(9.1)出，保持源数据不变，然后写(9-2)到目标数据媒体上。例:将一个文件从硬盘上拷贝到软磁盘上。注:本条改自ISO2382-6.
·分类：	按指定的准则将一些项分离成若干个组，对其加以排列整理的动作。注:本条改自ISO2382-6.
·归并：	将两个以上的具有相同给定顺序的擞据(3.2)的集合中的项合并成具有该顺序的一个更大的集合o 注:本条引自ISO2382-6.
·显示：	在屏幕上对数据(3-2)进行可视的显现。
·屏蔽码掩码：	利用某一字符(6-1)核样(6.14)来控制另一字符(6.1)模样(6.14)中那些要保留或者要删除的部分。例:所有的元音a,e,i,o,u都可用表示元音类别的字符V来替换。注:本条改自ISO2382-6,
·转换：	将数据(3-2)的表示从一种形式改变成另一种形式，而不改变数据所负载的信息(3-1)内容例:代码转换模拟数字转换媒体转换注:本条引自ISO2382-6
·转写：	<自然语言处理>用一种字母表(6.3)中的字符(6.1)表示另一种字母表(6-3)中的相应字符。注:ISO2382-6中有适合信息处理的定义
·数据验证：	用于确定数据在形式上是否准确、完备、合理的过程。注本条改自GB/T5271.8,
·重复条目检查：	确定数据条目是否重复存储过的数据验证(10.1)0 注:有时允许重复条目是有益的.例如，当一个术语可用于不同的专业领域时，可允许重复条目存在.
·-致性检查：	确定彼此依赖的条目是否遵守预先确定的条件的数据验证(10.1), 例:交叉引用的检查。
·拼写检奎：	确定所有的词是否遵守预先确定的拼写规则的数据验证(10-1). 注ISO/IEC2382-23在信息处理中，定义了文本编辑中上下文的拼写检查器
·完备性检变：	确定所要求的数据是否都出现的数据验证(10.1), 注 1本条改自GB/T5271.8 2数据必须在强制的数据字段(?.12)内出现
·格式检查：	确定数据(3-2)是否符合于指定格式(7-2)的数据验证(10.1). 注:本条改自GB/T5271.8,
·合理性检查：	确定数据(3-2)是否符合于特定准则的数据验证(10.1)0 注:本条改自GB/T5271.8,
·批处理：	数据(3.2)的处理或者作业的完成都以事先累积起来的方式进行，在工作过程中不再接受用户的进一步影响。
·交互式处理：	在用户和计算机系统之间的以对话方式进行的一系列输入和响应的操作。
·数据保护：	实施一套合适的管理、技术或物理等手段，以防止有意地或偶然地泄漏、修改或破坏数据(3.2)a 注:本条引自ISO/IEC2382-1,
·更新：	数据(3-2)的添加、删除或修改。注:本条改自ISO2382-4.
·文件维护：	更新(n.4)或重组文件的活动。注:本条引自ISO2382-4,
·可移植性：	<计算机程序设计>同一程序在不同类型的数据处理系统中不必转换成另外的程序语言.或不必修改或者只作很少的修改就能执行的能力。注:本条改自ISO/IEC2382-1,
·兼容性：	功能部件不做可感觉到的修改而满足不同接口要求的能力。注:本条引自ISO/IEC2382-1.
·用户终端：	在一个系统或通信网络中，使用户能够与计算机进行通信的功能部件。注:本条改自ISO/IEC2382-1.
·选单：	数据处理系统显示(9.6)的项目表，用户从此表中能够选择将要进行的行动。注:本条引自ISO八EC2382-1.
·数据通信：	根据数据传输(11.11)协议和数据交换的协调规定，在功能单元之间进行的数据(3.2)传送注:本条引自ISO/IEC2382-9.
·数据传输：	通过通信设施，从一个点到另一个或多个点的数据(3.2)传送。注本条引自ISO/IEC2382-9.
·文件传送：	通过电子手段，一个或多个文件从一个数据处理系统到其他的数据处理系统的转移。
·上载：	把程序或数据(3-2)从相连的计算机或数据媒体(7.1)转出到另外的计算机中。
·下载：	把程序或数据(3.2)从相连计算机转入到另外的计算机或数据媒体(7-1)中。
·计算机辅助机助：	借助计算机完成人的部分工作的有关技术或过程。例:计算机辅助术语工作，计算机辅助翻译，计算机辅助辞书编纂。
·文本处理语词处理：	对文本(3-6)进行的擞据处理(3-3)操作。注 1本条改自ISO/IEC2382-23, 2典型的操作有输入、编辑、分类、归并、检索、存储、显示或打印等
·文本编辑编辑：	目的在于操纵文本(3.6)的文本处理。注 1本条改自ISO八EC2382-23, 2典型的操纵包括重排、改变、添加、删除和格式化等。
·醒目显示：	通过改变文本(3.6)中所强调部分的可视属性，使其显示(9-6)更加醒目。
·开窗口：	显示屏幕分成两个或多个界线清楚的区域，使得不同的文本或图形能够同时显示，共同地或分别地操作。注ISO/TEC2382-23中“文本处理一上下文”中有定义
·浏览：	在显示屏幕上快速地查看一批文档或文件(7.10)中的某些记录(7.9)0 注:ISO/IEC2382-23中“文本处理一上下文”中有定义。
·信息：	<信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识，它在一定的上下文中具有特定的意义。注 i本条引自ISO/IEC 2382一l。 2在其他的应用领域，信息的定义不同。
·数据：	为进行通信解释和处理而使用的信息(3-1)的形式化表现形式注 : 本条改自 ISO/IEC2 382-1,
·数据处理：	UP 对数据 ( 3- 2) 进行的系统操作。例 :对数据进行算术运算或逻辑运算，数据的归并(9-5)或分类(9.4),程序的汇编或编译，以及对文本 ( 3. 6) 的操作，如文本编辑(12.3)、分类、归并、存储、检索、显示(9.6)、打印等。注 :本术语不能作为信息处理(3-4)的同义术语 3-4 信息处理 informationp rocessing 对信息 ( 3- 1) 进行的系统操作，‘言包含数据处理(3.3) c 注 1本条改自 IS O/IEC2 382-10 2本术语不能作为数据处理(3.3)的同义术语。
·语言处理：	对语言进行的系统操作，它包括数据处理(3.3) 文本 text 以字符 ( 6- 1) 、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据 ( 3. 2 ) 。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。注本条引自 ISO/IEC 2382-1.
·文本语料库：	语料库 co rp us < 自然语言处理>根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7-4)或文木的某些部分的有组织集合。注 ;文本语料库可按专业领域、容量或时代做不同的限定，例如.从1986年以来的某些特定的期刊、数学文本等文本语料库可用作进一步的语言分析或术语工作的原材料。
·类型：	<目然借言处理夕又不(3·6)甲代农一个佣尼哭别的借吕毕位。注:这种语言单位通常是未用定界符(3 .10)隔开的不间断的字符串。
·类例：	<自然语言处理>类型(3 .8)在文本中的具体表现形式。例:在英语中，如果把good的所有词形定义为类型，那么good better:和besst‘等都是词形good的类例。
·定界符分隔符：	用于指明一个字符吊(6·13)的升始或结尾的一”或多一个军待(6·1)。注 l本条引自150 2382一4。 2空白或标点符号经常用作定界符。
·词形：	给定词的任何形态句法变体。例:在英语中，indicate:indicates, visitor:visitor's. 往 I在屈折语中，词形经常是屈折形式，例如，英语的go,goe5;以及go,went,gone. 2这个定义不包含正词法方面的变体
·词形变化范型：	<自然语言处理)属于某一给定词的各个词形(3.11)的类聚。
·基本词形参照词形：	根据词典编纂学的惯例选出的用以表示一个词形变化范型(3.12)中的各个形式的词形(3.11). 例:在英语中，bind是bind,bound,binds,binding等的基本词形注 1本条改自GR/T15237--19940 2术语‘基本词形’，也可以应用于词组型术语
·词组型术语：	包括两个以上词的术语。
·压缩形规定形缩减形：	经过压缩(8-4)的字符串。例:字符串“input/output-algorithm”变成其压缩形“inputoutputalgorithm", 注:术语“缩减形”和“规定形’.可能会导致误解，建议避免使用这两个术语。
·取消屈折：	取消词形(3.11)中的屈折成分。
·取消屈折的词形：	在取消屈折(3.16)之后余下的词段(3-18).
·词段词片：	为了某种特殊用途从一个词形(3.11)中取出的字符串(6.13),
·词形还原：	从某一给定词形(3.11)生成基本词形(3.13)的过程。例:在英语中，}go是"goes"通过取消屈折(3.16)而得到的荃本词形(3.13);而“go"是"went"通过不规则动词变换得到的墓本词形(3.13)，这种变换不符合标准的屈折规则。注:这样的结果也称为词形还原。
·剖析：	根据给定的算法，将给定的结构分解为其组成成分的操作。例:在英语句子“all unsaturated fatty acids are not degradable by biological methods”中，"all unsaturated fatty acids”和“biological methods”可看成是词组型术语(3.14)，它们可以被抽取 (8-9)。注:剖析不-定必须提供对某-句子的完整分析。
·术语数据集合：	包含特定专业领域有关各种概念的信息(3-1)数据(3.2)集合。
·术语条目：	术语数据集合 (3.21)中所包含的关于一个概念的术语数据(3.2) . 注 :一个术语条目可以包含两个以上的记录(7.9) ,
·同形词：	两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。例 :在英语中，lead铅Pb)和lead(领导); b ar k( 吠 )和 ba rk (树皮 ) 。在汉语中，仪表 (人的外表)和仪表(测量温度、压力等的仪器); 杜鹃 ( 布谷鸟 )和杜鹃 (映山红 ) 。注具有不同书写形式但经过压缩(8-4)之后变为同形的词形(3.11 )不算同形词
·歧义消解：	通过赋子同形词贴切的概念或贴切的句法功能从而分化同形词(3.23 )的过程，或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。例 :在汉语中，分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分别为动宾结构和偏正结构。
·分类值：	排序值 sorting value 根据预先确定的顺序，字符集(6-2)中某一元素的位置。例 :在法语中，字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字毋具有相同的分类值，取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理，有时按不同的字母来处理。
·分类关祖字：	排序键用于满足分类 (9.4 )和归并(9.5)操作要求的字符串(6.13 ). 例 :当给图书数据分类以便产生作者目录时，作者的姓是第一分类关键字，作者的名是第二分类关键字。如果同一个作者有两个题目，则把出版年份或题目作为附加的分类关键字。
·字母排序：	在组织字符串 (6.13 )时，表中的每一个串(6.12 )的位置唯一地由从该串(6.12 )头部开始的分类值 (4. 1) 来确定 . 注 1带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作为特殊的分类值。 2字母排序的规则可以因语言的不同而不同。
·逆字母排序：	在组织字符串 (6.13)时，表中的每一个串(6.12)的位置唯一地由从该串(6.12)尾部开始的分类值 (4- 1) 来确定。
·频度顺序：	在特定的文本(3-6)或文本语料库(3.7)中，根据类例(3.9)出现频度上升或下降的顺序来排列的类型(3-8)的顺序注在通常情况下，表的类型是词形(3.11)频度表或原形词频度表。
·轮排：	使词组型术语中每个实词都作为关键词进行的排序。例:在英语中，对字符串"millions of instructions per second"[MIPS〕轮排时，"instructions,mil lions of per seconds","second,millions of instructions per"等形式分别出现在“instructions”和 "second”等实词的排序表中，这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。注:本条改自GB/T15237-1994
·毗连：	两个以上的字符串(6.13)按特定的顺序合并，形成一个新的串(6.12),其长度等于各个字符串 (6.13)长度的和。
·非用词表：	停用词表stopwordlist 在数据处理(3.3)中任意选择的不予考虑的字符串(6.13)组成的表注 1在术语工作中，产生忽略功能词(代词、冠词等)的词表可能是有益的 2有时，非用词表中的字符串可以被保留下来(例如在词语索引6(.4)中)，但是不注明其频度
·拟用词表加用词表：	要保存或认为要进一步数据处理(3.3)的字符串(6.13)组成的表例;凡包含“bank"(银行)或“credit institution"(信用机构)的所有的句子都抽出; 凡以“M”起头的所有的条目在名字索引中都检索出来; 凡以“anti-”开头的所有的单词都选出来。往如果适合的话，拟用词表也可以包含词段(3.18)或其他的字符串(6.13).
·自由文本搜索：	在文本语料库(3.7)中进行的，能够检索任何类型(3-8)的搜索(8-7)。
·词语索引：	<自然语言处理>按字母顺序排列的词形(3.11)表，其词形(3.11)是从原文中抽取(8.9)出来的包括要检索的词形(3.11)以及该词形(3.11)在原文中的前面部分和后面部分。往:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引
·索引：	<自然语言处理>从一个出处摘出的并属于同一类数据元的有序字符串(6.13)汇集表。注:本条改自GB/T15237--1994,
·术语索引：	参照词汇或术语数据库(7.6)中的术语条目(3.22)而编制的索引(5.5), 注:术语索引中的术语可以按照字母来排序，也可以按照其他系统来排序
·字母索引：	按字母顺序排列的索引(5.5).
·系统索引：	所有的术语排列能反映特定专业领域中概念之间的系统关系的索引(5，5)
·轮排索引：	按轮排(4.6)方式列出的术语索引(5.6),
·逆序索引：	按逆字母排序(4-4)列出的索引(5.5),
·倒排索引：	列出文本(3.6)中的全部类型(3.8)以及全部对应类例(3.9)的索引(5.5)
·词形索引词索引：	文本(3.6)中所有词形(3.11)的索引，其中在文本(3-6)中出现两次以上的词形(3.11)用一个单独的类型(3-8)来代表，并指出其出现次数《即相应的类例(3.9))以及它们的原文参照。
·还原词索引：	用词形(3.11)的荃本词形(3.13)来代表的词形索引(5.12),
·字符：	用于表示、组织或控制数据(3.2)的元素集中的成员。注 1本条引自ISO2382-4 2字符可以分为图形字符和控制字符.
·字符集：	不同字符(6-1)的有限集合，它对于一定的目的而言是完整的。例:ISO646的国际参照本; 128个ASCf字符。注:本条引自ISO2382-4,
·字母表：	按公认的线性次序排列的字母字符(6.6)集。注 1本条改自ISO2382-4, 2这个定义也砚盖了由字符(6.1)组成的自然语言的字母表，这些字符(6.1)包含带发音符号的字母
·图形字符：	一种具有视觉表示的，通常可以书写、印刷或显示(9.6)的字符(6.1)，它不同于控制字符(6.5), 注 I本条引自ISO2382-4. 2图形字符可W是字母字符(6-6),橄宇(6.7)或特殊字符(6.9).
·控制字符：	在特定上下文中并实现某种控制功能的字符(6.1), 注 1本条引自ISO2382-4, 2控制字符(6.1)启动、修改和停止橄据处理(3.3)的操作。
·字母字符：	圈形字符(6.4)中用于书面表示给定语言的字母。注:它包括带发音符号的字母。
·数字数字字符：	表示非负整数的字符(6.1), 注:本条引自ISO2382-4.
·字母数字字符：	或者是字母宇符(6-6)，或者是数字(6-7)的任何字符(6-1)
·特殊字符：	不是字母数字字符(6-8)的图形字符(6.4)0 例:任何标点符号，and符号〔衣]，百分符号仁%〕，加号「+〕等都是特殊字符。注:本条改自ISO2382-4.
·间隔字符：	引起打印或显示位置沿着直线向前移动一个位置的控制字符(6.5), 注:本条改自ISO2382-40
·空白：	在图形字符(6.4)串中表示一个空位置的字符(6.1)0 注:本条引自ISO2382-4
·串：	由具有相同性质的元素组成的作为总体来看的序列。例:字符(6-1)、二进制位或脉冲等组成的序列。注:本条改自ISO2382-4
·字符串：	未被空白隔开的由多个字符(6-1)组成的序列。注:一个字符串常常代表一个单词
·模样：	当用组合字符(6.1)替换某些字符(6-1)时定义的串(6.12), 注:本条参照GB/T12991.
·汉字：	记录书面汉语的文字。
·汉字字形：	特指构成方块汉字(6.15)的二维图形。注:本条引自GR/T12200.2
·笔画：	构成楷书汉字字形(6.16)的最小连笔单位。汉字最基本笔画有横(一)、竖(})、点(、)、撇())、折 (乙)等。注:本条引自GB/T12200.2.
·笔顺：	书写每个汉字(6.15)时的笔画(6.17)的次序和方一向。注:本条引自GB/T12200.2.
·笔数：	构成一个汉字(6.15)或汉字部件(6.20)的笔画(6.17)数注:本条引自GB/T12200.2
·汉字部件：	由笔画(6.17)组成的具有组配汉字(6.15)功能的构字单位。现代汉字部件按是否成字可分为成字部件与非成字部件例:成字部件:木心口也非成字部件:i了叨丰 7t:本条引自GB/'F12200.2
·部首：	一部分可以成批构字的部件。凡含有某一部件构成的字在字典中均排列在一起，该部件作为领头单位排在开头，成为查字的依据，称为部首。部首多为形旁构成例:木(松、柏、杨、架、杏、林、相……) 注:本条引自GB/T12200.2
·偏旁：	合体字的构字单位的传统称呼，旧称合体字(由两个或两个以上汉字部件构成)，左为偏，右为旁。现代统称偏旁。偏旁本为独体字，在古代汉字(6.15)中偏旁一般与单独成字时形状相同，现代汉字(6.15)偏旁有一些变化，如“心”在左为“t”;“刀”在右为“I]”;“火”在下为“‘、”;左边的’‘埠”和右边的“邑”均作“5”等。注:本条引自GB/T12200.2,
·数据媒体：	用来记录嫩据(3-2)并且检索数据(3.2)的物理媒体。例:磁盘，光盘，缩微胶片。注 1本条改自ISO/IEC2382-1. 2在图书和文献工作的领域，数据媒体被看作数据载体
·格式：	<数据处理>教据(3-2)预先确定的组织形式。注:格式可进一步分为输入格式、存储格式和输出格式。
·数据采集：	收集数据(3.幻或将数据(3-2)装入、存储在数据处理系统中的过程。
·机器可读橄据：	可直接装入数据处理系统的数据(3-2)，简称机读数据。注:通常指磁盘、磁带和光盘中的数据，在一定环境下.采用光学字符识别(OCR)的办法，印刷物上的数据也可以被看成机器可读数据。
·数据库：	按照概念结构组成的数据(3.2)的集合。注:本条改自ISO/IEC2382-1
·术语数据库：	包含术语数据的致据库(7.5)
·数据库集：	包含管理框架的数据库(7.5)的集合。
·术语库集术语数据库集：	含有术语数据(3.2)的数据库集(7-7).
·记录：	作为一个单位来对待的数据元(7.11)的集。注:本条引自ISO2382-a,
·文件文卷：	作为-个单位来存储或处理的命名记录(7.9)的集。注:本条引自ISO2382-4
·数据元：	在一定的上下文中具有区别特征的数据(3-2)单元。注:该条改自ISO2382-4
·数据字段：	为特定的数据元(7.11)而保存在一个记录中的变长或定长的部分。
·数据字段目录：	在一个记录(7-9)内的数据字段(7.12)的位置索引(5-5)，包括在该记录(7.9)之内的每，个数据字段(7.12)的标号(7.16)、长度和位置。
·数据类目：	数据元类型dataelementtype 关于给定数据字段(7.12)的类型说明。
·标识符：	用于标识或命名一个数据类目(7.14)的一个或多个字符(6.1)0 注 1该条改自ISO2382-4 2标识符的命名可表明该数据类目(7.14)的某些性质
·标号：	数据元(7.11)集内或附加到数据元(7.11)集上的用于标识数据(3.2)的标识符(7.15)或关键字注:该条改自ISO2382-4e
·可重复类目：	在同一个记录(7.9)中能够出现两次以上的数据类目(7.14). 例:在多语言术语条目(3.22)中，有些记录(7.9)的某些类目可以对每一种语言都重复出现。在单语言术语条目(322)中，诸如同义术语、出处、上下文等类目也可以重复出现。
·信息检索：	IR 从存储的数据(3.2)中查找信息(3.1)的行动、方法和过程。注 1本条改自ISO/IEC2382-1 2信息检索可以在交互式处理或批处理中进行
·查询语言：	<信息检家>用户用来检索或者修改存储在数据库(7.5)中数据(3.2)的数据操纵语言。
·截断：	<信息检索>为了搜索或选择而将词形(3.11)变为词段(3.18)的过程。注:截断过程可以自动地进行.或者让用户自行选择。截断的方向可以从左向右，也可以从右向左
·压缩：	<自然语言处理>为了数据处理(3.3)的目的，把词形(3.11)转换为简化形式的操作。注:压缩一般是指去掉发音符号.消除空白(6.11)和各种特殊字符(6-9)以及不管大小写的区别。例如，当把某些拼写变体中立化以便生成索引(5-5)时，就需要使用压缩
·搜索词搜索关键字：	<信息检索>用于提供访问记录(7.9)的字符串(6.13), 注搜索词可以是术语、词、字等(英语中还包括单词或者单词的一部分)
·词干搜索递降分析：	按照预先确定的规则，逐次去掉字符串(6.13)中的字符(6.1)，使用自动生成的搜索词(8.5)随意提问的过程。注:根据不同语言中构词方式的不同，其顺序可以从右到左，也可以从左到右
·搜索：	<信息检索>自动地检查数据(3.2)的集合，以匹配(8.8)或抽取(8-9)具有给定特性的元素例:在姓名的集合中查出所有以J开头的姓名。
·匹配：	<信息检索>通过比较来确定不同的数据(3.2)集之间项的同一性，以便选择或分离具有同一性的项。
·抽取：	<信息检索>从一组项中，选择并取出某些符合预先确定的性质的项。
·加权：	<信息检索>根据搜索响应对于相应的搜索提问的相关程度的不同，给它们指派不同权值。
·读：	从救据媒体(7.1)获取擞据(3.2)，并保持数据不变。注:本条改自ISO2382-6,
·写：	将数据(3.2)长期或暂时记录在数据媒体(7.1)上。注:本条改自ISO2382-6.
·拷贝复写：	将数据(3.2)从源数据媒体(7.1)读(9.1)出，保持源数据不变，然后写(9-2)到目标数据媒体上。例:将一个文件从硬盘上拷贝到软磁盘上。注:本条改自ISO2382-6.
·分类：	按指定的准则将一些项分离成若干个组，对其加以排列整理的动作。注:本条改自ISO2382-6.
·归并：	将两个以上的具有相同给定顺序的擞据(3.2)的集合中的项合并成具有该顺序的一个更大的集合o 注:本条引自ISO2382-6.
·显示：	在屏幕上对数据(3-2)进行可视的显现。
·屏蔽码掩码：	利用某一字符(6-1)核样(6.14)来控制另一字符(6.1)模样(6.14)中那些要保留或者要删除的部分。例:所有的元音a,e,i,o,u都可用表示元音类别的字符V来替换。注:本条改自ISO2382-6,
·转换：	将数据(3-2)的表示从一种形式改变成另一种形式，而不改变数据所负载的信息(3-1)内容例:代码转换模拟数字转换媒体转换注:本条引自ISO2382-6
·转写：	<自然语言处理>用一种字母表(6.3)中的字符(6.1)表示另一种字母表(6-3)中的相应字符。注:ISO2382-6中有适合信息处理的定义
·数据验证：	用于确定数据在形式上是否准确、完备、合理的过程。注本条改自GB/T5271.8,
·重复条目检查：	确定数据条目是否重复存储过的数据验证(10.1)0 注:有时允许重复条目是有益的.例如，当一个术语可用于不同的专业领域时，可允许重复条目存在.
·-致性检查：	确定彼此依赖的条目是否遵守预先确定的条件的数据验证(10.1), 例:交叉引用的检查。
·拼写检奎：	确定所有的词是否遵守预先确定的拼写规则的数据验证(10-1). 注ISO/IEC2382-23在信息处理中，定义了文本编辑中上下文的拼写检查器
·完备性检变：	确定所要求的数据是否都出现的数据验证(10.1), 注 1本条改自GB/T5271.8 2数据必须在强制的数据字段(?.12)内出现
·格式检查：	确定数据(3-2)是否符合于指定格式(7-2)的数据验证(10.1). 注:本条改自GB/T5271.8,
·合理性检查：	确定数据(3-2)是否符合于特定准则的数据验证(10.1)0 注:本条改自GB/T5271.8,
·批处理：	数据(3.2)的处理或者作业的完成都以事先累积起来的方式进行，在工作过程中不再接受用户的进一步影响。
·交互式处理：	在用户和计算机系统之间的以对话方式进行的一系列输入和响应的操作。
·数据保护：	实施一套合适的管理、技术或物理等手段，以防止有意地或偶然地泄漏、修改或破坏数据(3.2)a 注:本条引自ISO/IEC2382-1,
·更新：	数据(3-2)的添加、删除或修改。注:本条改自ISO2382-4.
·文件维护：	更新(n.4)或重组文件的活动。注:本条引自ISO2382-4,
·可移植性：	<计算机程序设计>同一程序在不同类型的数据处理系统中不必转换成另外的程序语言.或不必修改或者只作很少的修改就能执行的能力。注:本条改自ISO/IEC2382-1,
·兼容性：	功能部件不做可感觉到的修改而满足不同接口要求的能力。注:本条引自ISO/IEC2382-1.
·用户终端：	在一个系统或通信网络中，使用户能够与计算机进行通信的功能部件。注:本条改自ISO/IEC2382-1.
·选单：	数据处理系统显示(9.6)的项目表，用户从此表中能够选择将要进行的行动。注:本条引自ISO八EC2382-1.
·数据通信：	根据数据传输(11.11)协议和数据交换的协调规定，在功能单元之间进行的数据(3.2)传送注:本条引自ISO/IEC2382-9.
·数据传输：	通过通信设施，从一个点到另一个或多个点的数据(3.2)传送。注本条引自ISO/IEC2382-9.
·文件传送：	通过电子手段，一个或多个文件从一个数据处理系统到其他的数据处理系统的转移。
·上载：	把程序或数据(3-2)从相连的计算机或数据媒体(7.1)转出到另外的计算机中。
·下载：	把程序或数据(3.2)从相连计算机转入到另外的计算机或数据媒体(7-1)中。
·计算机辅助机助：	借助计算机完成人的部分工作的有关技术或过程。例:计算机辅助术语工作，计算机辅助翻译，计算机辅助辞书编纂。
·文本处理语词处理：	对文本(3-6)进行的擞据处理(3-3)操作。注 1本条改自ISO/IEC2382-23, 2典型的操作有输入、编辑、分类、归并、检索、存储、显示或打印等
·文本编辑编辑：	目的在于操纵文本(3.6)的文本处理。注 1本条改自ISO八EC2382-23, 2典型的操纵包括重排、改变、添加、删除和格式化等。
·醒目显示：	通过改变文本(3.6)中所强调部分的可视属性，使其显示(9-6)更加醒目。
·开窗口：	显示屏幕分成两个或多个界线清楚的区域，使得不同的文本或图形能够同时显示，共同地或分别地操作。注ISO/TEC2382-23中“文本处理一上下文”中有定义
·浏览：	在显示屏幕上快速地查看一批文档或文件(7.10)中的某些记录(7.9)0 注:ISO/IEC2382-23中“文本处理一上下文”中有定义。