访问、查找/检索(例如信息系统、个人文件夹) 理解信息资源(例如分类体系) 完成某项任务(例如文章的大纲) 资源的再利用(例如课程资料) 4、信息 As-process过程 As-konwledge知识 As-thing物品
5、为什么信息可以组织?
传达信息的物件,例如数据或文档(文献),其有灌输知识或交流信息的作用。 6、信息组织的对象
信息资源——一切记录形式存在的信息载体(P3)
按基本类型,包括:书籍、报纸、论文、网页、视频、音频、图片、博客等各种类型;
按媒体的形式,包括:印刷型资源、电子资源等;
7、信息组织:指根据使用的需要,依据主题内容或(外部)特征,对信息资源进行选择、处理、序化,并以适用的方式加以提供的活动。
8、信息组织的层次
直接以信息资源存在单元为处理对象,如,以图书、期刊、网站等为处理单元;
以期刊、报刊、网站中的个体,如论文、新闻、网站中的构成单元如网页等为处理单元;直接以其中的信息成分作为处理的单元; 9、信息检索场景
人(用户)认识到,她/他在解决问题或达成目标时,缺乏某些知识(user)
为解决这个问题,用户需要借助外界知识资源 用户与知识资源通过某些中介来进行交互
用户、知识资源、中介、以及他们的交互过程,就构成了信息检索系统,简称为“信息系统” 10、信息系统的类型
按信息组织方式的不同,分为:目录、索引、数据库、网络搜索引擎 11、目录
常见目录的类型:卡片目录、联机目录、网页分类目录、商品目录 目录一般包括:所有资源的列表、每个资源的描述 12、目录和索引的区别
目录——以各种类型的信息资源(文献)单元为对象,对其进行揭示、报道的工具。
索引——以信息资源或信息资源集合中包括的信息内容为其揭示单
元的工具。
13、信息检索:系统从信息资源(文献)集合中,检索出与用户需求相关的信息对象的过程。什么是相关性:用户或系统对信息资源与用户需求之间匹配程度的一种判断。 14、检准率(准确率)
检准率——指通过检索系统检出的与某一检索提问相关的文献数与检出文献总数之比:
检准率= 检出相关文献数/ 检出文献总数* 100% 检全率(召回率)
检全率——指通过检索系统检出的与某一检索提问相关的文献数与检索系统中与该提问相关文献总数之比。
检全率= 检出相关文献量/ 系统相关文献总量* 100% 15、标识特征
文献的外部特征,包括:责任者名、文献名、机构名、出版地、出版社、标准书号、专利号、档案号、文献登录号、及引文等。 主题内容途径,包括:分类法和主题法。使用这类途径检索,不必预先了解文献特征,可直接从主题内容入手进行查找。 16、词汇控制
控制语言,是根据信息资源组织和检索的需要制定的信息标识选择和组织的规范。包括:资源描述语言,如图书馆的编目规则,元数据规范等;
检索语言,或知识组织系统(KOS),如分类法、主题法等。
17、为什么要进行词汇控制?
词汇与概念不一一对应——一词多义、一义多词及词义含糊现象。 同义词:自行车、脚踏车、单车 多义词:苹果(公司)、苹果(水果)
缺乏明确的结构——自然语言词汇之间的关系的多元性和不确定性,不符合检索系统的使用要求; 词汇量过大——一些词无价值。
18、信息组织原则:文献保证原则、用户保证原则、与设备条件相适应。
文献保证:根据信息资源类型、数量等因素进行控制。 资源类型:
图书的描述规范、网络视频资源的描述规范 图书分类、导航网站分类、视频网站分类 资源数量:
国家图书馆联机目录 二教书法作品数据库
用户保证:根据用户需要进行描述控制和词汇控制
符合目标用户的基本特征(年龄、职业、受教育程度等等) 符合用户的检索习惯(电商用户vs 图书馆用户) 与设备条件相适应: 手工vs 计算机检索 显示屏幕大小
笔记本电脑vs平板vs手机 网络连接的速度 视频、图片的显示
19、信息描述:亦称信息资源描述,指根据信息组织和检索的需要,对信息资源的形式特征和内容进行分析、选择、记录的活动。 20、信息描述的作用
识别。记录信息资源对象的各种基本特征,包括信息资源的题名、责任者、形式、状况等,帮助用户识别资源。 定位。确定资源的位置,以便可以供访问使用。
检索。提供检索点,方便检索利用。传统系统一般需要确定检索点,组织相应的检索系统;在电子检索系统中,描述数据从理论上说都可以用来检索。
选择。通过对信息对象特征的记录,供用户判断信息资源的使用价值。
管理。供管理使用。 21、元数据
元数据——关于数据的数据,或关于数据的结构化的数据,是信息描述的结果。
元数据通常是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名、版本、出版数据、相关说明,包括检索点等)
用于组织、描述、检索、保存、管理信息和知识资源
22、元数据的作用 确定/定位资源 描述资源 管理和保存资源
为资源提供检索点/入口点 给资源带来附加价值 提供与资源相关的资源 不同系统之间的数据交换 知识产权保护
23、FRBR书目记录功能需求 定义了基本用户任务
提出书目记录的新概念模型(基于E-R模型) 提出书目记录的基本功能需求
24、FRBR实体:作品、内容表达、载体表达、副本 25、类——指一组具有某一共同属性的事物对象的集合。
分类——指根据事物的属性进行区分和类聚,并按照其相互关系进行组织的活动。 包括两个基本方面:
其一,根据事物的属性区分或分组;
其二,是按照事物集合的关系确定类目的位置,并进一步按照其相同点和相异点区分和组织。 26、分类法
分类法——指根据类目之间关系组织起来的,并配有一定标记符号的类分信息资源的工具。 27、分类法的作用
进行资源组织——图书分类排架、视频分栏目浏览 编制分类检索工具——按类目进行检索、浏览 分类统计 投放广告
28、信息资源分类
信息资源分类——根据信息资源的内容属性和其他特征,将各种类型的信息资源分门别类地、系统地组织和揭示的方法。 信息资源分类特征:
是按照内容特征的相互关系加以组织的。 从一定的角度出发组织和揭示信息资源的。 以一定标记符号作为排序工具。
通过类目索引提供从字顺角度查找类目的途径。 29、分类规则
唯一性:在每一次划分时,只使用一个划分标准。
完整性:划分后所得各子类的外延之和应等于其母类的外延。 科学性:要选择事物本质的、符合分类目的的属性作为划分标准。 30、可作为分类标准的事物属性 科学分类及分支 研究对象
研究对象的问题 研究方法
学派、学说、观点 学说的构成部分
事物的特征、性能、现象、形态 事物的自然分类、品种 物质结构、成分
事物所处条件、环境、场合 31、类目的排列
同位类排列次序的重要性:
反应客观事物本身发展和联系的排列次序(自然序列)具有科学认识意义。
符合某种具体目的的排列次序(人为序列)具有检索实用意义 对同位类排列的要求 连续性 规律性 稳定性
重要类目的突出性 32、自然序列
按自然界的发展演化进程排列
按社会及各种社会现象的发展过程排列 按概念的系统性排列
按从低级事物到高级事物的次序排列 按物质结构的某种次序排列 按生产流程的次序排列 按习惯次序排列 33、人为序列
从重要事物类目到次要事物类目的排列次序
从有现实意义的事物类目到仅有历史意义的事物类目的排列次序 从有较多文献论述的事物类目到只有很少文献论述的事物类目的排列次序
从抽象的、理论的、一般性问题的类目到具体的、应用的、个别性问题的类目的排列次序34、类目名称及其涵义 类名涵义的理解 受上位类的限定
不仅受上位类的限定,而且也要受下位类的限定 除受上位类的限定外,还要借助于类目注释来明确 与其他有关类目进行对比
同一类目处于非最后一级和处于最后一级时的不同理解 35、分类法的类型:等级列举分类法、分面组配分类法 36、等级列举式分类法
也称为:列举式分类法、枚举式分类法
将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法。
37、特点
类目体系直观,易于把握,便于使用 类目是经过配置的,展开比较系统 标记简明,适合分类排架和组织分类目录 38、分面组配式分类法
一种按照分析-综合原则编制的分类表 分面组配式分类法只在列出各种基本概念 使用时,先分析资源主题
根据主题分析的结果,通过相应分面的组配表达资源主题 39、特点
可通过概念组配,对复合主题进行专指标引
标记具有较强的表达性,便于调整组配次序,进行多元检索 可通过组配表达新出现的复杂主题,与科学的发展保持同步 类表的篇幅较小,便于控制、管理、增补、修订等 40、不足 类表不直观
类目的分布往往不均衡 标引难度较高
标记成分复杂,不适宜用于组织文献 41、分类法结构
分类法组成:类目体系、标记符号、说明与注释、类目索引 42、类目体系
主表:基本部类、基本大类、简表、详表 复分表 43、复分表
复分表——亦称副表、辅助表、共性区分表,指由共性子目构成,供主表有关类目共同使用的表。 复分表体现的是“分面组配”的精神 44、复分表的作用 缩小类表的篇幅。 加强类表的伸缩性。 增强类表的规律性。 45、标记符号
标记符号,亦称分类号,是文献分类法中用于表示类目的代号。 作用:固定类目次序、显示类目之间关系
限制:已有类目的变动受号码约束、类目扩充受号码系统限制 46、标记技术
预留空号法、八分法、双位制、借号法、字母标记法 47、索书号 索书号
用来标记副本在书架上的位置的符号
由一个分类号和一个克特号组成,还有可能包含时间或其他标记。 克特号
用于区分同一类下不同书目的混合号码,按作者、题目,或其他特
征顺序排列 48、信息组织
目的:描述、表示文献(或其他信息资源)、为文献提供检索点 方法:元数据、描述性编目、分类法、词汇控制、主题分析和标引 49、主题法
主题法——直接以表达文献主题的语词作检索标识,以字顺为主要检索途径的标引和检索信息资源的方法。 检索标识:内容主题词语 检索途径:字顺 50、分类法主题法对比
分类法特点:从学科角度集中、系统性
主题法特点:从主题的角度集中、通用性、直接性、专指性 51、主题法的类型
按照是否控制:自然语言主题法、受控主题法 按照组配的先后:为先组式主题法、后组式主题法 按照选词方式:标题法、元词法、叙词法、关键词法 52、受控语言与自然语言
受控语言:指经过词汇控制的标识系统,包括:分类法、标题法、叙词法等。
自然语言:直接使用信息资源用词或检索词为标识的系统,包括:关键词法、自由标引、自然语言文本检索等。 53、标题法的特点与不足
特点:
采用列举式词表,形式直观 定组式标题结构固定,含义明确
按照词表列举的标题和副标题进行标引,操作简便 主要通过以参考方式揭示标题之间的相关性 不足: 收词量大 专指度不足 修订量大
定组式标题,手工系统中不易多元检索 54、叙词法
叙词法——以叙词作为文献主题标识,通过概念组配方式表达文献主题的主题法类型。
叙词——亦称主题词,是经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。 55、叙词法的特点与不足 特点:
概念组配,能准确揭示主题
通过参考系统和索引,对词汇有效控制
多途径检索,可采用灵活组配方式及对词间联系充分揭示检索 同时适用于多种方式,包括:标识单元和文献单元检索方式机检和手检
不足:
词表编制和管理难度大,花费较多人力、物力; 标引在概念分析的基础上进行,标引难度大。 56、先组式与后组式
先组式检索语言——指在标引阶段,复杂主题的标识在系统中就已经按一定方式组配好了的一种标引和检索的语言。包括:标题法;叙词法也可编制先组式检索工具。
后组式检索语言——指检索前,复杂主题的标识在检索系统中是以基本概念的形式独立存在的,实施检索时,才根据检索提问进行组合检索语言。包括:元词法、叙词法。 57、词汇控制的具体内容
词汇选择、词形控制、词义控制、词间关系控制 58、同义控制
目的:控制一义多词现象。选其一为叙词,其余为入口词。 语义同义词。以通用词作叙词。例:太阳能水加热器(叙词)太阳能热水器(入口词)
学名与俗名。以学名为叙词。例:玉米(叙词)包谷(入口词) 不同角度的名称之间。选常用词为叙词。例:上海公报(叙词)中美联合公报(入口词)59、多义控制
指对多义词、同形异义词以及词义含糊的词进行处理,使其具有明确性,单义性。 解决方法:
加限义词。病毒(医学),病毒(计算机) 注释。计算机分析,注:用计算机进行分析
使用参照系统等方法,通过确定词义空间揭示其含义。 60、词间关系控制
叙词之间关系揭示主要通过建立参照系统和编制索引等形式。 参照系统一般揭示三种关系: 等同Use,UF 等级BT,NT 相关RT 61、等同关系
等同关系——亦称用代关系,指叙词和非叙词之间的关系。 作用——集中同一主题文献、增加检索入口、控制专指度。 使用范围——在同义规范基础上进行,应有参照和反参照。
例:“送别”、“赠别”为同义词,送别选为叙词、赠别为入口词。 送别 UF(代) 赠别 赠别
USE(用) 送别 62、等级关系
等级关系——亦称属分关系,指表示上位概念主题词和下位概念主题词之间的一种关系。功能:扩大或缩小检索范围 使用范围:属种关系、整部关系、集合概念与个体概念
哲学 NT(分) 道家 道家 BT(属) 哲学 63、相关关系
亦称类缘关系,是叙词间除等同关系、等级关系之外语义相关的一种关系。
功能:相关查找。
通常在一词“作为标引词与另一词具有较强的揭示作用”时使用。只在正式主题词之间进行,二者作互逆参照。 中国共产党第十八次全国代表大会 UF 十八大 RT中国梦 64、主题检索功能
主题词检索功能。通过输入主题词,输出命中的检索对象,命中篇数,及相关信息。
入口词检索功能。输入与主题词具有用代关系的词,按对应主题词输出检索结果。
第一步:找到入口词对应的叙词 第二步:用叙词进行检索
组配检索功能。结合逻辑组配符,进行组配检索,扩大或缩小检索范围,改进检索效果。综合查找功能。可结合其他描述数据进行综
合查找。
例,北大图书馆联机目录的“复杂检索”可同时结合主题、著者、题名等进行检索。
浏览查找功能。利用预先确定的主题词(如标题词、叙词等)进行浏览查找。 65、查询扩展
同义扩展(入口词检索) 上位扩展 下位扩展 相关扩展 一章
什么是信息组织
信息组织指根据使用的需要,依据主题内容或(外部)特征,对信息资源进行选择、处理、序化,并以适用的方式加以提供的活动 为什么进行信息组织
访问、查找/检索(例如信息系统、个人文件夹) 理解信息资源(例如分类体系) 完成某项任务(例如文章的大纲) 资源的再利用(例如课程资料)
信息描述和组织,可以支持对信息和知识的获取、理解,并可以更智能的利用信息和知识。 信息组织的对象
信息资源——一切记录形式存在的信息载体(P3)
按基本类型,包括:书籍、报纸、论文、网页、视频、音频、图片、博客等各种类型;
按媒体的形式,包括:印刷型资源、电子资源等; 信息组织的层次
直接以信息资源存在单元为处理对象,如,以图书、期刊、网站等为处理单元;
以期刊、报刊、网站中的个体,如论文、新闻、网站中的构成单元如网页等为处理单元;直接以其中的信息成分作为处理的单元; 信息组织的应用
1)组织信息资源:将信息资源本身纳入信息资源集合或文献库,换一定的方式加以组织,包括固定排列与分类排列等。
2)建立信息检索系统:将信息资源处理的结果,如文献记录,组织成相应的检索工具。 数据、信息、知识 信息检索场景
人(用户)认识到,她/他在解决问题或达成目标时,缺乏某些知识(user)
为解决这个问题,用户需要借助外界知识资源 用户与知识资源通过某些中介来进行交互
用户、知识资源、中介、以及他们的交互过程,就构成了信息检索系统,简称为“信息系统”信息系统的组成部分
知识资源(信息资源) 中介(狭义系统) 用户(人) 交互(过程) 信息系统的类型
按信息组织方式的不同,分为:目录、索引、数据库、网络搜索引擎 目录
常见目录的类型:卡片目录、联机目录、网页分类目录、商品目录 目录一般包括:所有资源的列表、每个资源的描述 书目参考书目,领域书目,最新上架书目 索引书后索引,网站索引
数据库按特点分参考数据库和源数据库 目录和索引的区别
目录:以各种类型的信息资源(文献)单元为对象,对其进行揭示、报道的工具。
索引:以信息资源或信息资源集合中包括的信息内容为其揭示单元的工具。
揭示深入到信息资源所包含的构成单元或信息单元
信息检索:系统从信息资源(文献)集合中,检索出与用户需求相关的信息对象的过程。什么是相关性:用户或系统对信息资源与用户需求之间匹配程度的一种判断。
信息检索系统评价
相关性,检全率\\检准率,其他指标
相关性:用户或系统对信息资源与用户需求之间匹配程度的一种判断。
相关性模型:1)信息资源维度(信息资源、信息、标引记录)2)用户维度(真正的需求,认识到的需求,语言描述出来的需求,查询词)3)时间维度 4)其他因素(任务,主题,情景)
检全率:指通过检索系统检出的与某一检索提问相关的文献数与检索系统中与该提问相关文献总数之比。检出相关文献量/系统相关文献总量*100%
检准率:指通过检索系统检出的与某一检索提问相关的文献数与检出文献总数之比。
检出相关文献数/检出文献总数*100% 影响检全率与检准率选择的因素有哪些
1)系统的资源数量2)不同的用户对象3)不同的使用阶段 搜索引擎的一个解决方案:通过排序揭示提高其检准率。 其他评价指标有哪些
1)检索速度:用户实施查找到获得结果所需的时间 2)及时性:收录、提供资源的速度
3)可用性指标:易用性、易学性、界面一致性、容错性 4)用户体验指标:信息系统带给用户的整体使用体验 标识特征
文献的外部特征包括:责任者名、文献名、机构名、出版地、出版社、标准书号、专利号、档案号、文献登录号、及引文等。 主题内容途径包括:分类法和主题法。使用这类途径检索,不必预先了解文献特征,可直接从主题内容入手进行查找。 信息处理的目标
1)识别、确认存在的所有的物理媒介的信息资源 2)确认信息资源或部分中有价值的内容 3)按照一定的标准,规则生产这些资源的描述
4)提供有价值的检索点,至少包括标题,作者和主题等。 信息处理的步骤
1)对信息资源特征进行描述(包括:著录或编写题录。作用:记录信息资源外部特征,确认该资源)
2)对信息资源的内容进行浓缩(包括:编写内容提要或文摘。作用:使用户能迅速了解其内容,供选择使用)
3)提供检索点(包括:著者名、标题名称、出版机构名等,分类号和主题词;机检系统中,文摘和提要中的语词。作用:确定可检信息,供有序化组织) 词汇控制
控制语言,是根据信息资源组织和检索的需要制定的信息标识选择和组织的规范。包括:资源描述语言,如图书馆的编目规则,元数据规范等;
检索语言,或知识组织系统(KOS),如分类法、主题法等。
控制包括:描述控制(信息描述),词汇控制,句法控制(主题法),相关因素控制 为什么要进行词汇控制
词汇与概念不一一对应——一词多义、一义多词及词义含糊现象。 同义词:自行车、脚踏车、单车 多义词:苹果(公司)、苹果(水果)
缺乏明确的结构——自然语言词汇之间的关系的多元性和不确定性,不符合检索系统的使用要求; 词汇量过大——一些词无价值。 词汇控制的目标
1)单义性:即使概念与语词一一对应,一概念只用一语词表达,一语词只表达一个概念
2)准确性:所使用语词应含义明确,具有科学,准确、通用的特点,不允许出现词义含糊现象3)适用性:应适用于检索工具,符合用户使用习惯和文献状况
4)相关性:按使用需要,选择和规定词汇之间的联系,使语词之间建立起严密的语义网络5)兼容性 词汇控制的种类
1)同义控制(同义词)2)词义控制(多义词)3)词间关系控制 同义控制:有控制:以一个词作为规范词,与其他词建立“用代”关系,检索时,只需输入规范词,系统自动对同义词进行扩展检索。同一概念的同义词间用OR链接,概念间用AND连接。无控制:用户
需要自行进行同义扩展
因篇幅问题不能全部显示,请点此查看更多更全内容