社会化标注系统评价研究述评
0 引言
人类自古就一直致力于对信息进行记录、整理和分类,从结绳记事到如今的图书馆联机公共检索目录、Yahoo分类目录等,标注的出现更是促进了管理信息方式的改变和进化,正如Wright[1]所言,标记现象是一种认识论的革命,会改变人类的知识形态,将分类活动从过去的学院派中解放出来。而Web2.0的兴起使用户创造内容成为主流,传统的信息管理方式难以应付,以用户创造、管理为特点的社会化标注成为了一个辅助信息架构的重要解决方案。“Folksonomy”一词由Thomas Vander Wal 2004年首次提出,是用户使用自己的词汇描述网络资源机制,随后这种自由性、共享性、用户性的社会化标注得到广泛运用和研究。支持标签的网站开始大量出现,由使用者个体或群体对偏好的网络资源加上标记,形成分布式社会化标注分类系统[2-3];围绕其中核心元素标签、用户和资源以及之间关系的研究也如雨后春笋般出现。目前以传统分类法等构建的信息检索系统具有成熟的评价体系,如查全率、查准率等为指标的Cranfield方法,而对于网络环境下新的信息资源分类方式或系统如社会化标注系统,其评价体系仍然处于探索阶段,评价指标应当考虑哪些因素,评价体系如何构建,本文将整理分析相关研究,期望为社会化标注系统评价体系的构建提出一些对策。
1 关键概念界定
Wikipedia定义社会化标注是指协同创造和管理标签,实现对内容进行标注和归类的方法与实践,学者们将社会化标注描述为用户、资源和标签之间的连接关系,用户综合行为建立的关系网络,平面化、无等级结构的信息资源组织模式。单个用户对互联网资源的标记或标注行为形成标签,其本质是关于资源的元数据,众多用户的标记或标注行为形成了描述资源特性的元数据集合,从分类的角度,这种元数据集合即是社会化标注系统,以用户、资源、标签为核心要素的分布式标注系统。
设定嫩化方式为醋渍嫩化,干制方式为油炸,油炸温度为130 ℃,油炸时间为2 min,以感官评价为指标,对牛肉的腌制时间12,18,24 h进行比较研究,分析其对成品质量的影响,结果见表3。
2 国内社会化标注系统评价研究综述
史密斯[4]从体验回报(用户从标记所得)和投资回报(组织从应用标记当中的所得)两个角度展示了标记的价值所在。体验回报即使用标记的5个动机:易用性,标记很简单、灵活、可扩展、可聚合;投资回报即商业上的7个益处:辅助协同工作,获取描述性元数据,增加可寻性,增加用户参与,识别模式,强化现有分类成果,激发创新。同时提出并非所有的应用、内部网或Web站点都适合使用标记,并非每一个用户都想使用标签,标签的含义针对不同情境会变化等观点。我们在利用标签的价值的同时面临较多挑战,如何建立完善的评价体系是当务之急,下面对社会化标注系统评价的相关研究从3个方面梳理。
飞机起落架缓冲系统广泛采用油气式缓冲器[2],主要由外筒、活塞杆、柱塞、油针和密封件等组成。当起落架受到撞击压缩时,气体的作用相当于弹簧,吸收能量;油液通过限流孔使缓冲支柱阻力增大,并摩擦生热消耗能量,使得作用到机体上的载荷减小,同时飞机撞击后很快平稳下来。
2.1 社会化标注系统标签质量评价
标签是社会化标注系统中最为核心的元素,是联系用户和资源的关键,研究着重探索了如何对标签质量进行有效评估,除人工评价方法外,研究在自动评价方法层面进行了多种探索,具体情况如表1所示。李蕾等[5]在综述中指出,目前的标签质量评估研究仅是基于标签本身,缺少对标签应用场合和类型、资源类型、用户动机等方面的相关研究,相对应的公开测试数据集较为缺乏。之后李蕾等[6]从标签类型入手对其质量进行了测评,邀请志愿者在开发的标签质量测评网站上对博文、图书、图片等不同类型的标签进行划分,得到关于标签类型分类用的训练数据集和测试集。章成志等[7]以科学网标签数据作为研究对象,结合标签内容属性与社会化属性,建立标签质量评估数据集,利用有效的标签质量评估维度,发现结合标签的内容属性特征和社会化属性特征,经过参数优化的支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。
表1 社会化标注系统标签质量评价方法
方法名称人工评价自身统计属性依据规范词语主题词比较专家标注结果比较文本内容关键词比较信息检索方式用户、资源、标签三者关系优点准确性高简单方便,大规模实施和验证能够实时控制结果较为客观适应性强,能及时更新应用成本低应用成本低充分考虑各要素的联系,准确性高缺点工作量大,难以实施和大规模的应用用户动机、资源类型等因素未涉及主观标签和垃圾标签难以处理由于主题词表本身缺点,对新生标签评估效用低施行成本较高,难以大规模应用关键词抽取质量决定效果,仅对已有或能够抽取出关键词的资源有用受制于搜索引擎本身的搜索质量和资源覆盖面对这3种资源有较强的依赖性
2.2 社会化标注系统评价
尽管标记现象早已产生,对标签的认识不断变化和加深,逐渐形成社会化标签系统目前还处于新生状态,其检索功能不够完善、检索方法单一等问题,导致用户的检索效率较为低下,窦强等[8]提出从资源的分类方法、增加并完善检索途径、提供统一检索平台、更具个性化的服务4个方面优化检索功能,提高检索效率、检准率等指标。用户既是信息组织者又是信息搜寻者,姜婷婷等[9]基于豆瓣网的实证调查中根据信息行为模式的用户倾向,将用户分为6类,即信息查寻角度中的搜索者、偶遇者和追踪者以及信息浏览角度中的分类浏览者、关联性浏览者、社会性浏览者;同时发现各类用户的差异化特征,如分类浏览者进行较多的标注活动,在查寻过程产生大量标签,关联性浏览者查看资源的数量明显多于搜索者,而访问历史较短的新用户多为偶遇者。袁红等[10]从相对查全率、相对查准率两个指标的角度对社会化标签系统搜寻效率进行了分析,通过对百度搜索引擎,Yahoo!,Directory,豆瓣比较分析发现,社会化标签系统的搜寻效率具有不足但也有优势,相对查全率和相对查准率低于搜索引擎,但与分类目录的相对查全率接近,相对查准率对分类目录高,而且在某些特定的信息需求中优势明显,甚至超过了搜索引擎。
社会化标注系统主要应用在网站社区,包括社交网站如人人网、微博以及各种类型的资源分享网站和社区如百度文库、flickr、优酷,为应用最广的领域,在图书馆、政府机构、企业内联网等领域也有不同程度的应用,目前社会化标注系统的功能主要有词语检索、浏览检索和个性化信息。词语检索包括关键词检索、标签词检索和关键词与标签词联合检索,然而这些检索方式与专业性的学术搜索系统相比,检索过程过于简单,精细化程度不够[8]。浏览检索主要有主题导航、标签导航和其他形式的导航,在检索过程中浏览检索不具有信息检索很强的目的性特点,有很大的随意性和随机性,因此对其检索效果无法苛求和精准评价,简单采用查全率、查准率等指标是不可取的,科学的方法应该是从实用性、新颖性、简洁性等具有社会化标签特性的方面入手评价浏览检索[8]。个性化信息推荐是基于用户的信息使用行为、习惯和特点,向用户推荐能够满足其个性化需求的信息,在推荐时间和地点、推荐内容和推荐模式方面都具有鲜明的用户个性化特征,其内容包括信息资源推荐、标签推荐、相似用户推荐和信息推送。社会化标注系统的个性化服务充分体现了以用户为中心的理念,在积极评价用户的行为和兴趣上具有主动性,最大程度上满足了用户的需求。
2.3 社会化标注系统用户评价
社会化标注系统在不断改进和完善的过程中,用户在使用时对它的评价是非常重要的依据。林鑫等[11]研究了标签使用行为中的用户认知因素,从认知难度和认知风格两个视角展开了调查,结果显示资源特征认知难度的增加会显著降低该特征被标注的可能性,标注上明显的个人倾向则是用户认知风格所致,这些足以说明用户认知对其标签使用行为具有显著影响。胡潜等[12]则发现图书主题会对用户的标签个数及类型分布具有显著影响,而傅青苗[13]基于超网络理论,划分社会化标签系统中用户的活跃度、资源的受关注度、标签的大众化程度,发现用户标注资源时使用的标签与资源的受关注度紧密相关。潘旭伟等[14]发现用户生成标签的一些行为特点,在大众化标签的基础之上,用户经常添加新标签与大众化标签一起对资源进行标注,多个用户个性化标签和一个或少量大众化标签形成全新的资源标签。冯齐[15]从动机、机会、能力3方面对用户标注行为进行了分析,发现用户的标注动机以及能力差异对标注结果会产生明显的影响,如不同标签类别生成过程中用户的标注动机不具有同一性。林鑫等[16]对标签相关性判断方法进行了优化探索,在对已有计算方法的调整基础上,提出一种基于活跃度指数多重迭代的标签相关性判断方法,相比于Top-N策略,其综合效果明显更为优化,如保障准确率超过90%的同时召回率达到79.6%。樊晓琦[17]关注用户活跃度与其标注动机之间的关系,使用信息熵理论展示了在用户标注动机层面由用户活跃度产生的差异化特征。杨淑梅[18]设利用标签技术对推荐系统框架进行了优化设计,提出了基于评判和标签技术的推荐系统设计方案,具体包括系统数据模型设计和实现、服务器端的开发过程、前端界面等内容。现有的研究从用户标注行为的动机、过程、结果等方面,以及用户使用行为的意愿、影响因素等方面做出了许多有益探索。
从上面的论述可以看到,对于社会化标注系统的评价研究总体上是不足的,不论是从系统的要素出发,已有研究主要从“标签”入手,确实对于以标签、资源、用户为主要要素的社会化标注系统以标签为呈现方式展示了其内部各要素之间的关系和联系,不论是研究还是评价都应为重点,但同样应该认识到已有成熟体系如主题词、元数据等之间的区别,已有的指标可能不再适用。又或者从用户要素入手,从行为分析视角抓住用户和系统之间的关系特征,确实很好适应了社会化标签由用户自由构造这一特性,而已有研究是比较少的,而且单单从用户行为各方面进行分析,并未纳入评价体系或者指标化,这对社会化标注系统的长久发展是不利的。
3 结语
从文献调查和分析情况来看,微观上针对社会化标注系统中标签的质量评估探索了多种方法,考虑到了标签自身属性、与关键词和规范词表的关系、标签与用户的关系等内容,但充分考虑用户、资源、标签三者之间的联系才是更为系统和科学、更接近标签生成原理和社会化标签特性的评价方法。宏观上可以看到社会化标注系统强大的功能性,但同时发现检全率、检准率等传统指标的适用性确实不高,从实用性、新颖性、精准性来评价或许更能体现社会化标签的特性。另一方面用户的认知、动机、活跃度等因素影响了用户生成标签到利用的过程,自然地对社会化标注系统的评价中用户层面因素的重要性应当给予充分重视。因此,社会化标注系统来源于用户,则应以用户因素为主体,以传统的可适用指标为辅来构建完善的评价体系。用户要素以参与度、使用满意度、效益、反馈等为中心,系统要素以质量、友好性、性能、完备性等为基础,从而构建针对社会化标签特性的评价体系。
军队院校图书馆具有总部机关宏观把控、各馆资源共建共享、联合开发利用学术资源的优势,利于OA学术资源共享利用模式的建立与利用效率的提高。
参考文献
[1]WRIGHT A.Glut:mastering information through the ages[M].London:Joseph Henry Press,2007.
[2]宣云干.基于潜在语义分析的社会化标注系统标签语义检索研究[D].南京:南京大学,2011.
[3]TRANT J.Studying social tagging and folksonomy:a review and framework[J].Journal of Digital Information,2008(10):91.
[4]史密斯.标签:标记系统设计实践[M].张军,译.北京:机械工业出版社,2012.
[5]李蕾,章成志.社会化标签质量评估研究综述[J].现代图书情报技术,2013(11):22-29.
[6]李蕾,王冕,章成志.区分标签类型的社会化标签质量测评研究[J].图书情报工作,2013(23):11-16.
[7]章成志,李蕾.社会化标签质量自动评估研究[J].现代图书情报技术,2015(10):2-12.
[8]窦强,邰杨芳,贺培风.社会化标注系统的检索功能及其效果评价[J].中华医学图书情报杂志,2014(12):13-17.
[9]姜婷婷,迟宇,史敏珊.社会性标签系统中的信息搜寻——基于豆瓣网的实证调查[J].图书情报工作,2013(21):112-118.
[10]袁红,乔国慧.社会化标签系统的信息搜寻效率研究——基于百度、Yahoo!Directory、豆瓣的比较分析[J].图书情报工作,2014(20):112-119.
[11]林鑫,周知.用户认知对标签使用行为的影响分析——基于电影社会化标注数据的实证分析[J].情报理论与实践,2015(10):85-88.
[12]胡潜,石宇.图书主题对用户标签使用行为影响研究[J].图书情报工作,2016(8):106-112.
[13]傅青苗.基于超网络的社会化标签使用特性[J].经营与管理,2014(4):129-131.
[14]潘旭伟,傅青苗.基于超网络的社会化标注行为[J].系统工程,2015(3):78-83.
[15]冯齐.基于MOA模型的社会化标注行为探索[J].情报杂志,2013(11):137-139,153.
[16]林鑫,周知.基于活跃度指数的标签相关性判断研究[J].图书情报工作,2015(9):97-103.
[17]樊晓琦.基于信息熵的社会化标注动机差异化研究[D].杭州:浙江理工大学,2016.
[18]杨淑梅.推荐系统的交互性研究[D].北京:北京邮电大学,2014.
下一篇:网络叙词表研究与应用综述