一种地方志资源的混合推荐模型∗∗

更新时间:2009-03-28

1 引言

地方志是我国传统文化的重要组成部分,蕴含着丰富的信息资源。近年来,随着国家相关部门将地方志数字化工作提上日程,全国各省份相继建立自己的地方志网站[1],如黑龙江省的中国龙志网、广东省的省情网等。目前,有大量的用户在利用地方志网站进行学习与研究,但是当海量的数据信息呈现在面前时,用户很难从中找到自己感兴趣的内容。在这样的背景下,个性化推荐成为解决方志信息过载问题的有效工具之一。

2017年2月,中央军委装备发展部在党委扩大会上明确提出“降低准入门槛,实现‘武器装备质量管理体系认证’与‘装备承制单位资格审查’两证融合管理,实现‘两证合一’”。即从事武器装备科研生产的单位需要通过的刚性认证,由之前的军品科研生产许可证、保密认证、质量管理体系认证及承制单位资格认证等4项,减少为3项。但由于配套法规制度有待进一步健全,提供认证咨询的市场还较为薄弱,企业按照认证标准运行需要一定周期等诸多因素,短期内对于很多民营企业来说,通过三证审查依然较为困难。

而当下比较主流的推荐技术主要分为四类:协同过滤推荐技术、基于关联规则的推荐方法、基于内容的推荐技术以及混合推荐方法。协同过滤推荐的基本思想是:利用用户的信息来计算用户之间的相似度,然后根据与目标用户相似度较高的用户对产品的评价信息,来预测目标用户对未接触产品的喜好,并根据这种喜好程度向目标用户推荐产品。这种推荐方法能帮助用户发现潜在偏好,但存在新用户没有评价信息无法进行相似推荐和用户评价信息稀疏等问题。基于关联规则的推荐方法,是将数据挖掘领域中的关联规则应用到推荐中,根据用户的历史数据和挖掘规则,向目标用户推荐大部分用户的一个选择。基于关联规则的推荐算法简单,不需要用户的评价信息并且能够挖掘出用户的潜在偏好,但同时也存在新用户推荐问题。基于内容的推荐是对用户已选择的产品进行内容分析,提取出能表现产品特征的关键词,然后根据这些关键词来计算产品之间的相似度,并将相似度高的产品推荐给目标用户。这种推荐方式不依赖于用户对产品的评价,所以不存在冷启动和稀疏性问题,但是这种推荐技术的问题在于:产品的内容特征很难被提取出来,而且也无法对同一推荐集中的产品进行合理的排序[2]。此外,基于内容的推荐算法局限于对用户已选择产品的相似产品的推荐,无法挖掘用户的潜在偏好。针对上述单一推荐技术存在的问题,近年来研究者们提出了混合推荐技术,即将前几种推荐技术结合起来,以应付复杂的用户系统。如郭艳红等人提出的协同过滤系统项目冷启动的混合推荐算法[3],就是将基于内容的推荐算法和协同过滤推荐结合起来以解决项目冷启动问题。但对于地方志资源来说,其内容特征的提取比较困难,基于内容的推荐并不适合。张弛等人提出的基于混合推荐技术的推荐模型[2],是基于协同过滤技术,并引入人口统计信息分析,通过对用户特征信息的聚类来找到目标用户的近邻用户,然后以这些用户作为协同过滤的计算用户集,从而解决新用户推荐及用户评价信息稀疏问题。但是一些比较敏感的用户特征信息较难获取,如用户年龄、职业、籍贯等。

针对单一推荐系统和混合推荐系统各自存在的问题并结合地方志资源本身的特色,本文提出一种混合推荐技术,既可避免对方志内容特征的提取,又能解决新用户推荐和用户评价信息稀疏的问题。

2 混合推荐模型

2.1 混合推荐模型总体设计

本文从充分利用用户已有数据的角度出发,对用户进行分类,针对不同类型的用户采用不同的推荐算法,从而使推荐系统实现个性化、层次化、精准化推荐。

本文提出的混合推荐模型主要由行为记录模块、用户分类模块和用户推荐模块3个功能模块组成。行为记录模块主要负责记录用户注册信息和行为信息:注册信息包括必填信息和选填信息,必填信息主要是用户名和密码,选填信息包括:职业、年龄、籍贯、文化程度等;行为信息包括用户访问的方志及相应的访问次数、观看视频的次数、论坛发帖数等。用户分类模块负责提取并分析用户的行为信息,判断用户对地方志网站的兴趣度,进而对用户进行分类,具体可分为:新用户、一般用户和积极用户。用户推荐模块是整个推荐系统的核心,负责针对不同类型的用户采用不同的推荐算法以提供个性化推荐,具体操作为:(1)如果是新用户而且没有选填信息,则利用TopN算法向用户推荐访问次数最多的方志;如果有选填信息,则通过选填信息找到目标用户的邻近用户,然后基于邻近用户作协同过滤推荐。(2)如果是一般用户,则采用基于方志标签和改进的关联规则推荐。(3)如果是积极用户,则采用基于用户的协同过滤推荐技术。本文提出的混合推荐模型可以用以下分段函数表示:

1.2方法使用GE公司生产的Hispeed双层螺旋CT机,平扫后常规行动脉期、门静脉期和延迟期三期扫描,层厚10mm,螺距1.0,扫描的参数为130m As,120kv,扫描的范围为从膈顶至右肾的下极,非离子型造影剂100ml用高压注射器从肘前静脉注入,速率2.5ml/s,三期扫瞄时间为开始注射造影剂后25s、70s、120s。

 

其中,R代表推荐列表;NLi表示Li篇方志的浏览次数;P表示目标用户对m个方志的浏览情况生成的一个m维列向量;A是一个关联矩阵,其中的每一个元素代表了方志ij的置信度;Ti(x,y)是用户相似度的计算结果。同时将方志标签引入上述表达式,将推荐列表R中方志的标签与目标用户已浏览方志的标签进行比较,根据朝代(D)、省份(P)、主题(S)这三个标签对推荐列表中的方志进行筛选,得出最终的推荐列表。

杠杆指用借到的资金追加投入到现有的项目中的行为,杠杆分为金融杠杆和财务杠杆,金融杠杆是一种金融工具,无论收益还是亏损,都可以乘以一定倍数计算;财务杠杆多用于衡量财物变动率,即一种财务科目发生较小变动时,撬动其它相关财务科目的较大变动。从微观角度研究,杠杆往往是导致债务的重要前驱因素,金融加杠杆促使一国经济增速变快,但潜在债务危机风险较大;去杠杆则可以降低债务风险危机,但容易放缓经济发展速度。

  

图1 地方志资源混合推荐模型

2.2 用户分类模块

在积极加强河道巡查和专项整治力度的同时,江西省水利厅积极协调相关部门推动非法采砂入刑工作。2012年,宁都县、南康市以及南昌市等各地积极推动非法采砂入刑,据统计,全省以非法采矿罪受理非法采砂系列案件6起,涉案人犯56人,均系未经批准在江西省各河道非法采砂销售牟利,造成矿产资源不同程度受损,涉案56名人犯分别被判处七个月至五年零六个月不等的有期徒刑,并处一万至一百万元不等的罚金,同时追缴违法所得一千余万元。对非法采砂从业人员的刑事处罚,极大震慑了非法采砂者的嚣张气焰,使各地非法采砂势头得到有效遏制。

经过上述步骤,系统中每位已注册的用户都得到了分类。为了便于推荐模块对用户类型的判别,需要将用户的类标签存储到数据库中,并根据用户行为状态动态更新。

2.3 用户推荐模块

通江香菇是四川省通江县的特产,优越的地理条件使得通江香菇肉质脆嫩、味道鲜美、营养丰富。本课题组致力于开发一系列的香菇产品,以此扩大四川通江香菇产业链。前期已经利用通江香菇水提液研制了香菇曲奇饼干[4],在此研究基础上将香菇肉研发成香辣香菇风味酱,以达到充分利用香菇、物尽其用的作用。本文以四川通江优质干香菇为原料,添加黄豆酱、花椒、大蒜等辅料研制香辣香菇风味酱,采用单因素及正交试验法对香菇酱配方进行了考察,优选香辣香菇风味酱的最佳配方,为香菇的开发和利用提供了理论和技术支持。

2.3.1 基于方志标签和改进的关联规则推荐

关联规则作为数据挖掘领域一种被广泛研究的模型,是由 Agrawal[5]等人提出,它反映了大量数据中项目集之间的相互关系。目前,许多电商网站都使用关联规则来做推荐。关联规则一般涉及到以下几个定义:

项集:设 I={i1,i2,…,im}是由 m 个项目组成的集合,每个 ik(k= 1,2,3,……,m)称为一个项目,项目的集合I称为项集。

支持度:每条事务T是项集I的子集,所有事务T构成了事务数据库D。对于项集X,设定count(X⊆T)为事务数据库D中包含X事务的数量,则项集 X 的支持度:support(X)= count(X⊆T) /|D|。

传统高校的思想政治教育工作,在互联网信息的冲击下逐渐暴露出一些问题。针对这一问题,学校可运用大数据思维通过对网络信息的处理,开展更为有效的思想政治教育。首先,针对课堂内容不丰富的问题,学校可通过分析将互联网中的热点话题提炼出来,再组织学生对其进行讨论,在讨论的过程中,教师应当把握住教学中的核心价值,对学生做出积极地引导,这样的过程可有效丰富教学内容,并将教学理论与学生的实际生活联系起来;其次,针对教学手段单一的问题,教师可转换教学主体,根据学生的心理需要,举办意识形态研讨会,通过这样的过程让学生更加关注主流意识形态的核心价值,同时通过学生的主动参与,使得教学过程更加具有吸引力。

频繁项集:不小于最小支持度的项集称为频繁项集。

本混合推荐模型最大的特点就是对网站注册用户的利用行为进行跟踪,根据行为信息确定用户类型及推荐算法。该模型的优势为:不仅对不同类型的用户提供个性化推荐,同时根据同一用户所处的不同状态进行动态推荐,并结合地方志网站的特色利用方志标签对推荐列表进行筛选,从而提高推荐质量。地方志资源混合推荐模型总体架构如图1所示。

关联规则:关联规则是形如R:X⇒Y的一个蕴含式,其中 X⊂I,Y⊂I,并且 X∩Y=Ø。 该式表示项集X在某一事务中出现,则导致Y也以某一概率会出现。关联规则有两个衡量标准:支持度和置信度。

目前,主流的关联规则算法有Apriori和FPGrowth。本文采用Apriori算法,但考虑到该算法在生成k项频繁集时随着k的增大计算量会呈指数增长,为了减少计算量提高系统性能,本文只查找到2-项频繁集并生成关联规则;同时为了提高系统推荐的质量,将朝代、省份、主题3个方志标签融入到关联规则的推荐中,使推荐的结果更符合地方志网站的特色。

关联规则的挖掘过程分为两步:(1)生成频繁项集:项集的出现频率不小于最小支持度。(2)由频繁项集产生强关联规则,即规则必须同时满足最小支持度和最小置信度。

用户推荐模块是整个混合推荐模型的核心,主要包括针对新用户采用基于TopN的推荐,针对一般用户采用的基于方志标签和改进的关联规则推荐,以及针对积极用户采用的基于用户的协同过滤推荐。TopN算法指的是从已经存在的数组中,找出最大(或最小)的前n个元素。基于TopN的推荐是根据方志被访问的次数进行方志的热度排序,将访问次数最多的前n个方志推荐给新用户。

置信度:对于关联规则R,置信度是指包含X和Y的事务数与包含X的事务数之比,即confidence(X⇒Y)= support(X⇒Y)/support(X)。

协同过滤技术是目前应用最广泛的推荐技术,它分为基于项目的协同过滤和基于用户的协同过滤两种。在基于用户的协同过滤推荐中,为了对目标用户产生推荐,需要找到与目标用户兴趣最相似的用户。因此,对用户之间相似度的计算,是基于用户协同过滤推荐算法的核心部分。

基于方志标签和改进的关联规则推荐算法描述如下:利用Apriori算法生成形如X⇒Y(X,Y都是1-项频繁集)的关联规则表达式,并用一个m×m的关联规则矩阵A表示,矩阵A中包含了每个方志推出其它m个方志的置信度,即aij表示i⇒j的置信度。目标用户对m个方志的浏览情况生成一个m维的列向量P,如果目标用户浏览了第i个方志,则pi为相应的浏览次数;如果没有浏览,则pi为0;pi越大,表明用户对该方志的偏好程度越大。因此,目标用户的推荐向量R可以由用户的偏好向量P和关联矩阵A计算得到,如公式(2)所示。

 

该公式并不是向量与矩阵的乘法运算,而是pi乘以矩阵A中第i行的每个元素即ai·,这样就给置信度添加了一个权重,使得基于用户偏好程度较大的方志推出的规则的置信度更大,这样的推荐结果更符合用户的偏好。如果pi为0,则矩阵A中对应的那一行元素全为0。然后将所有的置信度按照从大到小的顺序排列并将对应的推荐方志放在推荐向量R中(如果推荐的方志已被该用户浏览则从推荐向量中删除),选出前n个方志作为推荐的备选项,同时将用户已浏览方志的标签如朝代(D)、省份(P)、主题(S)与备选方志的标签进行比较,找出最相似的几篇方志作为最终的推荐结果。

2.3.2 基于用户的协同过滤推荐

(a)I borrowed the book from the library.I can keep the book for a week.

最常用的相似度计算方法有皮尔森相关系数[6]、余弦相似度[7](43)以及 Jaccard 相似系数[8]。皮尔森相关系数主要用来反映两个变量线性相关程度,并且要求两个变量是成对地从正态分布中取得的,因此该相似度计算方法并不太适合。而余弦相似度只能分辨个体在维度之间的差异,无法衡量每个维度数值的差异。比如,用户对内容评分,5分制,X和Y两个用户对两种内容的评分分别为(1,2)和(4,5);使用余弦相似度得出的结果是0.98,两者极为相似;但从评分上看X似乎不喜欢这两个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差。Jaccard系数主要用于计算符号变量或布尔值变量的个体间的相似度,不考虑用户对内容的评分取值,仅关注用户是否对该内容评过分。本文充分考虑地方志数据集的特点,利用 Tanimoto 系数[7](45)来计算用户的相似度,Tanimoto系数也称为广义的Jaccard系数:

 

其中,x和y分别表示两个用户的评分向量(这里的评分由用户浏览方志的次数来代替)。利用公式(2)计算目标用户与其他用户的相似度并找出与目标用户最相似的几个邻近用户,将邻近用户浏览次数最多的方志生成一个推荐列表,同时将用户已浏览方志的标签与推荐方志的标签进行比较,选择与用户已浏览方志最相似的几篇作为最终的推荐结果。相对于余弦相似度,Tanimoto系数对数值大小的差异更加敏感;相对于Jaccard相似系数,它可以处理实数型数据。因此,用Tanimoto系数计算用户相似度,可以提高推荐的准确度。

对用户进行分类,针对分类结果采用相应的推荐算法,从而使整个系统的推荐效果更加精准、全面。对用户分类之前,首先利用行为记录模块采集到的用户行为信息,主要包括用户访问方志的个数、访问方志的次数、观看视频的次数、论坛发帖数,构建用户行为模型,并运用k-邻近算法将用户分为:新用户、一般用户和积极用户。k-邻近算法通过测量不同特征值之间的距离来实现分类,具体步骤如下[4]:(1)计算已知类别数据集中的点与当前点之间的距离;(2)按照距离递增次序排序;(3)选取与当前点距离最小的前k个点;(4)确定这k个点所在类别的出现频率;(5)将这k个点出现频率最高的类别作为当前点的预测分类。对未知类别属性的数据集中的每个点依次执行以上操作。

3 实验设计与分析

3.1 数据描述与处理

实验中所用到的数据来自于项目组开发并搭建的地方志网站(http://lcc.hub.nercel.com/)。其中包含了1000个用户对50篇地方志的访问情况,每个用户访问的方志个数从0—50不等。浏览的方志个数越多,说明该用户对地方志网站的兴趣越大;对每篇方志的浏览次数越多、视频的观看次数和论坛发帖数越多,表明用户对方志的评价越高。首先统计1000个用户中每个用户浏览方志的情况,然后对用户进行分类,分为:新用户、一般用户和积极用户。

3.2 实验设计

为了验证前文提出的混合推荐模型的推荐效果,将1000个用户对50篇方志的浏览数据作为数据集。在此基础上随机抽取10位用户作为推荐的目标用户,他们对50篇方志的浏览情况,其中80%(40篇方志)的浏览数据是已知的,利用其余20%(10篇方志)的浏览数据来测试推荐的准确度。分别对混合推荐技术和单一的协同过滤推荐技术做5组重复实验,比较混合推荐技术和单一推荐技术的推荐效果。

本文通过计算准确率(Precision,Pr)和召回率(Recall,Re)对算法的推荐效果进行评价。假设实验中推荐给目标用户的方志中,用户喜欢的数量为Ntp,不喜欢的为Nfp,用户喜欢而没有推荐的方志数量为Nfn,则准确率和召回率可定义为:

 

两者的取值都在0和1之间,数值越接近1,则准确率和召回率就越高,算法的推荐精度就越高。对每组实验的10名测试用户的准确率和召回率取平均值,测试结果如图2、图3所示。

课程教学资源库的建设是一个持续的、长期的建设工程,随着造船技术、焊接技术的不断更新和发展,更多资源需要开发与更新,课程资源库也需要动态的持续更新。

  

图2 混合推荐和协同过滤推荐的Pr值对比

  

图3 混合推荐和协同过滤推荐的Re值对比

实验结果表明,本文提出的混合推荐模型对地方志资源的推荐效果相较单一的协同过滤推荐,具有更高的准确率和召回率,总体的推荐质量得到了一定程度的提高。

4 结语

针对地方志网站中资源数量庞大致使用户难以获取感兴趣的方志资源的问题,本文基于协同过滤推荐技术,同时结合基于TopN和关联规则的推荐算法,提出一种地方志资源的混合推荐模型,并在本项目搭建的地方志网站中实现了该模型实例的应用,结果证明本文提出的混合推荐模型相较单一的协同过滤技术,在推荐质量上有一定程度的提高。下一步的研究工作包括:设计更合理的关联规则和最小支持度、最小置信度,有效利用挖掘出的规则来提高推荐的准确率,将方志标签更好地融入到混合推荐模型,使推荐系统更符合地方志网站的特色。

参考文献

1 王涛,伞红.地方志全文数据库建设与研究——以湖北省地方志全文数据库为例[J].图书情报知识, 2012(6):87-93.

2 张驰,等.基于混合推荐技术的推荐模型[J].计算机工程,2010(22):248-250.

3 郭艳红,邓贵仕.协同过滤系统项目冷启动的混合推荐算法[J].计算机工程,2008(23):11-13.

4 Harrington P.机器学习实战[M].北京:人民邮电出版社,2013:19.

5 Han J.Data Mining:Concepts and Techniques[M].San Francisco: Morgan Kaufmann Publishers Inc,2005.

6 文俊浩,舒珊.一种改进相似性度量的协同过滤推荐算法[J].计算机科学,2014(5):68-71.

7 (美)Owen S,et al.Mahout实战(图灵程序设计丛书)[M].王斌,等,译.北京:人民邮电出版社,2014:43-46.

8 俞婷婷,等.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017(12):137-142.

 
黄涛,戴淑敏,成二丽
《国家图书馆学刊》 2018年第02期
《国家图书馆学刊》2018年第02期文献
100%安全可靠
7X18小时在线支持
支付宝特邀商家
不成功全额退款