淘宝UED团队2009年时对Tag与Tagging的研究

写在开头,此文应该成于2009年,目前已经2014年,经过各大网站(新浪博客,豆瓣,知乎等)的影响,用户对于标签,已经不陌生了。但里面所提到的用户行为,特别就我国的互联网用户而言,仍然具有借鉴意义。另外本文也可以简单做为博客的范文,作者的分析手法(当然,如果作者在列观点时能有确切的数据支撑会更好)。特别是作者提的7个维度,为本文增光不少。



Tag,直译标签,是一种由用户自定义的、用于描述信息的关键词


Tagging是 用户为信息赋予Tag的行为。

Delicious,Flikr等Web2.0网站的发展促进了它的流行,使之成为社会化书签、相册服务、博客等网站的常见 功能。但Tagging对用户来说是一种脑力负担不轻的行为:要将信息分类尚属不易,勿论描述信息。对一条信息而言,应该Tag类目还是属性?范畴应该更 宽还是更窄?Tag越多越好、还是控制在一定数量内?尤其困难的是,由于并非事前规划,无法很好预计被Tag内容的发展,入门、维护并不轻松。但从目前网络发展形势而言——个人自生成内容(博文、图片、视频等)迅速增加,各类信息海量涌来——Tag可谓信息管理的强大利器。此文以文献整理回顾的方式,分别论述:

1. Tagging的利与弊;

2.Tagging系统及其UI设计


1. Tagging的利与弊

1-1. Tag与Tagging

Tag作为元数据(metadata):元数据是所谓描述数据/信息的数据,Tag则是一种用户自创的元数据,特点是无层次结构、自定义。

Tagging构成分众分类法(folksonomy):分众分类法,指大众自发利用Tag对信息进行描述、分类,构成与信息架构中传统分类法(taxonomy)相对的信息组织。二者的区别见下表1:



1-2. Tagging的利

结合表1的对比,可归纳出Tagging的以下好处:

使信息组织更经济、高效、灵活。

如《未来是湿的》作者所言,“只有所有人能把所有信息都分类”。当信息越多,传统分类法的劣势越明显——开发、维护成本只升不降;基于Tagging、运用群众力量的分众分类法则相反。尤其当前的趋势是个人自生成信息越来越多,系统的分类、描述能力和效率可说远不如内容创造者本身。

对信息的索引、描述更丰富。

(1)Tag固然不如传统分类法中的控制词表(thesaurus)那么严谨标准,但由于信息可被无穷多人赋予无穷多Tag,故茫茫网海中只要有一 个人跟你想到的描述一样,搜索就更有机会有所获。而要恰好用上专家词表内的专业化语词,难度可能更高。对于图像、视频、音频此类系统标注成本极高、效率极 低的信息而言,Tagging的价值会更明显。

(2)用于描述某信息的所有Tag往往是公开共享的,其分布往往呈图1所示长尾状收敛(Shirky, C. 2005)。各Tag及其频率,既可反映大众对于该信息本质广泛一致的定义,又不至于让小众意见(minority opinion)完全被淹没。


图1:两条deli.cio.us书签的Tag频率分布


更人性化的信息检索。

上述两利,最终优化的是搜索:由于对一组系统信息(如个人的博文、Flikr的所有相片、Youtube的所有video)的接入点更多了,用户在信息海洋中找到与之需求匹配的信息的机会也更高。即利用大众的智慧,使搜索在机器化的基础上,更语义化、人性化、社会化。

以上三点是Tagging社会性优势。Golder et al(2006)提出Tag大致在描述信息的7方面:它关于什么(主题、分类、属性等),它是什么(标题、类型等),谁拥有它(作者、协作者),修饰Tag的Tag,它的品质(有趣、雷人等),自我参考(我买过的、我的书等),任务管理(待读、找工作等)。该分类并非绝对,但从后三种可看出Tag在标引信息时的一大特点在于自我性。这带来的好处有:

辅助个人信息管理。对个人信息管理而言,Tag可以发挥更大的作用。因其高度自定义性,使信息可被个性化地描述,使个人使用情景(context)成为信息描述的一部分。“很喜欢”、“我想要”、“妈妈生日”这类Tag,是系统较难为用户索引的。

身份识别。如从某博客的标签云/列表,能看出博主的兴趣、甚至职业等个人信息。


图2:某博客的Tag云



Marlow et al (2006)与Ames & Naaman(2007)曾探讨用户Tagging的动机(表2),表现出社会性自我性的结合。


表2:Tagging的动机

这又带来另一种优势:社会化网络的构建。Tag聚物(信息),亦聚人。一方面,它昭示一个人的兴趣爱好,从而帮助个体寻找同好。另一方面,它能聚合 兴趣团体。例如Flikr上一个语法错误、表意模糊的Tag,sometaithurts(so meta it hurts,如此“元级别”,如此痛),却聚集了来自各色用户的各色相片。给照片Tag上sometaithurts的个体,由Tag聚集在一起,彼此间 因此有了进一步社交化的机会,并将为这个Tag聚集更多的物。

1-3. Tagging的弊

Tagging最为人所诟病的特性有:缺乏一致性、歧义、语法错误。这是由于与专家相比:

  • 大众是“懒惰”的:Tagging可能停留在粗浅的表层,而不做深入思考或精准描述。尤其当Tag与系统固有分类维度重合的时候,就会失去价值。例如为豆瓣上的电影打上“电影”这个Tag的意义是零。
  • 大众是“虚伪”的:有人会为了让自己出现在搜索结果更前面等目的而乱Tag;
  • 大众很“笨”:
    拼写问题。除了拼错字词,英文里词组的分隔、大小写、单复数等就会造成大量混乱的Tag;
    没记性。表现为个人在同一系统中使用不一致的Tag(如字面相异,意义相同等)来标注同一或相似内容。

这导致大量污染性的垃圾Tag,即所谓搜索结果中的噪音出现,从而降低检索效率。但这并非Tagging的致命伤,通过设计的引导是可以改善这些问题的。第三部分将展开讨论。

2.Tagging系统,及其UI交互设计

2-1. Tagging系统

网站在添加Tagging功能前,需要考虑若干维度,才能让Tag对网站的信息管理、检索发挥真正的作用,否则只是潮而不实的装饰。

Marlow et al (2006)提出一个Tagging系统模型,包括资源、Tag、用户三部分,它们的关系如图3。


图3:Tagging系统包括资源(信息)、Tag、用户三部分

笔者认为该系统忽略了另一部分:传统的系统分类。并不应该丢弃或将专家的智慧斥之于外,就如亚马逊既有商品的树状分类,以有用户提供的Tag。

与模型一并提出的是该系统应考虑的7个维度(表3)。


维度

种类

对设计的启示

Tagging权 限 • 只能自Tag(Technorati)

• 权限性Tag(Flikr)

• 随意Tag(豆瓣)

决定了资源被描述的丰富度、准确度;

影响用户个人管理Tag的复杂程度

Tagging支持 • 半盲Tag,输入后给与提示(Flikr);

• 输入前展示自己、他人常用Tag(豆瓣)

影响Tag的质量;

用户Tagging时的思维负担

聚合方式 •  囊括式:同一资源可被赋予任何Tag,
并计算重复频率(豆瓣)

•  组式:同一资源不重复Tag,无累计(Flikr)

囊括式反映大众意见;
组式反映平均
资源类型 网页、图片、视频、音乐等 标示资源的难易程度会影响用户所需的Tagging支持
资源来源 • 用户贡献(Flikr);

• 系统提供(Amazon);

• 抓取(豆瓣)

Tagging权限的设置
联通性 •  通过链接;

•  通过群组;

决定用户间的互动程度、资源的可发现性

表3:Tagging系统的维度及设计启示

笔者以为,还需补充的一个维度是,Tagging清理。 对于系统而言,是任由Tag无限泛滥不做任何事情?还是结合传统的机器索引、专家人工干预,适当过滤、聚合,以实现收敛?Gruber (2006)提出通过Tag内在的规范名(Canonical Name)对字面各异、实质相同的Tag进行清理。如通过算法将User Experience, UX, user_experience在系统内部统一为规范名User Experience。无论用户输入的是哪个形式的Tag,系统都将返回所有的结果。

Tagging支持维度还需要虑的一个问题是:系统是否该教育、引导用户打某些维度的Tag?上文提及,当Tag与系统固有分类维度重合的时候,就会失去价值、没有发挥其作用。

不考虑这两点的话,随着Tag几何级数增长时,噪音也会越来越多。对于系统、对于面对这么多“原始”Tag的用户,都很糟糕。

2-2. Tagging系统的UI设计

UI作为Tagging系统与用户的交互层,肩负适当引导用户Tagging行为的重任,是决定Tag质量的关键。

添加Tag:

要引导用户创造更优质的Tag,输入时刻的辅助至为重要。

(1)提供参考。

如罗列个人常用Tag,他人常用高频Tag,可有效减少拼写相异语义重复的Tag,提高Tag之间关联性,并可减轻用户思考负担。

在Delicious上收藏URL时,每输入一个Tag都有Tag池中同首字母的罗列。下方列有个人常用Tag,且优先放置与该资源可能相关的Tag。并有他人常用Tag的罗列。


图4:在delicious上收藏一条URL

(2)批量添加。对于所Tag资源是用户自发贡献时(典型如相片),批量添加Tag的功能能提高效率以及减少二义性。


图5:在Flikr上传时

编辑Tag:

目前常见的编辑操作包括:

(1)删除。

(2)重命名。除了基础的重命名,此功能可延伸为Tag的合并与分拆。合并指,若改为与现有另一Tag重名的Tag,自动将二者下的信息合并。分拆指,将当前Tag进行概念细化成新的若干概念。


图6:在Delicious重命名一个Tag

(3)Tag Tag.较为高级的操作,包括用一个Tag 囊括若干Tag(Tag bundle),对Tag增加描述等。

浏览Tag

目前Tag的展现方式主要有列表与云图两种。列表无重点,云图则降低了较小字号Tag被发现的效率。但无论采取哪种视图,由于标签的增长性较强,数量的增加相应提高寻找成本。从算法的角度,可考虑Montero et al(2006)所提出的语义聚类:根据不同Tags同现的频率将其聚合、相邻放置。从交互的角度,应提供一种或以上排序(按字母、热度)。


图7:Delicious的Tag云页面

总结:

Tag以及Tagging的社会性、自我性,能帮助实现个人化、社会化、情景化搜索,但前提是:

有更成熟的Tagging系统构建。底层技术上,目前对于垃圾Tag的收敛、清理,做得不够,也尚未良好地结合传统分类与大众分类。UI上,尚未实 现有效引导用户去Tag系统已有维度之外、更具附加值的维度。如在豆瓣上打“友情”这个Tag是有价值的,但打“电影”就无甚价值了。)

对大部分人来讲,Tagging的门槛——无论是操作上还是脑力负荷上——仍然较高。如果结合SNS著名设计师Joshua Porter的使用周期论以及产品接纳三阶段来看, 一个Tagger的发展可用下图来表示:


图8:Tagger的进阶

目前大部分人仍处于第一阶段之外,但也许随着Tag的好处被更好地表现,Tagging的易用程度增加,更多的人会进入这个周期。当系统完善了,人更能轻松发挥力量去补足系统了,语义网的实现就将更有可能。

参考文献


草木全
分享到:
共 0 条  此列表为空  当前1/1页

© 2014 究问社区 copyRight 豫ICP备13003319号-1