Google (谷歌)中国的博客网志,走近我们的产品、技术和文化

数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)



我们在前面的系列中多次提到马尔可夫链 (Markov
Chain)
,它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到,心血管疾病和它的成因之间的关系是错综复杂的。显然无法用一个链来表示。



我们可以把上述的有向图看成一个网络,它就是贝叶斯网络。其中每个圆圈表示一个状态。状态之间的连线表示它们的因果关系。比如从心血管疾病出发到吸烟的弧线表示心血管疾病可能和吸烟有关。当然,这些关系可以有一个量化的可信度 (belief),用一个概率描述。我们可以通过这样一张网络估计出一个人的心血管疾病的可能性。在网络中每个节点概率的计算,可以用贝叶斯公式来进行,贝叶斯网络因此而得名。由于网络的每个弧有一个可信度,贝叶斯网络也被称作信念网络 (belief networks)。

和马尔可夫链类似,贝叶斯网络中的每个状态值取决于前面有限个状态。不同的是,贝叶斯网络比马尔可夫链灵活,它不受马尔可夫链的链状结构的约束,因此可以更准确地描述事件之间的相关性。可以讲,马尔可夫链是贝叶斯网络的特例,而贝叶斯网络是马尔可夫链的推广。

使用贝叶斯网络必须知道各个状态之间相关的概率。得到这些参数的过程叫做训练。和训练马尔可夫模型一样,训练贝叶斯网络要用一些已知的数据。比如在训练上面的网络,需要知道一些心血管疾病和吸烟、家族病史等有关的情况。相比马尔可夫链,贝叶斯网络的训练比较复杂,从理论上讲,它是一个 NP-complete 问题,也就是说,对于现在的计算机是不可计算的。但是,对于某些应用,这个训练过程可以简化,并在计算上实现。

值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅图华盛顿大学的比尔默 (Jeff Bilmes) 教授完成了一个通用的贝叶斯网络的工具包,提供给对贝叶斯网络有兴趣的研究者。

贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们利用贝叶斯网络,可以找出近义词和相关的词,在 Google 搜索和 Google 广告中都有直接的应用。

固定链接  |  引用此贴的链接  |



Google(谷歌)图片搜索用户界面几处小变化



Google(谷歌)图片搜索用户界面推出几处小变化,同大家分享一下。

省去以往缩略图下的信息,仅留简化的图片标题;在鼠标移动至相应图片上时,才自动显示该图片的分辨率、文件大小、文件格式和引用链接;同时,鼠标掠过时,有一个淡蓝底色出现。不知大家是否喜欢?

标注处为鼠标所在图片

固定链接  |  引用此贴的链接  |



Google 网上论坛 毕业了!



本周 Google 网上论坛中文版和其它十九种语言同时升级,从多年的 beta 测试版终于正式“毕业”!这回 Google 网上论坛添加了不少新功能,使用界面也焕然一新。下面简单介绍一二:

好用、丰富的使用界面
浏览操作比以往清晰简洁得多,现在每个论坛都有一个专有主页,可以自定义外观、选择多样面板色系、上传论坛主图,也能自定字体颜色,由板主决定论坛主页想要出现哪些内容。



自建网页、社区讨论
在 Google 网上论坛内新加了创建网页的功能,您可以在这些网页上发布论坛相关信息,任何成员都可以进行浏览、发帖及添加评论,就像是内嵌了简单易用的博客模块。发表文章时添加图片的功能特别好用,用鼠标轻松移动想要的位置,再点击所需图片大小就搞定了。



最后觉得很值得提提“文件分享”的功能,成员现在可以在论坛中上传、分享文件,如果大家爱拍照,相约都上传图片,论坛几乎也可以当作一个好朋友们共享的网络相册!

试试全新 Google 网上论坛!

固定链接  |  引用此贴的链接  |



Google(谷歌)搜索提示 - .cn 网页搜索新功能



今天,我们在 www.google.cn 上新增了一项网页搜索小功能 - Google(谷歌)搜索提示,给大家介绍一下,希望对大家有帮助。

"搜索提示"的功能就是当您在搜索框中输入关键字的同时,下拉框中就出现以这个关键字开头的热门搜索词。大家用鼠标或键盘选择就行了,这样大家就可以用最少的时间打出符合心意的搜索。让我们来试一试,打一个"水煮",看看我们的提示是不是和你心有灵犀一点通呢?:)



不仅仅是输入汉字,我们的输入框还可以直接输入拼音,再来试一试!



如果您不甚喜欢这个功能,请进入“使用偏好”,在“查询建议”中选择取消这项特性即可。

固定链接  |  引用此贴的链接  |



自己的狗食自己吃





2006 年下旬, 公司老大 Eric 发出一封邮件给所有 Googlers, 宣布我们要带头“吃自己的狗食” — Google 自己将成为 Google 应用服务网站版的第一个企业用户,公司内部的邮件、即时通讯、日历系统将全部移植到这套面向企业的免费应用解决方案上来。



Eric 的道理很明确:只有我们自己深知用户的体验,才能最快最彻底地调整我们的服务以满足用户们的需求;而且我们确信这些产品在市场中是领先的甚至是最好的,那么在自己的使用上,舍我其谁?



于是公司内部的动员立刻开始:IT 部门开始到处张贴有着关于整个“狗食计划”时间表和注意事项的海报,上面最抢眼的就是一只叼着骨头的狗狗,生龙活虎地好像立刻要冲出画面。

邮件和即时通讯最好说。Gmail 自诞生那一天立刻就在公司中广泛应用起来,它对于被众多邮件困扰的 Googlers 来说,实在是个太好的帮手,几个特色的优势让它很有价值

- 可以搜索:本人也在搜索中逐渐放弃了那种以文件夹为管理方式的思维,变成了关键字驱动。以前想想数万封邮件放在那里不分类真是件可怕的事,而现在终于被训练得可以通过两、三个关键字的组合,就从大海里捞针出来,很快捷地找出自己想要的那一封邮件,比用客户端软件组织邮件快多啦! 世界也因此变得扁平。 如果你想了解更多的 Gmail 搜索技巧,请看这里

- 同一主题的回复邮件被串联在一起: Google 强调民主和人人平等,不少事大家往往要在 email 上争个水落石出,re 来 re 去。如果是在其它邮箱或服务内,这会轻易显示成几十封邮件,发大水般让人难以招架, 但在 Gmail 邮箱内,所有与同一主题相关的回复都会被串联在一起。如果你对一件事极感兴趣,可以顺着大家讨论的顺序,象论坛中读帖子一般的一一读下去;如果你不感兴趣,你只要不打开这个主题,所有深入地来回讨论也就都眼不见为净了,而它在你的邮箱内仅占了一行标题位置。

- 捆绑即时通讯功能,不下载软件也可以和同事即时聊天。这个功能相关的产品市场人员早已经介绍过 (http://googlechinablog.com/2006/02/gmail-chat.html),这里想强调的是,在企业内部应用时,因为你的联络人也同样用的都是 Gmail 邮箱,你的通讯录自然就变得非常完整;于是无论你在何时何地上网,所有联系人都可以轻轻一点名字就搭上话。有人说,朋友列表在哪里,即时通讯就该在哪里发生,有点道理不是吗?

到日历这个应用的狗食,大家习惯就需要一点时间了。 日历在大中型企业中被广泛应用,主要是因为它可以有效地协调各方开会的时间、地点、资源等等 – 例如我订了一个会,邀请张三参加,张三的日历上就会出现这个会,这样其他/她人就是早张三这个时间可能无法再参加其它会议了。我作为会议的组织者,更可以轻易地看到总共有多少受邀请人会参加,有多少已经婉拒。

那时日历这个产品才发布不久,如 Google 的许多产品一样,还在不断的 beta 更新发布当中。但可能也正是由于大家咬牙开始习惯它,一些用户交互体验上不舒服的地方在被迅速地纠正。 例如最开始用起来狗食版的日历时,还无法定制每两周重复一次的会议等等,而最近,我们发现一个新的选项已经开始生效,你可以方便地设置是让这个会议每两周或三周、四周重复一次。

目前,除了 Google 应用服务网站版, Google 内部经常被大家一起使用的服务还包括:Docs & Spreadsheet, Picasa 相册网络版 等等,主要都是因为它们方便了同事们集体协作与分享,很符合 Web 2.0 的新趋势。

“自己的狗食自己吃”的传统在 Google(谷歌)公司内也在延续。祝愿它能引领着 Googlers, 永远站在为用户需求把脉的最前列。

哈哈,为这次改版设计的招贴小狗

固定链接  |  引用此贴的链接  |



企业主对 Google 关键字广告的疑问小结



岁末年初,伴随搜索引擎营销的迅速发展,越来越多中小企业紧抓住了这种效果营销带来的机遇,加入到我们的 Google Adwords 项目中来。我们收到很多中小企业对 Google AdWords 关键字广告的询问,这里总结归纳了几个大家最为关心的问题与更多人分享。


问:Google 关键字广告如何决定排名?

答:与单纯基于出价的竞价排名广告不同,Google 关键字广告的排名更关注广告质量,由关键字出价和质量得分两个因素共同决定。即:广告排名 = 最高每次点击费用 X 质量得分。
质量得分由关键字在 Google 上的点击率、广告文字的相关性、关键字效果的历史记录、目标网页质量等一系列相关因素决定。由于这种排名机制同时照顾网民的使用经验,奖励定位准确、相关性强的广告,因此,企业不会像在单纯基 于出价的排名机制中那样始终与首位无缘。广告主可以改进广告及网站质量,从而不必花费很高价格就将广告排序优化。

问:如何有效选择关键字,选择多少关键字合适?
答:分析关键字的最佳地点是企业的网站,广告主可以由此确定与业务和产品线相关的主题和术语;之后可以站在用户的角度考虑他们会用什么字词来搜索广告主的产品和服务; 另外,关键字工具也可以帮助提供一些字词参考。
关键字的数量取决于推广目的的需求以及相应建立的广告系列/广告组。我们建议企业主尽可能多地挑选关键字以扩大曝光机会,但这些关键字必须与自己产品和服务紧密相关,相关性差的关键字不但影响用户体验,也会导致点击率下降和广告费用上升。

问:Google 关键字广告是否可以在海外市场推广?
答: Google 是全球领先的搜索引擎和广告平台,拥有 100 多个国家的域名,支持 100 多种语言的搜索界面,在很多国家是用户使用率排名第一或第二的搜索引擎。借助这样一个覆盖面极广的平台,广告主可以有针对性地将广告投放到尽量多的全球潜在客户面前,并且可以很清楚地看到广告或商品在不同市场的接受程度,这些信息可以供广告主参考以决定今后的市场策略。

问:我们如何跟踪关键字广告的效果?
答:Google AdWords 关键字广告的一大亮点就是以效果为中心,并且提供工具对效果进行跟踪和量化。
Google 帐户提供两个跟踪工具,即转换跟踪和 Google 分析工具。广告主可以将网页内的某一个或几个页面作为目标转换页,例如“联系我们”,“感谢购买或惠顾”或“谢谢您发送邮件”等页面。广告主由此可以看出通过点击某个关键字到底有多少潜在客户到达了目标页面,进而可以计算出每次客户转换的成本。根据每次客户转换对企业的价值,广告主可以计算出每个关键字的投资回报率。有了这些数据,广告主可以对下一步的广告投资做出更加理性的决策。

问:Google 搜索结果页面的左侧和右侧有什么不同?Google 关键字广告为什么不能放在左侧?
答:Google 搜索结果页面左侧是免费的信息自动搜索结果,右侧是赞助商链接,即广告主的点击付费广告。
Google 十分重视搜索用户的体验,因此严格区分自然搜索结果与收费广告,使得信息搜索者能得到高质量的信息内容,而只有对产品和信息抱有关注兴趣和购买意愿的用户才会点击广告。从广告主的利益角度出发,这种方式可以避免广告主为那些只想寻找信息而误点广告的搜索者付出广告费用,这也是 Google 关键字广告高投资回报率的重要基础。

问:Google 关键字广告是否可以以包年包月的方式购买?
答:Google 关键字广告是按照点击付费的广告模式。目前市场上有些非授权代理商声称可以给广告主用包年包月的方式投放广告,并利用欺骗手段让广告主的利益受到损害。事实上,以点击付费的方式正好可以满足客户“清清楚楚,明明白白消费”的诉求。 因此,Google 建议需要通过代理商来投放广告的广告主与我们的正式授权代理商进行合作,以保障自己的利益和得到品质服务。
广告主可以在 www.google.com/dailishang 这个网页核查正式授权代理商的身份。

问:我的网站已经排在了 Google 自然搜索页面的前几名,还有必要做关键字广告吗?

答:用户在 Google 的平台既可能搜寻信息也可能搜寻产品和服务。信息搜寻者通过 Google 左侧的自然搜索页面结果获得信息,而产品和服务搜寻者则通过 Google 右侧的关键字广告来获得商讯。
关键字广告的推广具有特定目的,可以是促进销售和询盘、增加网站流量、建立企业或产品知名度等。关键字广告可以根据不同目的让感兴趣的客户通过点击关键字广告直达企业网站的特定页面,直接促成推广目的的达成。
因此,如果在左侧自然排名的页面内容不是您需要推广的,或不是直接产品和服务的页面,您就需要考虑做右侧的广告来进行针对性强的推广。

问:是否会有恶意点击? 如何避免恶意点击?
答:Google 十分重视关键字广告客户的利益,身为全球搜索关键字广告的领导公司,Google 以强大的技术平台和世界同步的技术质量投入了大量精力和成本,保护广告主帐户免受无效点击的影响。
我们的系统会自动检查广告的每一次点击,查看每次点击的多项数据,包括 IP 地址、点击时间、重复点击次数及其他各种可疑点击模式。通过分析这些因素,最大限度地在潜在的无效点击出现在广告主的帐户报告之前对其进行滤除,避免客户为无效点击付费。过滤过程的每个阶段都应用了各种先进的方法,从而在最大程度上积极主动地检测无效行为。
此外,我们还组建了一个小组,用专门的工具和技术逐个检查无效点击事件。如果我们发现在过去的两个月内曾向广告客户收取了无效点击的费用,我们会在该帐户中退还与无效点击次数相当的信用额。

如需获得更多关于 Google AdWords 关键字广告的信息,请登陆帮助中心查询,或联系离您最近的正式授权代理商

固定链接  |  引用此贴的链接  |



我们的歉意



由于内部技术问题,过去的几天中 Google(谷歌)黑板报无法登录,我们对此深表歉意。Google(谷歌)黑板报的服务现已恢复,感谢大家的耐心期待。未来,我们会以更快的速度、更丰富的内容来更新 Google(谷歌)黑板报。

固定链接  |  引用此贴的链接  |



聪明点、再聪明点——谈谈多维搜索的趋势



一直以来,我们不断地在思索和实践如何实现更加聪明的中文搜索引擎。下面想先从应用和现象层面与大家分享一些我们中国工程研究院网页搜索团队的发现和实践方向。简而言之,我们现在正在努力的就是做聪明的中文搜索、多维整合的中文搜索。

民以食为天,从“吃”谈起

“聚会去哪吃??”
一个对任何人而言都再普通不过的问题,但是要想让机器来回答它,现有的一维信息结构是不能实现。那么,要提供满意的结果,至少应该整合比如:
- 地理信息:在哪聚?
- 时间信息:什么时间聚?
……
简单的结论就是,大多问题即便是那些对人类超级简单的问题,也是由多维度的整合需求构成的。所以,对于机器而言,要使它能够聪明的想用户所想,就必须超越目前一维搜索引擎,一个“活”搜索需要朝多维整合的方向发展。


跨越时间和地域限制

举个刚刚过去不久的例子,亚运会期间(事实上这是一个时间维度),一个中国/亚洲用户(地理维度)键入“多哈(地理维度)”,我们应该能够理解现在是亚运会期间,对于中国/亚洲用户而言:多哈=亚运会,这样我们应该能自动整合最新的亚运会资讯、多哈旅游等多方面的信息。如下图,这是我们刚刚推出不久的热点信息整合功能:





跨越媒体限制
从文字到语音、图像、三维,如今的媒体多样化形式使搜索引擎也面临着信息整合的挑战。Google Video,Google 地图就是整合媒体形式的很好说明。通过 Google 的服务丰富搜索信息的内容及形式。



气象信息、图片信息整合:Google Earth


跨越渠道限制
传播渠道也是多维整合信息的重要因素。在用户获取信息渠道多样化的今天,搜索引擎的接入渠道、信息来源的渠道也应当相应地多样化、立体化,以满足用户随时随地获取多样信息的需求。Google(谷歌)移动搜索就是这样的尝试。Google(谷歌)图书搜索到使得大量经过锤炼的高质量线下书本信息获取过程更加简单、优化。这些是 Google(谷歌)发展中非常战略的领域。



多维搜索必须将以上因素都有机整合,将搜索转变成为一个完整统一的过程。我们中国团队在这方面已经展开实践,但仍然面临着海量数据和人工智能的挑战,这两方面的技术问题还没有完全解决,希望我们的团队能在这方面为中国乃至全球搜索技术的发展做出贡献。

固定链接  |  引用此贴的链接  |



Google Analytics(分析)产品使用技巧(一)





Google Analytics(分析)是一款免费的 Web 分析产品,根据它提供的丰富详尽的图表式报告,网站管理员与营销人员可以更好地了解并影响访问者的行为,从而提高营销活动的投资回报率。自去年 8 月 15 日以来,无需邀请函,您即可直接注册成为 Google Analytics(分析)的用户。从我们收到的众多来信中,关于“如何理解和运用 Google Analytics(分析)报告”,是大家都很关注的一个问题。这里我们先以其中的四份报告为例,介绍“网站管理员”可以如何使用这些报告优化自己的网站内容、提高用户访问体验。

1、“渠道可视化”与“最常访问内容”报告

“渠道可视化”报告描述访问者通过渠道到达目标页的情况。大多数的网站都会有一个或多个希望访问者能到达的目标,比如说“注册成功”页面代表已经成功地将一个访问者转化成为会员。因此“注册成功”页面可以作为一个目标页。

而渠道是指您心目中定义的“访问者到达该目标的步骤”,例如下图所示,要达到“完成订单”目标页,访问者需要经过的步骤是:浏览产品类别—浏览产品—使用购物车—完成订单。因此这整个流程即可设定为一个渠道,渠道的终点一定是您定义的某个目标。


渠道可视化报告

上图所示的渠道可视化报告可以帮网站管理员回答下列问题 :
• 访问者在哪一点放弃了渠道?
• 是不是网站设计元素或特定的页面让访问者离开了网站?
• 哪些网站路径可以促成最多的转换?

“渠道可视化”报告能够帮助管理员了解渠道中的薄弱环节,而“最常访问内容”可以提供如何消除这些环节的线索。

下图所示的“最常访问内容”报告可以回答以下几个问题:
• 访问者最常去哪些网页?
• 他们在每个页面待多久?
• 哪个页面带来的收入最大?



最常访问内容

尝试着将“最常访问内容”中质量得分排名靠前的网页融入到渠道中的薄弱环节,可以协助管理员优化网站结构和内容,让更多的访问者能顺利的到达网站的目标页。

2、“访问深度”和“访问时长”报告

无论对什么类型的网站,访问者的访问深度和访问时长都是两个重要的考察指标。如果访问者只访问了网站的一个页面即离开,将意味着一种机会的丧失。相反,访问者的访问时间越长,即意味着该网站提供给他的有用的信息越多,因此您的网站对访问者将更有价值,他更有可能将您的网站加入他的收藏夹成为回访者甚至客户。下图所示是在选定时间范围内,网站的访问深度和访问时长报告。



访问深度报告


访问时长报告

管理员通常需要对比不同的时间段内,这两个指标的变化趋势。例如 9 月 1 日您的网站刚进行了一次优化,结果从报告上看 9 月 1 日之后的一个月内,访问深度和访问时长呈增长趋势,则证明这是一次有成效的网站优化。

又例如您的网站首页上刚添加了一篇新的文章,而报告显示之后的两周访问时长有向上的趋势,恭喜您,说明您的这篇文章对访问者来说很有价值,他们在您的网站上愿意停留的时间更长了。

所有的网站分析工具都有一个很重要的功能:让网站管理员了解在自己网站上所做的每个改动带来的改变趋势是什么?不仅仅是访问深度和访问时长两个指标,使用者还可以找到适合自己的评价指标,Google Analytics(分析)可以告诉您每次内容改进后,指标的变化趋势。

3、结论
Google Analytics(分析)给网站管理员提供了这样一个途径:了解目前网站的状态,知道可以改进的方向。下面要做的事情就是每次只对网站作一次改动,并且给 Google Analytics(分析)一段时间,它会告诉您这次改动带来的改变是否符合预期。

就像 Google Analytics(分析)的高级经理 Brett Crosby 在 Analytics blog 里提到的:“不论您如何使用 Google Analytics(分析),最重要的是您已经在使用它。”您已经在试图通过对访问者行为的分析来理解您的访问者,并且朝着优化的方向努力。当您越了解访问者并且愿意朝着提升他们访问体验的方向努力时,也意味着您正走在一条通往拥有更多忠实访问者和提高您的投资回报率的康庄大道上。

固定链接  |  引用此贴的链接  |



新年快乐!





Happy 2007!

固定链接  |  引用此贴的链接  |



数学之美 系列十八 - 矩阵运算和文本处理中的分类问题



我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直到后来长期做自然语言处理的研究,我才发现数学家们提出那些矩阵的概念和算法,是有实际应用的意义的。

在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过矩阵运算来圆满地、同时解决。为了说明如何用矩阵这个工具类解决这两个问题的,让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法

分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法非常好。但是计算时间特别长。通常,我们要处理的文章的数量都很大,至少在百万篇以上,二次回标有非常长,比如说有五十万个词(包括人名地名产品名称等等)。如果想通过对一百万篇文章两篇两篇地成对比较,来找出所有共同主题的文章,就要比较五千亿对文章。现在的计算机一秒钟最多可以比较一千对文章,完成这一百万篇文章相关性比较就需要十五年时间。注意,要真正完成文章的分类还要反复重复上述计算。

在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD)。现在让我们来看看奇异值分解是怎么回事。首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文章,每一列对应一个词。



在上面的图中,M=1,000,000,N=500,000。第 i 行,第 j 列的元素,是字典中第 j 个词在第 i 篇文章中出现的加权词频(比如,TF/IDF)。读者可能已经注意到了,这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。

奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。比如把上面的例子中的矩阵分解成一个一百万乘以一百的矩阵X,一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这三个矩阵的元素总数加起来也不过1.5亿,仅仅是原来的三千分之一。相应的存储量和计算量都会小三个数量级以上。



三个矩阵有非常清楚的物理含义。第一个矩阵X中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说相关性),数值越大越相关。最后一个矩阵Y中的每一列表示同一主题一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章雷之间的相关性。因此,我们只要对关联矩阵A进行一次奇异值分解,w 我们就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。

现在剩下的唯一问题,就是如何用计算机进行奇异值分解。这时,线性代数中的许多概念,比如矩阵的特征值等等,以及数值分析的各种算法就统统用上了。在很长时间内,奇异值分解都无法并行处理。(虽然 Google 早就有了MapReduce 等并行计算的工具,但是由于奇异值分解很难拆成不相关子运算,即使在 Google 内部以前也无法利用并行计算的优势来分解矩阵。)最近,Google 中国的张智威博士和几个中国的工程师及实习生已经实现了奇异值分解的并行算法,我认为这是 Google 中国对世界的一个贡献。

固定链接  |  引用此贴的链接  |



Copyright © 2007 Google Inc. All rights reserved.
Privacy Policy - Terms of Service