关于数据处理,我们总认为CPU执行速度不是关键,但有些提供云端、网站与移动服务的业者不这〧么想,他们正面临з所需处理数据⊿快速暴增的窘境,受制于CPU速度不够而求助于GPU运算й在特定的科学研究领域里面,以GPU协同CPU来强化整体运算能力的应用,越来越常见,然而,过去在商业领域中罕见实际导入使用的例子。

不过,今年的❤情势很不同,Nv∈idia在GTC 2013大会上,正式宣布了几家商用实例,他们是云端┘服务业者和开发移动应用的公司,已经将GPU用在大数据(Big Data)▲的分析与进阶搜寻,而且他们的服务可同时涵盖到消费端与商业应用。

挑战实时分析大量推特ⓔ贴文,CRM业者用PC等级GPU吞下所有数据处理

首先登场的,是以提供CRM⿻软件即服务(SaaS)而闻名的云端服务供货商Sal‖esforce,他们之所以用GPU,是因为旗下的Marketing Cloud服务替客户提供了Social⿱ listening的功能,也就是社交网站监控与分析。▌而使用该服务的用户,目前有Cisco、Dell、Gatorade(开特力)、美国红十字会等。

Salesforce.com在此面临的挑战之一,主要是需处理每天来自T┎witter网站上的使用者新增的5亿篇贴文(tweets▽),这些贴文中包含了不同性质的数据,同时,每天的新贴文数还在不断成长中,而且速度越来越快。

除此之外,Salesforce在本身的主题档案库中,也定义了160万笔以上的搜寻表示式∫(每一笔包含12个关键词),这里的数据也是随着用户数成长而持续增加中。

原本Salesforce所◤用的方法,是在一般的x86 CPU架构下,利用Apache Lucene这套Java链接库,来获得关键词索引与搜寻的布尔运算机制,以及用Twitter worker程序,针对一大批推文来建立索引,并且用它来查询所有的├表示式,但这么做,数据吞吐量低(需同时执行80个多线程的Twitter worker程⿲序,并╤且要赶上Twitter实※时发布公开推文的串流服务Firehors∩e速度),并且会产生很高的延迟(Twitter worⅤker批处理8000笔推文时需5分钟,有时甚至要花上12分钟)。

后来,他们改用新的方法来改善,称之为Zapp,利用可提供高吞吐量的GPU来加速,也就是让关键词比对的控制由CPU执行,而需要大量运算的工作交给GPU☉,大幅缩短了处理的时间,于是计算成本不再随表达式数ι量的增加而呈线性成长。

Salesforc∩e表示,只需要∝两颗ξNvidia GTX∧ 580的G▣▤▥PU,就足以处理尖峰负载时间的所有∨推文,这足以省下大量硬件与人力上的资源。

因应用★户及数据量激增2到3倍,移动App开发商用GPU架构系统达到省钱之道

在今年GTC大会上,另一个实际印证GPU可应用在大数据处理的例子,是知名的App开发商Shazam。

他们的歌曲查询程序Shazam,在Apple App Store和Google Play的移动装置软件市集中,相当受到欢迎,是音乐类应用的前五大之一。

Shazam App的主要功能√是提供歌曲搜寻与辨识的服务,它可以听」用户正在听的音乐,并告⊙知曲目信息。目前在手机与平板计算机下载Shazam的数量,已经超过3亿,而该公司后端拥有的歌曲也在201卍2年时,达到2,700万笔数据。

看起来,使用这项服务的人众多,同时╜所要比对的数据也非常庞大,并且是声纹(acoustic fin∪gerprint)比对,系统要能从数千万首歌曲中,判断能否与用户上Π传的范例音乐相符,困难度可想而知。

社交网站与移动应用普及,导致需分析的数据量暴ↁ增

因应成为IT主流趋势的社交网站与移动应用,这两种风潮下所激增的大量资料不容忽视。像Salesforce每天要分析5亿篇推特贴文,这样的成长是۩☆在3年内发生;Shazam面对的是3亿用户与2,700万首歌曲的数据库,并且只花了☏1年,使用者与歌曲数就成长1倍以上。

另一个该公司要去面对的问题,是新进使用者、搜寻次数与歌曲量都在极速成长——他们每天要应付1千万首歌的搜寻请求,每周有2百万个新用户,而所收录的歌曲总数已翻2倍(2011年是1千万首歌)。

为щ了加速歌曲搜寻与比对过程,以及因应倍增的使用者需求,Shazam决定使用上百颗Nvidia Tesla的GPU,建置低成本‖|的服务器基础设施,因应上述的服务维运规模与成长需求。

Shazam公司的技术长Jason Titus表示,同样花一块钱┑,GPU可γ让他们得以获得″两倍CPU架构系统的效能,并且能达到自身的成±长∪规模▅▆。

 

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)