首页 移动应用 Android

搜索黑科技:华为应用市场搜索技术揭秘

【TechWeb报道】2016年最火的互联网概念当属VR 和人工智能,科技巨头们纷纷亮出自家在智能领域的技术探索,而华为作为一直标榜科技驱动型的公司,内部的黑科技一定数不胜数,笔者今天给大家深剖一个用技术死磕体验的华为应用市场。

据统计,首次从应用市场下载一个应用,超过60%用户会选择搜索。搜索已经成为用户从应用市场下载应用的首要方式。因此搜索结果的好坏,会直接决定了应用市场的用户体验。 华为应用市场采用先进的大数据技术,为每一个访问华为应用市场的用户提供精准的搜索服务,帮助用户从百万级的App库中快速找到感兴趣的应用。黑科技“伏羲搜索引擎”是华为应用市场研发团队同华为诺亚方舟实验室共同研发的一款搜索引擎。伏羲搜索引擎通过搜索、自然语言处理、机器学习、数据挖掘等多项综合技术,为用户提供精准、贴心的搜索内容,满足用户寻找App的需求。

  众里寻他千百度,伏羲一点轻松指路。

伏羲搜索引擎的关键技术可以简单概括为以下关键的四招,凝聚了伏羲的核心技术:

1. 用户意图的理解 为了满足用户的搜索需求,搜索引擎需要准确的理解用户的查询意图。用户的意图主要体现在查询词中。为此,伏羲搜索引擎自研了一系列自然语言处理技术,包括分词、查询词纠错、查询词同义改写等,来分析、理解和扩展用户的查询词。通过对查询词的深入理解,华为应用市场能够精准的把握用户的意图,给用户找到满意的结果。此外,伏羲搜索引擎还考虑了用户的机型、位置等情景特征,来适配最合适的App给用户。

2. 排序学习技术 排序是搜索引擎的核心技术,排序效果的好坏与用户的搜索体验直接相关。伏羲搜索引擎使用自研的排序学习(Learning to Rank)技术,通过机器学习算法训练排序模型,以达到排序效果的最优化。排序学习模型能够综合各种搜索排序的特征,包括用户查询词与App信息的匹配、查询词下App的点击率、App的下载量、App的质量评级等,并借助大量专家标注数据,训练得到最优的排序函数。这样的排序函数能够使得与用户意图高度匹配、高质量、受欢迎的App排在搜索结果的前面,从而使用户更容易的找到所需的App。

3. 基于用户行为的点击模型 华为应用市场每天都有数千万的用户访问量。在完全保证用户隐私的前提下,伏羲搜索引擎通过对海量的用户行为数据进行分析和挖掘,建立了用户行为模型,简称之为点击模型。通过点击模型,伏羲搜索引擎能够更加了解用户的行为和偏好,并将这种知识运用到搜索的排序和效果评估当中。具体的,在搜索排序中,用户行为数据会被作为排序的特征,从而使得更为用户喜欢的结果排在前面;在评估搜索的效果时,用户行为数据被用来衡量不同的排序模型的效果差异,从而为搜索引擎选择最好的排序模型。

4. 泛搜索技术 传统的搜索引擎是基于关键字匹配技术,这种技术在用户的查询词与App的相关信息(例如名字、内容简介)时字面匹配时,较为有效且稳定。但是,在华为应用市场的搜索中,有一部分查询词则相对宽泛,且并不能很好的匹配到某个App的信息,我们称之为“泛搜索”。泛搜索查询词是多种多样的。例如,用户有时并不确切知道App的名字,往往会用对该App的主观印象描述作为查询词。例如搜索“切东西”,用户想找的App很可能是“切水果”类似的游戏。还有些用户,想搜索是具有某种功能或属性的App,比如搜索“找大夫”,用户想找的很可能是医疗相关、能够联系医生的App,例如“好大夫在线”。

为了满足用户泛搜索的需求,伏羲搜索引擎自研了针对泛搜索的识别和匹配技术。首先,对于用户的查询词,伏羲搜索引擎通过自然语言分析以及用户日志挖掘的技术,识别该查询词是否为泛搜索词;对于泛搜索词,伏羲搜索引擎使用了基于语义和标签的匹配技术,来实现泛搜索意义上的语义匹配。

其中,App的标签是泛搜索准确匹配所依赖的基础数据。伏羲搜索引擎通过结合互联网数据挖掘、人工标注和机器学习模型,实现了App的自动化标签机制,能够为华为应用市场中的海量App自动打上标签。

伏羲搜索引擎能够无缝的融合基于关键词的搜索结果和泛搜索结果,从而为用户提供多样化的搜索体验。不管是通过机器学习的关键词精准搜索,还是触类旁通的泛搜索技术,华为为伏羲都做到了内外兼修。日下载量过亿的华为应用市场,达到了专家级的安全之后,在高效、精准的体验上,也比各应用分发厂商做到了绝对领先。

官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

↑扫描二维码

想在手机上看科技资讯和科技八卦吗?

想第一时间看独家爆料和深度报道吗?

请关注TechWeb官方微信公众帐号:

1.用手机扫左侧二维码;

2.在添加朋友里,搜索关注TechWeb。

手机游戏更多