当前位置: 首页 > 互联网+

eBay数据科学家李睿:自然语言处理在eBay的技术实践

发布日期:2019-05-31 17:40:25 编辑:it技术分享网 阅读次数:

摘要:eBayInc。TechLead数据科学家锐近日,关于天马网络的“FMI人工智能与大数据论坛”数据科学家博士。 锐起易趣“NLP(自然语言处理)在eBay的技术实践”为题做分享的主题,主要内容包括应用程序包括:搜索(搜索),分类(分类),命名实体识别(NameEntityRecognition),机器翻译(机器翻译)等。。下面是通过医生的讲话。瑞和Q&A记录,人工智能技术大本营不会改变整理的意图:芮成钢:大家好,今天要大

易趣公司。技术首席科学家瑞数据

近日,关于天马网络的“FMI人工智能与大数据论坛”数据科学家博士。锐起易趣“NLP(自然语言处理)在eBay的技术实践”做了主题股的称号,所涵盖的主要应用包括:搜索(搜索),分类(分类),命名实体识别(命名实体识别),机器翻译(机器翻译)等。

不要改变整理的目的是博士的讲话。瑞和Q&A记录,人工智能技术大本营:

芮成钢:大家好,今天的一些经验与大家一些我在美国工作的分享。?

背景

首先自我介绍一下,我的本科和在浙江大学读研究生,我相信有很多的校友。博士,博士论文,后来到美国留学是用图案识别模式进行分类图片。毕业后,他现在到了工业部门的工程师们,然后毕业了,模式识别很难找到工作,具有完全不同的。逐渐摸索智能视频监控,视频防抖,车牌识别等。

后来,大概在2012年,当大数据的兴起,我发现,模式识别终于有用武之地,所以eBay的数据越大,现在已经有5年以上。在易趣做一些大的分类,该分类可以有很多的自然语言处理技术落后可想而知,所以这是我今天的话题。

简单给大家介绍一下易趣,我认为,我们应该用这个名字并不陌生。事实上,eBay和亚马逊一起,被视为八个美电商之一。它与亚马逊亚马逊最大的区别进口大量的商品,我们仅仅是喜欢淘宝的买家和卖家的平台,提供交流的平台,我们还没有自营店,没有物流。这是1955年,一个叫皮埃尔工程师在家里没事做,做这样一个网页,去卖的第一个项目做他周末的人,是家庭对一个破碎的激光笔,其实很快就有人买,那么超大规模的快速发展。

事实上,在1997年的时候,eBay的想进入中国市场,由于种种原因,易趣自己的位置也存在一些问题,最后后悔没有进入中国市场。

\

但在美国,eBay的仍然是一个比较多的人使用的网站,它有三个大?业务:

市场(类似于淘宝)

电影票销售

分类广告

不仅在美国,eBay的网站,有超过20个国家,每个国家都有自己的语言,这是由技术支持机器翻译支持。目前已拥有超过100万个活跃用户,收入每个季度大概约两十亿美元。eBay的总部设在旧金山湾区,是一家高科技公司在整个海湾地区,较早使用大数据,我们的很多平台在比较同行业的佼佼者。现在说说自然语言处理在eBay上有哪些具体使用情况。

\

在eBay上NLP场景

\

搜索

买东西,在电商,最重要的功能是搜索,并通过自然语言处理作为技术支持搜索。

因为没有结构化的词,词组或搜索一般用户的输入,当它是如何结构,即?因为是整个关键字,如欧洲之间的差异,有人进入iphone橘子,他不是要寻找一个橙色的iPhone,他被称为寻找供应商iphone橙色界。它应该在和周围的关键字之际一起使用,以能够准确地搜索,找到用户想要的东西。

除了搜索根目录分类,在eBay新老产品的好坏可以出售。关键字搜索里面,想购买新的或旧的东西的东西,你怎么知道我是卖新的或旧的,能做到对货物的权利比赛。

此外,还有一些个性化的应用,每个人的搜查的目的是不一样的。比如,我喜欢看电影,从我的历史购买系统,我知道人们喜欢看电影; 另一个人爱读书,所以我对系统的搜索结果应该是在前面的电影地位,对另一人的结果应放置在书的前面。

NER

NER(命名实体识别)是一个非常重要的组成部分,在这里告诉你具体说说。这是eBay的商品的一个简单的例子,它是什么NER的作用?什么目的是什么呢?首先,应尽可能对这个称号的每一个字都分为一类,贴上标签。

例如,新的,它需要被标记为条件; 苹果是一个品牌; iPhone6s是模型; 16GB容量要能知道; AT&T手机处于锁定状态,势必供应商,太空灰的颜色,智能手机类是。

NER传统的做法很简单,每一个字都是一个对象,这个词,其中包含了一些什么样的字母组合多久,以及之前和之后文本,出现在开头或结尾的句子,这是几也就是说,有这些功能后,你可以训练一个分类器,我知道我是在电话上以下几类,我可能会分和7个类别,第一个是非常简单的,使用逻辑回归或线性回归。

后来,神经网络兴起之后,大家载体的话,谷歌做词汇向量的出来,所以,这些载体可以代表他的话,还要重新向量的加法和减法,发现效果一直是一个非常大的增加。当然,这是谷歌自己的词汇向量并不一定适用于电商,那么我们就把他们的商品作为训练数据,训练出了自己的词汇向量性能得到了进一步改善。

后来在过去的几年中,我们已经做了神经网络,我们也觉得有必要尝试看看,神经网络是不是性能会更好,答案是肯定的。我们训练他们的神经网络,性能有了进一步提高。净入学率能够帮助在各个领域的用户体验。就像我在搜索所提到的,还有机器翻译,可以极大地帮助提升用户体验。

有一个可以想见,我觉得淘宝是一样的,其实有很多背后的字典来描述不同的类别。有什么例子的类型,其中知名品牌的IT手机类,苹果,三星,华为,小米,有它?车型层出不穷。这本词典是如何产生的?在词典肯定人在过去的手动输入。然而,手动输入是明确地效率低,容易在某种程度上错误,如何能够将字典内自动添加内容?NER可以在很大程度上帮助。

分类

有一个大的所谓的分类--Classifiers。作为C2C平台的卖家新用户想卖的东西,但不知道在哪个类别来卖,因为易趣在美国16000分类网站,卖吃的,卖日用品,有卖电子产品走廊。每个走廊坏了,楼道里的电话,手机,充电器,保护膜,很细点。对于新卖家,他不知道以下哪些类别的说,如果放错了地方,别人找不到他的东西。我们希望帮助这些用户的C2C,让他们将被放置在货在相应类别。

还有一个,虽然他推荐的系统类别,但有些人可能还是错点,有的干脆一点是故意错。有例子,这是一个很常见的,听说淘宝上也有类似的问题。以下用户的类别搜索iphone手机,我们都希望买到便宜的,它会按价格从低一排分类为高,并发现他们所有的手机壳,这些人想通过这种方式,让其他人可以看到我们必须这样做是为了防止这种情况的发生。我们希望把这些产品找出来,把他们在正确的分类,同时也为卖家警告,惩罚。

到商品分类,分为配件,主机套装。例如,这是一个翻页笔,这是一个麦克风,例如,它是一台电脑,这是一个手机,这就是所谓的产品类别,为什么做这样的事情?例如,刚刚买了一个手机用户,是不是应该建议他买一个壳?购买保护膜?买充电器?这是推荐的个性化,该系统将与大宗商品相关的建议,所以这就是为什么我们做的分类问题。

刚才提到了,我进入一个文学作品,到底是购买书籍或电影光盘,都是一样的。还有就是所谓的评价,我们有最畅销的几百万,几千万的货,这款产品的一个很好的评价并不好,买家我买华为P9或P10它?看评价。有人说,卖家发货速度太慢,或者说,包装是不是很好的卖家,或者卖家的反馈不及时,甚至有人在上面说脏话,这些都不是产品的真实评价。这也是一个分类问题,如何真实评价或评论分开约卖家,甚至是脏话,这是一个分类问题。

我们可以想象一个类似的分类问题有很多,没有他们在这里,我给你的实战招两个例子。谈论推荐类目,刚才提到我们有16000个类别,如果随机推荐,则精度非常低。?

在过去的10年里,易趣一直在持续改进的问题。由于第一个版本是非常简单的,虽然我们已经分发了16000个类别,该类别很不平衡,商品10%是移动电话,移动电话,其实是最畅销的eBay类别之一。有可能是0.0001%出售一些纪念品或类似的,一个分布极不均衡。

当你画一个柱状图为每个类别存在这样的可能性,根据这种可能性将被分配这一类新的产品去真是太傻了正确的?事实上,50%的准确率。后来,我们发现,这种做法实际上是太土了,做了进一步的改进。

这是一种常见的算法,算法是大量使用自然语言处理的。它的原理是当用户进入后卖产品称号,使之成为关键字搜索的标题,使用搜索引擎来寻找产品与同类标题。产品如找到一个五百产品,看看这些产品分类别,符合最高的产品属于,他就认为这个产品应该被列为这一类里面。这是最简单的方法,但效果还是不错的,从50%到73%的准确率。

因为我们的类会经常改变每个季度都会有一些增加或切断,它会适应变化适应性的类别。但它的缺点,那就是,那些谁放货物的错误类别的人,会使精度下降。因此,在2015年的时候我们做了一些改进。

例如,100的相似产品的内部,它属于10个类别,这些10个类别,而不是简单地按照一个多用的类别,但加上使用的逻辑层原本属于这些类别的商品什么商品的类别,即一些规模较大,统计语言模型做的数据量,这是一个重要的NLP技术,统计语言模型。做这些10个方面的典范,重新排序后。这个简单的步骤的方法使准确度从73%提高到81%,这是一个非常简单的算法。

同样,神经网络的兴起,我们认为这一技术将使其成为一个更好的性能。我们做了一些回旋的神经网络,我们相信,一开始主要用于图像特征提取的卷积,同样的想法,也可以适用于文字,做出的效果确实不错后发现,从81%到90 % 准确性。

然而,这种方法也有一个问题,有两个问题:

首先,我们需要大量的宣传样本;

其次,我们的类别,在改变每个季度,他改变了很多,10,8。例如,像现在很流行,孩子们玩的指尖陀螺仪,这个东西增加了一个类别后,如果您使用的旧模式分类进行分类的话,有可能永远无法建议这一类的卖家。

它是根据每个类别,再培训模式转换的经验,我们需要有像KNN相同的自适应功能,这是我多年。有时候,良好的业绩有训练样本的成本复杂,更困难,增加训练时间,训练时间比数天,数周更好。

我的哲学是简单的不能使用复杂,特别是在工业领域更复杂的系统更容易出错,除非有非常大的提高的表现值得你做哪那么。

我刚才提到的,如何分辨它是产品本身,或者是一个配件,它是不是一个西装?例如,我们来看看这三种商品,红色框而出,他们三人有一个共同的关键词 - 奥林巴斯。他们也有另外一个关键是同一型号和镜头。但是,我们发现,价格差了很多,有1099 100余座,999块,为什么?因为第一个被设置,它是身体正透镜,第二透镜本身被。第三是赤裸的身体,很容易想象,完全不同的东西,肯定是有价格上的差异。

我与我们的分类如何走到他们背后,还有能够识别产品本身,或西装,或吞并它?给大家说说如何具体做。

为了一个标题,我把它称为象征性的,这第一个冠军被称为红色皮套iPhone7。后的符号,由于是相应的字典,红不在字典中,我把它放到标记星号,皮革情况下,它被标记为IA,对于结合是等价的,其被替换为4号,iphone 7是一个模型,它也是一个产品,所以请使用P。

一旦你有了这个,我把它作为统计语言模型,说白了,是计算概率,第一个字符是一个星号的概率,第二个字符是A的概率,第三个字符是4的概率四是性格的概率P,做一个统计语言模型后,熟悉的统计语言模型的学生应该知道,这是要考虑的背景下,当前的单词的不只是一个单一的简单的概率还是看看当前符号。

里面有所谓的统计语言模型,就是以前我只关心一个字,该模型的两个词,之前给定的字符是A,下一个字符是4的概率。有人可能会认为,这两个词是不够的,我想这三个字,在明星面前,下一个字的概率为4,这是最简单的模型的概念,统计模型的到来,我们可以训练分类是。

每个人都会想,为什么要这样象征性的步骤中,?许多统计语言模型是文字本身,好的是什么?我有同样的模型可以在手机品类中使用,可以在相机类别,可以在计算机类可用于使用,该结构是相似的,之后象征性的,它会使用相同的模型适用于不同的情况,这也就是说,它的好处。这是统计语言模型的NLP分类的应用。

刚才讲到量词上课前,后面的各种NLP技术来支持,其实我相信类似的目的,也好淘宝,京东也好类似的应用,不同的电力供应商也应该有类似的应用,它不仅是对电力供应商,这些分类可以扩展到其他领域。例如,在电子支付或银行信贷这些,还有所谓的防欺诈。诈骗其实就是一个简单的分类问题,您的用户的行为是正常行为或异常行为。

机械翻译

机器翻译也可以在非电力供应商,如新华社用于满足前段时间一个朋友,他说,新华社也有类似的,你应该等国家稿件翻译成中国。其实这些年来,所有的语言处理,文字处理的背后,其实是支持多种技术的NLP。于是,懂了这个基本的自然语言处理技术,您可以在里面各行各业的应用。

我的内容简单地停在这里。

Q&A环节

问题1:你好,我想问一下只是象征的过程是一个虚拟的过程,或者它是一个人工标记?

芮成钢:这个问题问得好。你可以做一个人工注释,大家都开始做人工标注。当然,你需要有一个字典,你应该知道,在手机品类中,标记关键字是,一些字典中有没有,那么没有标记。这本词典是构造人工建造的,当然你可以想像,随着NER技术可以做到绿色标记,然后去手动调节,有可能。

问题2:你是怎么在实时识别做?我们可以计算量也不是那么复杂,可以迅速给出回应,但我会用深层学习,神经网络为一个字的文章快速排序,也许这个效率会下降很多,考虑到你不知道这一点情况是不是?或者只是离线说?

芮成钢:无。当然,这是行,训练神经网络时,它肯定是要更长,也可能是几个星期的训练。关键是当你是新货,没有训练的分类,但你用这个模型来估算。这一步,当神经网络是一个长的快,太快了贝叶斯神经网络操作有点复杂,而且在几十毫秒内,在不影响实时。

问题3:你好,我想问一下,您刚才谈到的情况下处理问题,谈论它再次?是否有任何方式或算法?

芮成钢:一种方式是因为他出现在一个单词的条件概率的面前,似乎后面一个字,用计算出这些概率之前的训练样本,然后时一个新的样本,如果我们前和组合后发现相同的文字,将把所列举的概率。

另一种方法,这就是所谓的统计语言模型,这是一个马尔可夫链的概念,一个字一个字为单位,在你的文章中看到出现在字号码的概率。新的样本,如果存在的话,放一去的可能性,他把两个单词或三个词短语作短语单位,这个概率也被计算,到时候在他的新样品出现了三个词或的短语,当他用概率去的两个词短语。有多种方式,就看你的训练样本的复杂性,以确定。

[本从提交文本视图的物品并不代表Xtecher的位置。]

本文链接:eBay数据科学家李睿:自然语言处理在eBay的技术实践

上一篇:CNNIC报告:中国手机网民规模达7.24亿

下一篇:Facebook、Amazon都玩上太空业务,没有预算的NASA是怎样搞起商业化的?

友情链接:

大悲咒全文 心经唱诵 线上念佛

Copyright © 2017 it技术分享网 版权所有 All Rights Reserved. 网站地图

苏ICP备18043316号