您好、欢迎来到现金彩票网!
当前位置:手机棋牌游戏平台 > 伪语义树 >

主题模型TopicModel:主题模型LDA的应用

发布时间:2019-09-12 23:39 来源:未知 编辑:admin

  除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电脑”,10%关于其他主题。

  聚类: 主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题,看到该主题下一系列文章。

  特征生成:LDA可以生成特征供其他机器学习算法使用。如前所述,LDA为每一篇文章推断一个主题分布;K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。

  降维:每篇文章在主题上的分布提供了一个文章的简洁总结。在这个降维了的特征空间中进行文章比较,比在原始的词汇的特征空间中更有意义。

  在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时,我们可以先计算出物品在话题上的分布,然后利用两个物品的话题分布计算物品的相似度。比如,如果两个物品的话题分布相似,则认为两个物品具有较高的相似度,反之则认为两个物品的相似度较低。计算分布的相似度可以利用KL散度来计算:

  隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。

  对于一个用户来说,他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书, 用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候,肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们要对所有item(图书)进行分类。那如何分呢?大家注意到没有,分类标准这个东西是因人而异的,每个用户的想法都不一样。拿B用户来说,他喜欢的三个类别其实都可以算作是计算机方面的书籍,也就是说B的分类粒度要比A小;拿离散数学来讲,他既可以算作数学,也可当做计算机方面的类别,也就是说有些item不能简单的将其划归到确定的单一类别;拿C用户来说,他倾向的是书的作者,只看某几个特定作者的书,那么跟A,B相比它的分类角度就完全不同了。

  显然我们不能靠由单个人(编辑)或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。

  我们在可见的用户书单中归结出3个类别,不等于该用户就只喜欢这3类,对其他类别的书就一点兴趣也没有。也就是说,我们需要了解用户对于所有类别的兴趣度。

  对于一个给定的类来说,我们需要确定这个类中每本书属于该类别的权重。权重有助于我们确定该推荐哪些书给用户。

  下面我们就来看看LFM是如何解决上面的问题的?对于一个给定的用户行为数据集(数据集包含的是所有的user, 所有的item,以及每个user有过行为的item列表),使用LFM对其建模后,我们可以得到如下图所示的模型:(假设数据集中有3个user, 4个item, LFM建模的分类数为4)

  R矩阵是user-item矩阵,矩阵值Rij表示的是user i 对item j的兴趣度,这正是我们要求的值。对于一个user来说,当计算出他对所有item的兴趣度后,就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题,作为user和item之间连接的桥梁,将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵,矩阵值Pij表示的是user i对class j的兴趣度;Q矩阵式class-item矩阵,矩阵值Qij表示的是item j在class i中的权重,权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度

  我们不需要关心分类的角度,结果都是基于用户行为统计自动聚类的,全凭数据自己说了算。

  不需要关心分类粒度的问题,通过设置LFM的最终分类数就可控制粒度,分类数越大,粒度约细。

  对于一个item,并不是明确的划分到某一类,而是计算其属于每一类的概率,是一种标准的软分类。

  对于一个user,我们可以得到他对于每一类的兴趣度,而不是只关心可见列表中的那几个类。

  对于每一个class,我们可以得到类中每个item的权重,越能代表这个类的item,权重越高。

  那么,接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前,我们需要准备一下数据集并对兴趣度的取值做一说明。

  数据集应该包含所有的user和他们有过行为的(也就是喜欢)的item。所有的这些item构成了一个item全集。对于每个user来说,我们把他有过行为的item称为正样本,规定兴趣度RUI=1,此外我们还需要从item全集中随机抽样,选取与正样本数量相当的样本作为负样本,规定兴趣度为RUI=0。因此,兴趣的取值范围为[0,1]。

  采样之后原有的数据集得到扩充,得到一个新的user-item集K={(U,I)},其中如果(U,I)是正样本,则RUI=1,否则RUI=0。损失函数如下所示:

  是用来防止过拟合的正则化项,λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法:

  其中,α是学习速率,α越大,迭代下降的越快。α和λ一样,也需要根据实际的应用场景反复实验得到。本书中,作者在MovieLens数据集上进行实验,他取分类数F=100,α=0.02,λ=0.01。

  总结来说,LFM具有成熟的理论基础,它是一个纯种的学习算法,通过最优化理论来优化指定的参数,建立最优的模型。

  传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有...博文来自:zhangqiang1104的博客

  背景我们生活中总是产生大量的文本,分析这些观察到的语料库是如何生成的就需要对文本进行建模。常见的文本建模方法包括:Unigram、PLSA、LDA、词向量模型(CBOW、Skip-gram)等。LDA...博文来自:chenshulong的博客

  其实这篇文章也可以叫gibbs抽样在lda主题模型中的应用。lda里的重头戏就是gibbs抽样。话说现在论文起名字也是技术活儿,一般人还把握不好,一样的内容起个不同的名字,被reject的几率有时还真...博文来自:Marshall的专栏

  11.10在判断文档相关性的时候需要考虑到文档的语义,而语义挖掘的利器是主题模型,LDA就是其中一种比较有效的模型。在主题模型中,主题表示一个概念、一个方面,表现为一系列相关的单词,是这些单词的条件概...博文来自:Try_and_Insist的博客

  LDA是一个概率生成模型。认为文档是由词袋中的词按一定概率生成。对于语料集中的每篇文档,其生成过程是:首先,从文档的所有主题分布中选取一个主题,这个过程服从所有主题的多项式分布。同时文档所有主题服从D...博文来自:zkq_1986的博客

  原文链接:在这篇文章中,我将介绍用于LatentDirichletAllocation(LDA)的ldaPython包的安装和基本用法。我不会在这篇文章...博文来自:大数据部落

  LDA主题模型1前言1.1数据介绍1.2我们为什么要引入上面的外部数据源?1.3那我们该怎么去做?2读入数据3分词处理3.1先原始分词3.2引入常见停用词3.3自定义词典3.4批量对这批数据进行分词处...博文来自:RUC_Lee的博客

  一.朴素贝叶斯在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征...博文来自:weixin_43589681的博客

  LDA主题模型LDA简介LDA模型:LatentDirichletAllocation是Blei等人于2003年提出的基于概率模型的主题模型算法,它是一种非监督机器学习技术,可以用来识别大规模文档集或...博文来自:你不该把世界让给你所鄙视的人。

  LDA主题模型哈尔滨工程大学-537一、LDA主题模型简介LDA(LatentDirichletAllocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学...博文来自:537云起云落

  本文为学习LDA主题模型的笔记,主要是对LDA主题模型进行一个简单的概括,具体的细节及推导可以参见:非常详细的参考资料一、问题提出什么是主题模型?什么是LDA?将文档集中,每篇文档的主题按照概率分布的...博文来自:kjcsdnblog的专栏

  LDA:隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)定义:-它是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的...博文来自:海阔天空

  目录伯努利实验二项式分布功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants...博文来自:的博客

  之前学习文本挖掘时已经写过一篇关于主题模型的博客《文本建模之UnigramModel,PLSA与LDA》,前几天小组讨论主题模型时,又重新理解了一遍LDA,有了更深刻的认识,特记录一下。1、Unigr...博文来自:zxhohai的博客

  介绍性的讲解在此不多讲,本文主要讲主题模型LDA的原理。我们可以从生成模型思考一下,一篇文章由文档进而生成文字,是怎样的一个概率过程呢。在主题模型中,文档“以一定概率选择了某个主题,并从这个主题中以一...博文来自:xiaomeng29的博客

  (一)LDA作用    传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档...博文来自:AI百科的博客

  共轭先验和共轭分布P(θ\theta)先验分布、P(θX\thetaX)后验分布、P(Xθ\theta)似然函数。后验分布=先验分布*似然函数/P(X)使得先验分布和后验分布具有相同的形式,称他...博文来自:ae5555的专栏

  Python自然语言处理能力进阶课,一个情感识别完整项目案例,6大技术实现方案,5大算法模型,4大机器/深度学习框架,一个核心主题。

  LDA主题模型的原理,推导过程比较复杂,可以参考此链接,讲的比较详细:本文主要是...博文来自:Chown先森

  【本文作者】达观数据夏琦【作者简介】夏琦,达观数据NLP组实习生,就读于东南大学和MonashUniversity,自然语言处理方向二年级研究生,师从知识图谱专家漆桂林教授。曾获第五届“蓝桥杯”江苏省...博文来自:u011734144的专栏

  LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(...博文来自:mm_bit的博客

  讲述了LDA主体模型中用到的几种概率分布模型包括伯努利分布、二项分布、多项式分布、beta分布、Dirichlet分布,和他们的关系探讨...博文来自:远方的橄榄树

  LDA主题模型是一个数学知识非常复杂的模型可以rickjin的LDA数学八卦了解狄利克雷共轭分布,伽马函数-gt;beta分布-gt;狄利克雷共轭分布。想要了解LDA模型必须先知道...

  LDA可以看做如何由单词生成主题,生成的过程分为两步,首先,将每一篇文档视为多个主题在单词上的分布,也就是每篇文档是由多个主题按照不同的比例混合而成,而每个话题可以由代表性的词语来表示,比如,雾霾这个...

  LDA即LatentDirichletAllocation(隐含狄利克雷分布)注意:每个文档中含有多个主题,输出主题概率分布,无监督案例:LDA主题分类(sklearn)自动将4个文本分为两类(聚类)...

  **1.**本文针对LDA主题模型进行学习和联系,核心摘要如下:**2.**NLP中的共现对应条件概率(独立时最特殊),最大似然估计计算字符的共现例子:**3.**LDA主题模型代码实例#-*-cod...

  隐含狄利克雷分布(LatentDirichletallocation)是一种生成式统计模型,是泛化的pLSA模型,区别在于LDA假设主题分布是稀疏的Dirichletprior,即所有文档只覆盖一小部...

  文章目录1、知道LDA的特点和应用方向1.1、特点1.2、应用方向2、知道Beta分布和Dirichlet分布数学含义3、了解共轭先验分布4、知道先验概率和后验概率5、知道参数α值的大小对应的含义6、...

  文本主题模型之LDA(一)LDA基础文本主题模型之LDA(二)LDA求解之Gibbs采样算法

http://lsm-systems.com/weiyuyishu/404.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有