首页 > 电脑 > Java版本的Word2vec,用于情感分析,有了解吗?

Java版本的Word2vec,用于情感分析,有了解吗?

电脑 2023-01-06

数据挖掘,情感分析,深度学习具体步骤是?

有两大类,一类是主观性:主观、客观、中性;一类是情感倾向:褒义、贬义、中性。 文本分析的话,主要是对词、句子中观点的挖掘。 你所说的机器学习法,现在基本用于对电影观点的打分系统吧。基本上就是利用分类计数,对文档中存在的情感进行分类的。 就我个人理解而言,我认为机器学习法只是情感文本分析的方法论之一,至于数据挖掘,也是通过对文档的数据收取,进行情感分析的。也是对情感文本分析的方法论之一。 所以,情感分析是主体的话,文本分类、机器学习、数据挖掘都是方式方法。这些方法可以共同应用在一个情感分析中,也可以分别独立存在。 目前英文类的文本情感分析比较多,中文类的相对少一点,你要做这方面的研究路漫漫其修远

word2vec词向量加权的方法有哪些?

‍‍我对词向量加权这个还真的不太了解,也没怎么接触过,不过你可以考虑一下fastText,可能会让你满意。‍‍

目前常用的自然语言处理开源项目/开发包有哪些?

中文主要有:NLTK,HanLP,Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR;英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。HanLP:HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。开发语言:Java,网址:hankcs/HanLP,开发机构:大快公司,协议:Apache-2.0功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具。

词向量,LDA,word2vec三者的关系是什么?

词向量,有时候翻译为词嵌入(word embeddings),又可以称作distributed word representation[1], 最初起源是神经网络语言模型(Neural Networks Language Models),word2vec是一种常见的word embeddings,另外一种著名word embeddings是GloVe

LDA(Latent Dirichlet Allocation)是主题模型(Topic Models)的一种计算方法,和词向量并无直接关系,不过如果扯上另外一种topic model, LSA(Latent Semantic Allocation),那就有一些关系了:LSA的核心技术是SVD,一种矩阵分解,而SVD一般在NLP中的使用并非是使用它分解的三个矩阵,而是合并右边两个矩阵。那么合并之后,左边的矩阵就可以视为word embeddings,而右边的矩阵可以视为当它是context时候的embeddings。当然,一般的矩阵分解,比如NMF,也可以得到word embeddings。而word2vec一再被人证明,从结果看,是一个全局PPMI矩阵的分解。某种意义讲,word embeddings可以理解是传统矩阵分解的一个加速版本。LDA和word embeddings还是可以有点联系,比如加入LDA的结果作为word embeddings的输入,来增强文章分类效果。Latent Dirichlet Allocation(LDA)和word2vec从模型上看几乎没有显著联系。词向量则是所有对词进行表示的方法的统称。关于联系你可以这样看:LDA的作用之一是通过对doc-word矩阵进行建模抽出doc-topic和topic-word两个分布。而word2vec其实是分解了word-context矩阵。其实都是对一个"A"-"B"矩阵进行建模。那么LDA自然也可以用于对word-context矩阵进行建模,而word2vec也可以对doc-word矩阵做分解。以上算是LDA和word2vec之间的的一点联系吧。不过他们之间的区别也是非常显著的。

Google的word2vec可以用MapReduce实现吗

word2vec是采用多线程的SGD实现的,不了解MapReduce是不是适合做SGD(查了一下,有spark版本)。 实际上,把word2vec改成多机多线程应该并不难(保持异步、忽略网络延迟),如果题主采用parameter server这种有中心分布式的话,最后的瓶颈会集中在网络通信 和 中心存储参数的机器的更新速度上。

标签:信息技术 word 数据挖掘 机器学习 学习

大明白知识网 Copyright © 2020-2022 www.wangpan131.com. Some Rights Reserved. 京ICP备11019930号-18