Explore, Think, Create

Sign in Get started

Tagged in

NLP

Explore, Think, Create

> words and ideas can change the world.

More information

Followers

38

Elsewhere

More, on Medium

NLP

sdq in Explore, Think, Create

Text-to-Viz: 自然语言生成信息图方法

与之前介绍的DataShot不同，Text-to-Viz[1]不直接从数据中生成可视化，而是通过自然语言的文字描述来生成对应的信息图（Infographic）。该方法需要理解用户输入的文本，提炼出正确的信息用于可视化，并确保最终的信…

sdq in Explore, Think, Create

基于朴素贝叶斯的情感分类方法

原理解析

贝叶斯公式

情感分类

每一句话去除停顿词后的表示为：

针对于我们的带标签训练集（量越多越好），我们可以近似计算一下参数：

每个单词出现的概率
每种情绪中单词出现的概率
每种情绪出现的概率

最终的贝叶斯计算公式如下,默认每个单词的出现都相互独立：

sdq in Explore, Think, Create

相似性搜索与词向量中的应用分析

参考论文《On Approximately Searching for Similar Word Embeddings》原文链接发表于ACL2016

什么是相似性搜索

相似性搜索的概念是在n维空间中通过比较数据之间的相似性，寻找与输入点最接近的目标点。该技术被广泛应用在数据库、信息检索、模式识别、数据分析等各个领域。

sdq in Explore, Think, Create

八步计算文本相似度

tf-idf方法的实践

准备工作和模型建立

引入文本处理库gensim，手工制造一些原始数据。

import gensim
raw_documents = ["I'm taking the show on the road.",
                 "My socks are a force multiplier.",
                 "I am the barber who cuts…