Free Will


  • 首页

  • 技术

  • 人间

  • 絮语

  • 关于我

  • 搜一下
close
Free Will

自然语言处理系列(6):TextCNN

发表于 2018-02-24 | 分类于 自然语言处理

这篇文章翻译自卷积神经网络用于文本分类的开山之作Convolutional Neural Networks for Sentence Classification,并相应的对其实现代码进行讲解。

我们进行了一系列关于卷积神经网络(CNN)的实验,这些实验是基于预先训练的词向量训练的,用于句子级别的分类任务。我们得到了一个简单的参数微调的以及静态矢量的CNN在多个基准上取得了优异的结果。通过微调学习任务特定的向量可以进一步提高性能。我们还建议对体系结构进行简单的修改,以允许使用特定于任务的和静态的向量。CNN在这里讨论了7项任务中4项的改进,包括情绪分析和问题分类。

阅读全文 »
Free Will

自然语言处理系列(5):FastText

发表于 2018-02-20 | 分类于 自然语言处理

这篇文章翻译自Bag of Tricks for Efficient Text Classification

本文探讨了一个简单而有效的文本分类baseline。我们的实验表明,快速文本分类器在精度上通常与深度学习分类器相当,并且在训练和评估方面的速度要快得多。我们可以在不到10分钟的时间内使用标准的多核CPU对超过10亿单词的快速文本进行训练,在不到一分钟的时间内对312000类的50万个句子进行分类。

阅读全文 »
Free Will

读书记(21):维特根斯坦论语言的限度(7)—— 哲学的意义

发表于 2018-02-17 | 分类于 读书记

只有把哲学当作天下公器的时候,我们的哲学才有生命力,所以我理解的哲学是可以处理一切问题的,它不仅仅可以处理我们所面对的问题,也可以处理我们所没有面对到的问题。所以一定要把哲学看作是一个可以被适用在不同的对象上的一种工作方法,它是我们思考问题的一种方式,会带动我们去分析问题,甚至带动我们去想办法解决问题

阅读全文 »
Free Will

自然语言处理系列(4):深度学习解决大规模文本分类问题

发表于 2018-02-16 | 分类于 自然语言处理

这篇文章总结了文本分类领域特别是应用深度学习解决文本分类的相关思路、做法和部分实践的经验。转载自知乎清凇撰写的文章用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

业务问题描述:

淘宝商品的一个经典的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏”。淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也是10亿量级,我们的任务是根据商品标题预测其所在叶子类目,示例中商品归属的类目为“女装/女士精品>>蕾丝衫/雪纺衫”。很显然,这是一个非常典型的短文本多酚类问题。接下来分别会介绍下文本分类传统的和深度学习的做法,最后简单梳理下实践的经验。

阅读全文 »
Free Will

读书记(20):维特根斯坦论语言的限度(6)—— 维特根斯坦与罗素

发表于 2018-02-16 | 分类于 读书记

维特根斯坦的思想不是逻辑的,是形而上学的。他通过对语言的了解是要说明,其实我们人类有很多东西是隐藏在语言背后没法说出来的,而这恰恰是一种推动我们用语言去表达的动力。但是对于罗素来说是很难理解的,因为罗素是一个经验主义者,他所有的观念都是建立在我们对经验的了解和认识之上,而维特根斯坦不是一个经验主义者,他是一个真正的理性主义者,他的观念具有很强的形而上学的根据,这是罗素很难理解的。

阅读全文 »
Free Will

读书记(19):维特根斯坦论语言的限度(5)—— 尘世生活

发表于 2018-02-15 | 分类于 读书记

维特根斯坦的生活是非常简单的,没有特别高的要求,但他对于思想和哲学上的要求却非常高,他是一个完美的理想主义者。他追求的目标是,所有的东西一定要做到最好,这是一般人做不到的。

阅读全文 »
Free Will

自然语言处理系列(3):中文维基语料词向量训练

发表于 2018-02-15 | 分类于 自然语言处理

要通过计算机进行自然语言处理,首先就需要将这些文本数字化,目前用的最广泛的方法是词向量,根据训练使用算法的不同,目前主要有Word2Vec和GloVe两大方法,本文主要讲述通过这两个方法分别训练中文维基百科语料库的词向量。

阅读全文 »
Free Will

自然语言处理系列(2):Word2Vec

发表于 2018-02-14 | 分类于 自然语言处理

这篇文章翻译自word2vec Parameter Learning Explained

Mikolov等人的word2vec模型和应用在近两年受到了广泛的关注。由word2vec模型学习的单词的向量表示已经被证明具有语义意义,并且在各种NLP任务中都很有用。随着越来越多的研究人员实验word2vec或类似的技术,我注意到缺乏全面解释字嵌入模型的参数学习过程的细节的材料,从而使得非神经网络专家的研究人员无法理解此类模型的工作机制。

本文章提供了word2vec模型参数更新方程的详细推导和解释,包括原始的连续bag-of-word (CBOW)和skip-gram (SG)模型,以及优化技术,包括分层的softmax和负采样。对梯度方程的直观解释也提供了数学推导。

在附录中,提供了关于神经元网络和反向传播的基础知识的综述。我还创建了一个交互式演示,wevi,以促进对模型的直观理解。

阅读全文 »
Free Will

读书记(18):维特根斯坦论语言的限度(4)—— 语法与联系

发表于 2018-02-14 | 分类于 读书记

所谓“语法”,就是看到联系。联系与结构息息相关,我们在结构当中才能为某一个具体的事物定位。我们看到任何一个游戏的时候,绝对不会想到这只是一个游戏,一定会想到这个游戏它相关的内容,因而,由这个相关的内容来理解游戏,而不是根据这个游戏来把握相关内容,不是由点到点,而是由面到点,这个面就是相互关系的面。

阅读全文 »
Free Will

读书记(17):维特根斯坦论语言的限度(3)—— 语言背后的基础

发表于 2018-02-13 | 分类于 读书记

维特根斯坦哲学的特殊性就在于,它不是以显形的方式让人们去接受的,维特根斯坦是一个隐士,他是隐身在我们的思想背后,然后去触发人们思考很多新的问题,而这些问题实际上在维特根斯坦都已经讨论过了,只是他并没有给我们提供一个现成的结论,而是让我们不断的去思考他提出的这些问题

阅读全文 »
1…567…22
Free Will

Free Will

人类被赋予了一种工作,那就是精神的成长

213 日志
19 分类
308 标签
我的自媒体
  • 应统联盟
  • 阿药算法
  • 纸间城邦
推荐的自媒体
  • 木遥
  • 刘未鹏
  • 张驰原
  • 阮一峰
© 2016 - 2024 Free Will