这篇文章梳理了几个关于分组排序的SQL语句,在查询的时候常会遇到分组排序的场景,比如找出每个群体中中排名前十的用户,找出某一类商品销量最高的几个商品等等。它们分别是:
- row_number() over()
- rank( ) over( )
- dense_rank( ) over( )
由此引申开来,讲述一下窗口函数的功用。
这篇文章梳理了几个关于分组排序的SQL语句,在查询的时候常会遇到分组排序的场景,比如找出每个群体中中排名前十的用户,找出某一类商品销量最高的几个商品等等。它们分别是:
由此引申开来,讲述一下窗口函数的功用。
该数据为某资金渠道从2017/01/01至2017/07/29这段时间内的清算金额汇总信息,每5分钟按流入流出汇总交易数据,type为SE表示流入,type为RE表示流出,其中2017/01/01至2017/07/23这段时间的每天各时段的流入流出汇总数据是齐全的,而2017/07/24至2017/07/29这六天时间只有0点到早上10点的数据。现在要求我们根据这些数据来预测这六天每天从当日0点到24点的流入流出轧差值(总流入-总流出)。
译自Deep Learning for Natural Language Processing (NLP): Advancements & Trends
在过去的几年里,深度学习(DL)架构和算法在图像识别和语音处理等领域取得了令人瞩目的进展。
起初,他们在自然语言处理(NLP)上的应用起初并没有那么令人印象深刻,但现在已经被证明能够为一些常见的NLP任务提供最先进的结果。在命名实体识别(NER),语音(POS)标记或情绪分析等领域,神经网络模型表现优于传统方法。机器翻译的进步也许是最显著的。
参加了历时三天的QCon北京的技术分享大会,一个码农云集的盛会,各大厂拿出自己的看家技术,真的是干货满满。特别感谢金主爸爸给的免费通票和树苗苗姐姐的联络,让我这样的小白加穷学生可以有机会参加这样规模的大会,还加了很多业界大佬的微信,见到了之前膜拜已久的洪强宁老师和张俊林老师,技术交流真的获益匪浅,扩宽了眼界,看到了自己的不足,有很多不懂的地方需要自己慢慢去补课。
下面是一些个人收获比较大的分享内容记录和整理,之后还会慢慢更新。
2018年中国人民大学应用统计初试专业课真题及详细解答,文末附专业课复试笔试真题回忆版。
如有疑问或建议,可添加微信:zhanghua63170140
这篇文章翻译自A Convolutional Neural Network for Modelling Sentences
准确地表达句子的能力是语言理解的核心。我们描述了一个被称为动态卷积神经网络(DCNN)的卷积结构,我们采用的是句子的语义模型。该网络使用动态k-Max池,一个通过线性序列的全局池操作。该网络处理不同长度的输入句子,并在句子中归纳出一个特征图,可以明确地捕捉短和长期的关系。该网络不依赖于解析树,并且很容易适用于任何语言。我们在四个实验中对DCNN进行了测试:小尺度二进制和多类情绪预测,六道问题分类和远程监控的推特情绪预测。该网络在前三项任务中取得了出色的性能,并且在最后一项任务中,在最强大的Baseline上减少了25%的错误。
这篇文章翻译自Recurrent Convolutional Neural Networks for Text Classification
文本分类是许多NLP应用的基础任务。传统的文本分类器通常依赖于许多人设计的特性,如字典、知识库和特殊的树内核。与传统的方法相比,我们引入了一个递归的卷积神经网络来进行文本分类,而没有人为设计的特征。在我们的模型中,我们应用了一个经常的结构,在学习单词表示法时尽可能地捕捉上下文信息,这可能大大减少了与传统的基于窗口的神经网络相比的噪音。我们还使用了一个自动判断哪些单词在文本分类中扮演关键角色,以在文本中捕获关键组件的方法。我们对四个常用的数据集进行实验。实验结果表明,该方法在多组数据集上优于最先进的方法。
认知偏误(Cognitive biases)是一种倾向,它认为在某些方面,认知会与理性标准(Standard of rationality)或者良好的判断相偏离,它经常应用于心理学(Psychology)和行为经济学(Behavioral economics)的研究中。
近年来,卷积神经网络在句子分类任务上取得了显著的成绩(Kim, 2014;Kalchbrenner et al .,2014),然而,这些模型要求从业者指定精确的模型结构与模型参数,例如,选择滤波器大小、正则化参数等等。目前尚不清楚对于句子分类的任务,不同的参数设定会对模型性能造成什么样的影响。因此,在这里我们对单层卷积神经网络进行情感分析,探索不同的参数对模型性能的影响;我们的目标是找出对语句分类来说的重要因素和不重要因素。由于一层的CNN结构简单,实验的表现也很好(Kim, 2014),我们就着重使用这个模型来验证(而不同更复杂的模型),从我们广泛的实证结果中得到一些了实用的建议,这些结果对于那些有兴趣用CNN对句子分类的人来说很有用。我们的实验结果所证实的一个重要结论是,研究人员应该记录性能差异,因为这可能是由于随机初始化或推理产生的。