2018.06.06论文:12个NLP分类模型

注1:本文翻译自GitHub上的一篇介绍,介绍了基于深度学习的文本分类问题。代码和部分模型介绍在GitHub上:https://github.com/DX2017/text_classification

注2:本文参考风起云杨译文:https://blog.csdn.net/qq_35273499/article/details/79498733 并加入自己的理解整理。

1 概述

这个库 的目的是探索用深度学习进行NLP文本分类的方法。它具有文本分类的各种基准模型。

深度学习中的highway network、ResNet、Inception

不是特别清楚这三个流行且有用的模型(或者说层)的具体作用和使用方法。

概念

CNN演化

先引入一张CNN结构演化图:

Python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开

python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开

很多时候,我们需要把一长串单词字符拆分开来,比如:

  • 输入:“tableapplechairtablecupboard …”很多字。我们希望有一个有效的算法来分割这样的文本到单词列表,并得到:
  • 输出:[“table”,“apple”,“chair”,“table”,“cup”,“board”]

或者将一个很长的函数名拆分成小单词: WbxNewBrowserInstance 变为 [ wbx new browser instance ]

人工智能工程师学习路线 自然语言处理算法工程师学习路径

1入门级别

1.1 数据结构

1.2 算法(重点)

面试必考。参考学习地址:
麻省理工学院公开课:算法导论 http://open.163.com/special/opencourse/algorithms.html

1.3python

包括python基础、面向对象要懂。

怎么加载训练好的词向量bin

word2vec 有的时候需要加载之际之前训练好的词向量,或者加载下载的别人的词向量,加载如下:

1默认方法

如果你是用默认方法训练的,则可以直接load:

1
2
3
model.save('/model/word2vec_model')

new_model=gensim.models.Word2Vec.load('/model/word2vec_model')

深度学习 自然语言处理 怎么获得数据集 中文语料集?

现如今构件人工智能、机器学习甚至深度学习系统,变得越来越容易。

但是让这些模型或者系统真正有价值的却是“数据”。那么如果刚刚上手机器学习或者深度学习,怎么寻找合适的数据集呢?

下面就介绍一些获取数据的方法:

在TensorFlow中实现文本分类的CNN

注意

在这篇文章中,我们将实现一个类似于Kim Yoon的卷积神经网络语句分类模型。 本文提出的模型在一系列文本分类任务(如情绪分析)中实现了良好的分类性能,并已成为新的文本分类架构的标准基准。

python结巴分词、jieba加载停用词表

python结巴分词

1 jieba中文分词简介

中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统。

Python 繁体中文与简体中文相互转换

工作中需要将繁体中文转换成简体中文
上网找了些资料,发现这个包最方便

1 安装

不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可

https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py

打包下载地址:http://download.csdn.net/download/u012052268/9996650

词嵌入来龙去脉 word embedding和word2vec

0词嵌入来龙去脉

之前一段时间,在结合深度学习做NLP的时候一直有思考一些问题,

不少的terms like: 词向量、word embedding、分布式表示、word2vec、glove等等,

这一锅粥的名词术语分别代表什么,他们具体的关系是什么,他们是否处于平级关系?

整篇文章的构架是按照属于概念在逻辑上的先后大小顺序,一层一层一级一级地往下剖析、比较、说明。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×