python时间序列分析

本文转载自博客园大神“大熊猫淘沙”的一篇文章——python时间序列分析。
文章写的生动有趣干货满满,特此收藏转载一下。原文地址:https://www.cnblogs.com/foley/p/5582358.html

Python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开

python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开

很多时候,我们需要把一长串单词字符拆分开来,比如:

  • 输入:“tableapplechairtablecupboard …”很多字。我们希望有一个有效的算法来分割这样的文本到单词列表,并得到:
  • 输出:[“table”,“apple”,“chair”,“table”,“cup”,“board”]

或者将一个很长的函数名拆分成小单词: WbxNewBrowserInstance 变为 [ wbx new browser instance ]

怎么加载训练好的词向量bin

word2vec 有的时候需要加载之际之前训练好的词向量,或者加载下载的别人的词向量,加载如下:

1默认方法

如果你是用默认方法训练的,则可以直接load:

1
2
3
model.save('/model/word2vec_model')

new_model=gensim.models.Word2Vec.load('/model/word2vec_model')

python结巴分词、jieba加载停用词表

python结巴分词

1 jieba中文分词简介

中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统。

Python 繁体中文与简体中文相互转换

工作中需要将繁体中文转换成简体中文
上网找了些资料,发现这个包最方便

1 安装

不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可

https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py
https://raw.githubusercontent.com/skydark/nstools/master/zhtools/zh_wiki.py

打包下载地址:http://download.csdn.net/download/u012052268/9996650

bat2018自然语言处理校园招聘的要求

寻找了多家国内主要IT公司有关NLP的2018校园招聘,于大家分享。另外查漏补缺,看看自己缺乏那些方面的经验和技术。
下面直接放结论,没时间的可以只看总结:

总结:

主要在以下几个方面有要求,打勾的次数反应了热度:

  1. 自然语言处理相关的具体操作:分词、语义、句意、对话、机器翻译、自动问答等√√√√√
  2. 经典的机器学习算法、竞赛经历√√√
  3. 多线程、网络编程、分布式编程√
  4. hadoop、spark√√√√
  5. SQL、NoSQL√
  6. linux√√
    前面3个更面向纯NLP,而后面的知识偏向数据分析,其实这两个岗位相辅相成,很多技能都是共通的。

汽车之家口碑爬虫

1.需求分析

因项目需求,要爬取汽车之家的口碑数据进行下一步分析。

但是普通的爬虫软件(如八爪鱼、火车头、神箭手)无法爬取评论(该公司采取了反爬虫措施)。

经分析,发现该公司的的反爬虫措施主要是用前端js去替换显示的字体,为一些标签。并且封住鼠标右键导致不好观察源代码。

本文以解决各个问题为顺序。

AttributeError:FeedExporter object has no attribute slot

使用scrapy时候你报错:

AttributeError: ‘FeedExporter’ object has no attribute ‘slot’

因为当前需要写入的文件被占用,写不进去!

解决方法,关闭打开的 csv文件

实战天猫数据爬取

主要用到的知识点

  1. 实用技巧1—多级页面的抓取-callback函数
  2. 实用技巧2—图片的抓取-
  3. 抓取过程中的常见问题—cookie的处理,cookie模拟登录
  4. 分页
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×