自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

原创 【python 走进NLP】中文NLP一般流程

网上有大哥总结了一张图,挺好的,贴出来给大家看一下。在此也搜藏下。

2019-01-27 12:15:17 2110 0

原创 【python 走进NLP】关键词提取的几个方法

总结一下:主要有2种提取方法 1. 关键词匹配 在一个已有的关键词库中匹配几个词语作为这篇文档的关键词。可用AC自动机算法等。 2. 关键词提取 通过算法分析,提取文档中一些词语作为关键词。可用tf-idf算法,textrank 算法等 ...

2019-01-27 11:41:14 2476 0

原创 【python 走进NLP】hanNLP 简繁拼音转换

汉语少不了面对简体繁体、汉字拼音的相互转换。HanLP基于双数组Trie树AC自动机算法提供了性能极高的转换功能。 下面我写了三个函数包括了这三个功能。 # -*- encoding=utf-8 -*- from pyhanlp import * # 中文转拼音 def...

2019-01-26 14:40:29 711 0

原创 【python 走进NLP】机器学习和深度学习情感分类模型

一、基于机器学习的情感分类模型 主要分为 3 个步骤:文本预处理,文本向量化,训练分类器。 1、文本预处理: 语料中有很多的噪声信息, 比如 HTML 标签、英文字母,特殊字符等,需要对原始语料做清洗工作,去噪、分词、去除停用词等,至此文本预处理步骤完成。 2、文本向量化: 文本向量化也称为特征提...

2019-01-24 18:26:53 962 1

原创 【python 走进NLP】如何用Keras对分类问题进行类及其概率的预测

对于分类问题,模型学习的是一个输入特征到输出特征之间的映射,这里的输出即为一个标签。比如“垃圾邮件”和“非垃圾邮件”.下边是Keras中为简单的二分类问题开发的神经网络模型的一个例子. # -*- encoding=utf-8 -*- from keras.models import ...

2019-01-21 16:04:28 2347 0

原创 【python 走进NLP】AC算法应用

2019-01-19 14:38:09 355 0

原创 【python 图片文字识别】pyocr图片文字识别

pyocr 官方网站: https://gitlab.gnome.org/World/OpenPaperwork/pyocr 安装: pip install pyocr 上一篇文章也写了: https://blog.csdn.net/u013421629/article/detail...

2019-01-17 15:27:02 1996 1

原创 【python 走进NLP】pkuseg一个领域细分的中文分词工具包

2019年1月份北京大学发布了中文分词工具包:pkuseg,来测试下: 简介: pkuseg具有如下几个特点: 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络...

2019-01-16 10:56:15 898 1

原创 【python 监控报警】python 免费短信报警和电话报警

参考链接:https://blog.csdn.net/weixin_41927957/article/details/82890333 1、打开twilio网址,注册一个账户。 官方网址:https://www.twilio.com/ 2、安装库: pip install twilio ...

2019-01-11 19:39:01 2285 3

原创 【python 监控报警】错误日志监控并钉钉报警

将钉钉报警服务做出接口之后,对程序进行错误日志监控,一旦产出错误日志,立马报警出来。 # -*- encoding=utf-8 -*- import requests import os """ 报警配置模板 """ host_url=...

2019-01-10 17:24:02 1733 0

原创 【python 走进NLP】句子相似度封装工具CHlikelihood

之前写了一篇文章实现计算句子相似度:https://blog.csdn.net/u013421629/article/details/85046362 在github上看到一个封装好的计算句子相似度工具CHlikelihood,底层实现原理跟我之前写的是一模一样啊,计算结果也是一样。 官方网站...

2019-01-10 17:15:29 1626 3

原创 【数据挖掘 方向】数据挖掘进阶方向总结

数据挖掘 这是技术向的数据岗,有些归类在研发部门,有些则单独成立数据部门。数据挖掘工程师要求更高的统计学能力、数理能力以及编程技巧。 常见数据挖掘项目的闭环如下: 1. 定义问题 2. 数据抽取 3. 数据清洗 4. 特征选取/特征工程 5. 数据模型 6. 数据验证 7. 迭代优化 ...

2019-01-10 15:32:59 1371 0

原创 【python 监控报警】python自动发钉钉机器人报警

先在手机钉钉APP拉一个群组,之后添加自定义机器人,在群机器人管理里边,找到一个webhook:链接,复制,里面有我们需要的token。 import requests import json def msg(text): json_text = { ...

2019-01-04 17:00:28 3271 1

原创 【python 监控报警】python自动发微信监控报警

我们每个人每天都是在用微信,在程序开发过程中,我们会需要监控我们的程序,发短信监控收费,发邮件懒得看,发微信是最好的方式,而且是免费的。发现个非常好用的python库:wxpy。wxpy基于itchat,使用了 Web 微信的通讯协议,实现了微信登录、收发消息、搜索好友、数据统计等功能。 官方文...

2019-01-02 17:21:32 1694 1

原创 【scala 安装错误】错误: 找不到或无法加载主类 scala.tools.nsc.MainGenericRunner

错误: 找不到或无法加载主类 scala.tools.nsc.MainGenericRunner 原因: Scala安装路径中包含空格。 解决办法:scala 不要安装在E:\Program Files 这种有空格的目录下,简直坑 ...

2019-01-17 12:28:52 2006 0

提示
确定要删除当前文章?
取消 删除