自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

  • 博客(15)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 【python 走进NLP】中文NLP一般流程

网上有大哥总结了一张图,挺好的,贴出来给大家看一下。在此也搜藏下。

2019-01-27 12:15:17 2259

原创 【python 走进NLP】关键词提取的几个方法

总结一下:主要有2种提取方法1. 关键词匹配在一个已有的关键词库中匹配几个词语作为这篇文档的关键词。可用AC自动机算法等。2. 关键词提取通过算法分析,提取文档中一些词语作为关键词。可用tf-idf算法,textrank 算法等...

2019-01-27 11:41:14 2743

原创 【python 走进NLP】hanNLP 简繁拼音转换

汉语少不了面对简体繁体、汉字拼音的相互转换。HanLP基于双数组Trie树AC自动机算法提供了性能极高的转换功能。下面我写了三个函数包括了这三个功能。# -*- encoding=utf-8 -*-from pyhanlp import *# 中文转拼音def chiness2pinyin(text): """ :param text: 中文 :retu...

2019-01-26 14:40:29 817

原创 【python 走进NLP】机器学习和深度学习情感分类模型

一、基于机器学习的情感分类模型主要分为 3 个步骤:文本预处理,文本向量化,训练分类器。1、文本预处理:语料中有很多的噪声信息, 比如 HTML 标签、英文字母,特殊字符等,需要对原始语料做清洗工作,去噪、分词、去除停用词等,至此文本预处理步骤完成。2、文本向量化:文本向量化也称为特征提取或者特征工程。特征提取的方法可以分为两类: 手工设计和训练获得。手工设计的特征通常有:文档频率(DF...

2019-01-24 18:26:53 1043 1

原创 【python 走进NLP】如何用Keras对分类问题进行类及其概率的预测

对于分类问题,模型学习的是一个输入特征到输出特征之间的映射,这里的输出即为一个标签。比如“垃圾邮件”和“非垃圾邮件”.下边是Keras中为简单的二分类问题开发的神经网络模型的一个例子.# -*- encoding=utf-8 -*-from keras.models import Sequentialfrom keras.layers import Densefrom sklearn....

2019-01-21 16:04:28 3063

原创 【python 走进NLP】AC算法应用

2019-01-19 14:38:09 388

原创 【python 图片文字识别】pyocr图片文字识别

pyocr 官方网站:https://gitlab.gnome.org/World/OpenPaperwork/pyocr安装:pip install pyocr上一篇文章也写了:https://blog.csdn.net/u013421629/article/details/84393691搞了一张截图命名为1.png,下面来图片文字识别下,借助pyocr识别情况:本次图片识...

2019-01-17 15:27:02 2393 1

原创 【python 走进NLP】pkuseg一个领域细分的中文分词工具包

2019年1月份北京大学发布了中文分词工具包:pkuseg,来测试下:简介:pkuseg具有如下几个特点:多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小...

2019-01-16 10:56:15 978 1

原创 【python 监控报警】python 免费短信报警和电话报警

参考链接:https://blog.csdn.net/weixin_41927957/article/details/828903331、打开twilio网址,注册一个账户。官方网址:https://www.twilio.com/2、安装库:pip install twilio3、注册并获取account_sid,auth_token,获取地址:twilio.com/console4...

2019-01-11 19:39:01 2550 3

原创 【python 监控报警】错误日志监控并钉钉报警

将钉钉报警服务做出接口之后,对程序进行错误日志监控,一旦产出错误日志,立马报警出来。# -*- encoding=utf-8 -*-import requestsimport os"""报警配置模板"""host_url="此次填写钉钉报警接口---"text="DT-IMG-2:text_anti_spam_dongli出现错误日志@东篱"url=host_url+text...

2019-01-10 17:24:02 2024

原创 【python 走进NLP】句子相似度封装工具CHlikelihood

之前写了一篇文章实现计算句子相似度:https://blog.csdn.net/u013421629/article/details/85046362在github上看到一个封装好的计算句子相似度工具CHlikelihood,底层实现原理跟我之前写的是一模一样啊,计算结果也是一样。官方网站:https://github.com/ZhanPwBibiBibi/CHlikelihoodlinu...

2019-01-10 17:15:29 1802 4

原创 【数据挖掘 方向】数据挖掘进阶方向总结

数据挖掘这是技术向的数据岗,有些归类在研发部门,有些则单独成立数据部门。数据挖掘工程师要求更高的统计学能力、数理能力以及编程技巧。常见数据挖掘项目的闭环如下:1. 定义问题2. 数据抽取3. 数据清洗4. 特征选取/特征工程5. 数据模型6. 数据验证7. 迭代优化...

2019-01-10 15:32:59 1661

原创 【python 监控报警】python自动发钉钉机器人报警

先在手机钉钉APP拉一个群组,之后添加自定义机器人,在群机器人管理里边,找到一个webhook:链接,复制,里面有我们需要的token。import requestsimport jsondef msg(text): json_text = { "msgtype": "text", "at&am

2019-01-04 17:00:28 3597 1

原创 【python 监控报警】python自动发微信监控报警

我们每个人每天都是在用微信,在程序开发过程中,我们会需要监控我们的程序,发短信监控收费,发邮件懒得看,发微信是最好的方式,而且是免费的。发现个非常好用的python库:wxpy。wxpy基于itchat,使用了 Web 微信的通讯协议,实现了微信登录、收发消息、搜索好友、数据统计等功能。官方文档:https://wxpy.readthedocs.io/zh/latest/chats.html...

2019-01-02 17:21:32 1940 1

原创 【scala 安装错误】错误: 找不到或无法加载主类 scala.tools.nsc.MainGenericRunner

错误: 找不到或无法加载主类 scala.tools.nsc.MainGenericRunner原因: Scala安装路径中包含空格。解决办法:scala 不要安装在E:\Program Files 这种有空格的目录下,简直坑...

2019-01-17 12:28:52 2369

gbdt和xgboost算法详解

该文档详细介绍了机器学习算法中的GBDT和XGboost 两大神器

2018-01-24

开心果汁的留言板

发表于 2020-01-02 最后回复 2020-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除