自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

  • 博客(29)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 【Tensorflow】报错解决方案

问题1:AttributeError: ‘module’ object has no attribute ‘histogram_summary’解决办法: 更新版本According to the answer I got in github issues, I am using a very old version of TensorFlow. This solved the problem:$

2017-11-30 10:49:33 319

原创 【机器学习 sklearn】XGBclassifier 超参数寻优

代码片段# encoding: utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')# print train.info()# print test.info()s

2017-11-27 10:58:47 5214

原创 【机器学习 sklearn】XGBoost and RandomForest

数据集下载网站: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt对比随机决策森林以及XGBboost模型对泰坦尼克号上的乘客是否生还进行预测。#coding:utf-8from __future__ import divisionimport sysreload(sys)sys.setdefaulten

2017-11-24 16:07:47 665

原创 【机器学习 sklearn 】朴素贝叶斯naive_bayes

代码片段:# encoding: utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import pandas as pdimport chardetdf = pd.read_csv('news.txt', sep='\t', dtype=str, na_filter=False)X=df['data']y=df['tar

2017-11-24 15:44:44 2197

原创 【mysql 索引】mysql 添加索引

主要内容: 1、什么是索引 2、添加索引sql 3、索引所用的算法 4、补充下概念 5、索引的缺点 6、经典案例一、什么是索引?   索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存。如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录。表里面的记录数量越多,这个操作的代价就越高。如果作为搜索条件的列上已经创建

2017-11-24 11:35:28 2637 1

原创 【mysql 存储过程】数据库从菜鸟走向大神系列3

主要内容: 1、建表 2、写存储过程 3、写事件(自动化)mysql 建表语句:CREATE TABLE `nld_op_data_statistics_day` ( `id` int(11) NOT NULL AUTO_INCREMENT, `channel` varchar(16) NOT NULL COMMENT '渠道', `count_date` varchar(16)

2017-11-24 10:37:11 245

原创 【linux bash】常用命令集合

常用 Bash 命令以下是在 Linux 中最常用到的指令,在使用新系统进行开发时,记住这些指令对于快速上手非常重要。cd {directory}:转换当前目录ls -lha:列出目录文件(详细信息)vim or nano:命令行编辑器touch {file}:创建一个新的空文件cp -R {original_name} {new_name}:复制一个文件或目录(包含内部所有文件)mv {

2017-11-22 18:09:37 660

原创 【python 自然语言处理】画画词云图

主要内容 1、需要一张背景图(hang.jpg) 2、需要文本数据(comments.txt) 3、需要中文字体文件(simsun.ttc)背景图:hang.jpg 效果图:# encoding: utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import jieba.analyse # 导入结巴分

2017-11-21 16:02:11 1146

原创 【mysql 字符串截取】SUBSTRING_INDEX用法

截取 一个字符串的省、市、区、街道 SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-1),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-2),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDE

2017-11-21 14:05:46 838

原创 【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

主要内容1、什么是SnowNLP?2、SnowNLP可以干哪些事儿?3、如何进行情绪判断?4、猎场豆瓣热门短评抓取。5、猎场热门短评情感分析。6、附录(python 画词云图)什么是SnowNLP? snowNLP,可以分词,标注,还可以进行情绪分析。 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部...

2017-11-20 16:11:56 4469 1

原创 【python 天气预报】python制作属于自己的天气预报

主要内容: 1、首先利用request库去请求数据,天气预报使用的是和风天气的API(www.heweather.com/douments/api/s6/weather-forecast),注册完成得到一个key。2、利用python的jinja2模块写一个html模板,用于展示数据3、python的email构建邮件,smtplib发送邮件4、最后使用crontab定时执行python脚本内容效

2017-11-19 19:06:43 5101 1

原创 【mysql 执行计划】读懂mysql 中的执行计划

一、什么是mysql执行计划?执行计划,简单的来说,是SQL在数据库中执行时的表现情况,通常用于SQL性能分析,优化等场景。在MySQL使用 explain 关键字来查看SQL的执行计划。如下所示://1. 查询t_base_userselect * from t_base_user where name="andyqian";//2. 查看上述语句的执行计划explain select * f

2017-11-18 12:41:35 575

原创 【ubantu crontab】crontab 无法保存退出,坑死了

解决crontab不能编辑和保存的问题EDITOR=viexport EDITOR然后crontab -e就不会有这个问题了

2017-11-14 14:35:01 5001 2

原创 【mysql 计算星座】根据身份证计算用户所属星座

SELECT casewhen SUBSTRING(person_card,11,4) between '0120' and '0218' then '水瓶座' when SUBSTRING(person_card,11,4) between '0219' and '0320' then '双鱼座'when SUBSTRING(person_card,11,4) between '0321' and

2017-11-13 14:44:45 1742

原创 【python 存储过程】python利用mysql存储过程更新数据

一、需求分析 由于管理费率配置错误,生成订单的还本付息表和订单表的各种金额,管理费之间的计算都有错误,需要进行数据订正。为此,为了造个轮子,以后省很多功夫,全部用程序去修正,不接入人工。二、带参数mysql 存储过程创建1、更新订单付息表(t_order_rapay)drop procedure if exists update_t_order_rapay;delimiter $$create

2017-11-08 15:46:35 2341

原创 【机器学习 sklearn】手写数字识别 SVM

"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py(1797L, 64L)[[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0. ..., 10. 0. 0.] [ 0. 0. 0. ..., 16. 9. 0.]

2017-11-07 17:42:56 2214 1

原创 【机器学习 sklearn】逻辑斯蒂回归模型--Logistics regression

运行结果:"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.pyLogistics regression[[99 1] [ 1 70]]sgdc_y_predict[[98 2] [ 1 70]]Accuracy of LR Classifier: 0.988

2017-11-07 17:14:34 1689

原创 【数据建模 神经网络】人工神经网络数据处理

人工神经网络数据预处理: 不能有缺失值 移除常量型特征(即这个特征的最大值和最小值相等) 不能接受非数值形式的输入,字符型变量需要编码:One hot编码 Dummy编码 浓度编码变量归一化/标准化 人工神经网络中的参数设置:输入层节点个数 隐藏层层数 隐藏层节点个数 隐藏层联接状态 激活函数 损失函数 学习速率 迭代次数模型的效果AUC score,超过0.7为佳

2017-11-06 17:29:08 1522

原创 【数据建模 分类器性能指标】性能测评

表示分类正确:True Positive:本来是正样例,分类成正样例。 True Negative:本来是负样例,分类成负样例。 表示分类错误:False Positive :本来是负样例,分类成正样例,通常叫误报。 False Negative:本来是正样例,分类成负样例,通常叫漏报。准确度 : 真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预

2017-11-06 17:20:48 416

原创 【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码1. one-hot编码 2. 浓度编码这里需要详细讲下浓度编码: 某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。 例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。 那么我们以x11/x1作为男性编码;x22/x2作为女性编码。WOE编码对日期/时间型变量时间是否为一个

2017-11-06 17:05:37 1180

原创 【数据建模 缺失值处理】缺失值的处理

缺失类型1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法删除有缺失值的属性或者样本(土豪行为) 插补填充(常用于完全随机缺失且缺失度不高的情形中) 将缺失当成一种属性值(常用于完全非随机缺失) 连续变量缺失值的处理1)对于完全随机缺失,

2017-11-06 17:00:47 3521

原创 【数据建模 极端值的检测】离群值检测

极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。 数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。 检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化

2017-11-06 16:56:45 1996

原创 【数据建模 卡方检验】了解卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。 (1)提出原假设: H0:总体X的分布函数为F(x) 如果总体分布为离散型,则假设具体为H0:总体X的分布律为P{X=xi}

2017-11-06 16:47:53 3294

原创 【数据建模 方差分析】单因素方差分析

单因素方差分析: (一)单因素方差分析概念理解步骤 ①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。 ②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量 分别为施肥量、地区、学历。 ③单因素方差分析的第二

2017-11-06 16:41:47 3924

原创 【数据建模 IV】特征信息度

IV(Information Value), 衡量特征包含预测变量浓度的一种指标特征信息度解构: 其中Gi,Bi表示箱i中好坏样本占全体好坏样本的比例。  WOE表示两类样本分布的差异性。  (Gi-Bi):衡量差异的重要性。 特征信息度的作用  选择变量:非负指标 高IV表示该特征和目标变量的关联度高 目标变量只能是二分类 过高的IV,可能有潜在的风险 特征分箱越细,IV越高

2017-11-01 18:06:06 1565

原创 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)

WOE(weight of evidence, 证据权重)一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值优势   将特征的值规范到相近的尺度上。   (经验上讲,WOE的绝对值波动范围在0.1~3之间)。   具有业务含义。    缺点   需要每箱中同时包含好、坏两个类别。

2017-11-01 18:01:09 7692

原创 【数据建模 特征分箱】特征分箱的方法

在建模中,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。 它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开

2017-11-01 17:53:46 30767

原创 【R 语言 数据抽样】将样本总体分为样本集和测试集

方法1:rm(list=ls())gc()german_credit <- read.csv("C:/pic/credit/german_credit.csv",sep = ",")names(german_credit)# 需要将样本总体分为样本集和测试集# 简单随机抽样smp1<-sample(nrow(german_credit),300,replace=F)train_data=g

2017-11-01 17:32:04 1978

原创 【R语言 评分模型】R语言建立信用评分模型

1、数据源: 我们将会使用在信用评级建模中非常常用的德国信贷数据(German credit dataset)作为建模的数据集。德国信贷数据共有1000条数据,每条数据20个特征。2、数据源下载: https://github.com/frankhlchi/R-scorecard3、建模过程4、完整版(源代码):rm(list=ls())gc()library(caret)library(

2017-11-01 17:02:52 4934 2

gbdt和xgboost算法详解

该文档详细介绍了机器学习算法中的GBDT和XGboost 两大神器

2018-01-24

开心果汁的留言板

发表于 2020-01-02 最后回复 2020-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除