自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

  • 博客(12)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 【python 数据框操作】DataFrame数据框的合并和重整

1、数据框去除重复data1 = data1.drop_duplicates()2、数据框拼接(ignore_index=True,重新分配索引)# 两种方式,concat、append皆可以result3=pd.concat([result1,result2],ignore_index=True)result3=result1.append(result2,ignore_index=...

2018-09-26 12:37:16 12226

原创 【python 分组排序】python分组取每组的前几行记录方法

pandas groupby 分组取每组的前几行记录方法,具有很好的参考价值,希望对大家有所帮助。import pandas as pddf = pd.DataFrame({'class':['a','a','b','b','a','a','b','c','c'],'score':[3,5,6,7,8,9,10,11,14]})print(df)df.sort_values(['clas...

2018-09-25 16:51:48 6725

原创 【python 数据框写入hdfs】windows使用python hdfs模块写入hdfs的一个坑

目标:在windows平台数据框写入hdfs# -*- encoding=utf-8 -*-import hdfsimport datetimeimport pandas as pdimport timetime1=time.time()# 自定义获取昨天日期的函数def getYesterday(): """ :return: 获取昨天日期 "&quot

2018-09-21 18:30:33 3865

原创 【java 方法的调用】JAVA方法定义和调用

1、基本概念类的方法代表的是实例的某种行为或功能定义类的方法访问修饰 类型 方法名(参数列表){ //方法体}把方法当作一个模块,是个“黑匣子”,完成某个特定的功能,并返回处理结果2、方法分类返回值为空void的方法带具体返回类型的方法不带参数的方法带参数的方法3、方法返回值如果方法有返回值,方法中必须使用关键字return返回该值,返回值类型为该方法所定义的返...

2018-09-20 18:27:21 567

原创 【python 操作hdfs】python操作分布式文件系统hdfs

1、建立hdfs外部表-- 建表语句create external table dm.ml_user_lable_dimension(app_id string comment '平台',user_id string comment '用户id',login_name string comment '登录名',cert_no string comment ...

2018-09-19 11:56:56 931

原创 【python 获取日期】python自定义函数获取昨天和今天的日期

import datetimedef getToday(): """ :return: 获取今天日期 """ today = datetime.date.today() # 日期转字符串 record_date=today.strftime('%Y-%m-%d') return record_datedef getYesterda...

2018-09-17 15:56:57 1310

原创 【python 走进NLP】标签别名语义相似度匹配算法

标签别名语义相似度匹配算法: # -*- encoding=utf-8 -*-import pandas as pdimport numpy as npimport timetime1=time.time()#定义一个标签有别名的合并函数def combine_tag_name_alis(data1,data2): """ :param data1: 别名集...

2018-09-07 18:36:40 2163

原创 【python 走进NLP】文本语义相似度合并算法

算法融合:1、基于word2vec的词语相似度计算模型2、标签别名语义相似度匹配算法本算法是两种算法融合产生的效果,效果还不错:# -*- encoding=utf-8 -*-# 载包from gensim.models import Word2Vecimport warningswarnings.filterwarnings("ignore")warnings.fi...

2018-09-07 18:31:02 4587 1

原创 【python 排列组合】Python实现排列组合

调用 itertools 获取排列组合的全部情况数# -*- encoding=utf-8 -*-from itertools import combinations,permutations# 排列test_data = {'1', '2', '3'}print('排列有:')for i,j in permutations(test_data, 2): print(...

2018-09-07 16:24:26 13421 2

原创 【python 走进NLP】word2vec 训练词嵌入模型

一、应用场景假设你有一个商品的数据库,比如: 现在通过用户的输入来检索商品的价格。方法一:直接匹配法 最简单的方法就是通过字符串进行匹配,比如,用户输入“椅子”,就用“椅子”作为关键字进行搜索,很容易找到椅子的价格就是200元/个。方法二:语义相似法但有时用户输入的是“凳子”,如果按照字符串匹配的方法,只能返回给用户,没有此商品。但实际上可以把“椅子”的结果返回给用户参考。...

2018-09-06 15:53:00 1427 3

原创 【python 走进NLP】利用jieba技术中文分词并写入txt

简单介绍:近年来,随着NLP自然语言处理技术的日益成熟,开源实现的分词工具也越来越多,比如NLTK:其在英文分词较为成熟,分词效果较好,在处理中文分词方面则显得力不足;在处理中文分词时,Jieba这一工具普遍为大家所接受,很多企业也都是利用这一工具来处理涉及中文分词的项目;其他的开源分词工具比如Ansj、盘古分词等,感兴趣的小伙伴可以去搜索一下,下面重点介绍Jieba分词工具。使用Jieb...

2018-09-06 15:06:27 3814 2

原创 【python 走进NLP】如何衡量机器学习分类模型

在NLP中我们经常需要使用机器学习的分类器。如何衡量一个分类器的好坏呢?最常见的指标包括准确率与召回率,准确度与F1-Score以及ROC与AUC。混淆矩阵,即Confusion Matrix,是将分类问题按照真实情况与判别情况两个维度进行归类的一个矩阵,在二分类问题中,可以用一个2乘以2的矩阵表示。如图1-1 所示,TP表示实际为真预测为真,TN表示实际为假预测为假,FN表示实际为真预测为假...

2018-09-05 17:41:40 289

gbdt和xgboost算法详解

该文档详细介绍了机器学习算法中的GBDT和XGboost 两大神器

2018-01-24

开心果汁的留言板

发表于 2020-01-02 最后回复 2020-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除