自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赖德发的博客

征途路上,星辰大海,交流微信:laidefa

原创 【python 数据框操作】DataFrame数据框的合并和重整

1、数据框去除重复 data1 = data1.drop_duplicates() 2、数据框拼接(ignore_index=True,重新分配索引) # 两种方式,concat、append皆可以 result3=pd.concat([result1,result2],ignore_...

2018-09-26 12:37:16 10058 0

原创 【python 分组排序】python分组取每组的前几行记录方法

pandas groupby 分组取每组的前几行记录方法,具有很好的参考价值,希望对大家有所帮助。 import pandas as pd df = pd.DataFrame({'class':['a','a','b'...

2018-09-25 16:51:48 5676 0

原创 【python 数据框写入hdfs】windows使用python hdfs模块写入hdfs的一个坑

目标:在windows平台数据框写入hdfs # -*- encoding=utf-8 -*- import hdfs import datetime import pandas as pd import time time1=time.time() # 自定义获取昨天日...

2018-09-21 18:30:33 3304 0

原创 【java 方法的调用】JAVA方法定义和调用

1、基本概念 类的方法代表的是实例的某种行为或功能 定义类的方法 访问修饰 类型 方法名(参数列表){  //方法体 } 把方法当作一个模块,是个“黑匣子”,完成某个特定的功能,并返回处理结果 2、方法分类 返回值为空void的方法 带具体返回类型的方法 不带参...

2018-09-20 18:27:21 529 0

原创 【python 操作hdfs】python操作分布式文件系统hdfs

1、建立hdfs外部表 -- 建表语句 create external table dm.ml_user_lable_dimension( app_id string comment '平台', user_id string comment ...

2018-09-19 11:56:56 870 0

原创 【python 获取日期】python自定义函数获取昨天和今天的日期

import datetime def getToday(): """ :return: 获取今天日期 """ today = datetime.date.today() # 日期转字符串 ...

2018-09-17 15:56:57 1070 0

原创 【python 走进NLP】标签别名语义相似度匹配算法

标签别名语义相似度匹配算法: # -*- encoding=utf-8 -*- import pandas as pd import numpy as np import time time1=time.time() #定义一个标签有别名的合并函数 def combine_tag_na...

2018-09-07 18:36:40 1928 0

原创 【python 走进NLP】文本语义相似度合并算法

算法融合: 1、基于word2vec的词语相似度计算模型 2、标签别名语义相似度匹配算法 本算法是两种算法融合产生的效果,效果还不错: # -*- encoding=utf-8 -*- # 载包 from gensim.models import Word2Vec import war...

2018-09-07 18:31:02 4043 1

原创 【python 排列组合】Python实现排列组合

调用 itertools 获取排列组合的全部情况数 # -*- encoding=utf-8 -*- from itertools import combinations,permutations # 排列 test_data = {'1', '2'...

2018-09-07 16:24:26 11059 1

原创 【python 走进NLP】word2vec 训练词嵌入模型

一、应用场景 假设你有一个商品的数据库,比如: 现在通过用户的输入来检索商品的价格。 方法一:直接匹配法 最简单的方法就是通过字符串进行匹配,比如,用户输入“椅子”,就用“椅子”作为关键字进行搜索,很容易找到椅子的价格就是200元/个。 方法二:语义相似法 但有时用户输入的是“凳子...

2018-09-06 15:53:00 1297 3

原创 【python 走进NLP】利用jieba技术中文分词并写入txt

简单介绍: 近年来,随着NLP自然语言处理技术的日益成熟,开源实现的分词工具也越来越多,比如NLTK:其在英文分词较为成熟,分词效果较好,在处理中文分词方面则显得力不足;在处理中文分词时,Jieba这一工具普遍为大家所接受,很多企业也都是利用这一工具来处理涉及中文分词的项目;其他的开源分词工...

2018-09-06 15:06:27 3436 2

原创 【python 走进NLP】如何衡量机器学习分类模型

在NLP中我们经常需要使用机器学习的分类器。如何衡量一个分类器的好坏呢?最常见的指标包括准确率与召回率,准确度与F1-Score以及ROC与AUC。 混淆矩阵,即Confusion Matrix,是将分类问题按照真实情况与判别情况两个维度进行归类的一个矩阵,在二分类问题中,可以用一个2乘以2的矩...

2018-09-05 17:41:40 269 0

提示
确定要删除当前文章?
取消 删除