Pandas 依据特定列去除重复值
2024-04-09 16:50:56  阅读数 3022

目的:依据特定的几个列,对数值相同的行进行删除

函数:pandas.DataFrame.drop_duplicates()

功能:针对输入的DataFrame格式的数据,去除指定列下面的重复的行,返回一个DataFrame数据

参数解释:DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore\_index=False)

  • subset:默认采用所有列,可以指定特定列
  • keep:可选{‘first’, ‘last’, False}, 默认 ‘first’,选择保留第一次还是最后一次行,或者都不要
  • inplace:bool, 默认 False, 判断是原地替换还是返回一个copy
  • ignore_index:bool, 默认 False,如果设置为True,索引会重新从0开始

用法示例:

df = df.drop_duplicates(subset=['brand', 'style'], keep='last', 'ignore_index'=True)