python如何判断文件夹内的重复图片

1,192次阅读

没有评论

python如何判断文件夹内的重复图片

文件夹内的重复图片判断步骤

1、首先将所有的图片按照图片大小(byte)进行分类，然后再进行分类比较。

2、重复图片很有可能连续出现(因为重复图片大小相同)

如果要判断文件夹中是否有相同的图片，则需要对文件夹中的所有图片进行分类，并逐一判断两张图片是否相同。

如果文件夹中有1000张图片，则第一张图片需要与剩余的999张图片进行比较，第二张图片需要与剩余的998张图片进行比较，第三张图片需要与剩余的997张图片进行比较，以此类推。

python判断文件夹内的重复图片实例

if __name__ == '__main__':
 
    load_path = 'E:\\测试图片集(未去重)'  # 要去重的文件夹
    save_path = 'E:\\测试图片集(重复照片)'  # 空文件夹，用于存储检测到的重复的照片
    os.makedirs(save_path, exist_ok=True)
 
    # 获取图片列表 file_map，字典{文件路径filename : 文件大小image_size}
    file_map = {}
    image_size = 0
    # 遍历filePath下的文件、文件夹（包括子目录）
    for parent, dirnames, filenames in os.walk(load_path):
        # for dirname in dirnames:
        # print('parent is %s, dirname is %s' % (parent, dirname))
        for filename in filenames:
            # print('parent is %s, filename is %s' % (parent, filename))
            # print('the full name of the file is %s' % os.path.join(parent, filename))
            image_size = os.path.getsize(os.path.join(parent, filename))
            file_map.setdefault(os.path.join(parent, filename), image_size)
 
    # 获取的图片列表按 文件大小image_size 排序
    file_map = sorted(file_map.items(), key=lambda d: d[1], reverse=False)
    file_list = []
    for filename, image_size in file_map:
        file_list.append(filename)
 
    # 取出重复的图片
    file_repeat = []
    for currIndex, filename in enumerate(file_list):
        dir_image1 = file_list[currIndex]
        dir_image2 = file_list[currIndex + 1]
        result = 比较两张图片是否相同(dir_image1, dir_image2)
        if(result == "两张图相同"):
            file_repeat.append(file_list[currIndex + 1])
            print("\n相同的图片：", file_list[currIndex], file_list[currIndex + 1])
        else:
            print('\n不同的图片：', file_list[currIndex], file_list[currIndex + 1])
        currIndex += 1
        if currIndex >= len(file_list)-1:
            break
 
    # 将重复的图片移动到新的文件夹，实现对原文件夹降重
    for image in file_repeat:
        shutil.move(image, save_path)
        print("正在移除重复照片：", image)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python开发

2022-03-19

# 文件操作

复制链接

赏

python如何判断文件夹内的重复图片

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

静态代理IP怎么填写：步骤与示例

Socks5代理配置教程及注意事项

HTTP代理服务器的设置及应用实例

在线代理服务器的使用与推荐

动态与静态代理IP的区别解析

什么是代理服务器IP：如何选择合适的