cashiba 发表于 2017-9-23 10:55:11

AU3如何判断两个文件是否重复?[已解决]

本帖最后由 cashiba 于 2017-9-26 17:25 编辑

两个同样的文件,或文件名不同,或创建时间不同,或一些其它外在属性不同.....
用AU3如何判断呢?
搜了一下,好像类似的帖子很少....

对文件的内在结构不懂,度了一下,说内容相同的文件其文件头文件尾的数据可能会有不同,还有MD5、hash值什么的相同可判断文件相同。

找到一段python语言的写的重复文件判断代码,但是不懂python,基本上看不懂,哪位大侠能将其转为AU3呢?
#!/usr/bin/env python
#coding=utf-8
'''
Created on Nov 30, 2016

@author: fangcheng
'''
from __future__ import print_function
from operator import itemgetter
import os
import time

'tt为浮点型日期,换化为年月日时分秒格式时间'
def timeYS(tt):
    t1 = time.localtime(tt)
    t2 = time.strftime("%Y-%m-%d %H:%M:%S",t1)
    return t2;
      
class File():
    '''
    copy move remove
    '''
    allfilecount = 0
    rddfilecount = 0
    singlefiles={}
    rddfiles={}
    rdddirs={}

    def __init__(self):
      '''
      Constructor
      '''
    def getFileMsg(self,filepath):
      '''
      以元组(filepath,ftime,size)形式输出文件信息
      '''
      if os.path.isfile(filepath):
            size = os.path.getsize(filepath)#bytes B
            if size <= 1024:
                size ='{0}B'.format(size);
            elif size <= 1024*1024:
                size = size/1024
                size ='{0}K'.format(size);
            else:
                size = size/1024/1024
                size ='{0}M'.format(size);
            #filename = os.path.basename(filepath)
            
            ftime = timeYS(os.path.getmtime(filepath))
            return (filepath,ftime,size)
      return ()
   
   
   
    def setRedundanceFile(self,filepath):
      '''
      根据文件名称和大小判断文件是否重复,文件信息:元组(filepath,mtime,size) ,getFileMsg返回值
      1. 遍历某一目录下所有文件
      2. 将文件的名称及大小组成一个字符串,做为 key 放入字典 dict1 ,其 value 为 文件信息
      3. 每次放入时时判断 key 是否存在,若存在,就将 文件信息 放入字典 dict2
      4. dict2 的 key 为 文件名称,value为 文件信息 列表 list1
      '''
      try:
            if os.path.isdir(filepath):
                for fil in os.listdir(filepath):
                  fil = os.path.join(filepath,fil)
                  self.setRedundanceFile(fil)
            elif os.path.isfile(filepath):
                self.allfilecount = self.allfilecount + 1
                size = os.path.getsize(filepath)
                filename = os.path.basename(filepath)
                f = self.getFileMsg(filepath)

                filekey = '{0}_{1}'.format(filename, size)
               
                if self.singlefiles.has_key(filekey):
                  self.rddfilecount = self.rddfilecount + 1
                  
                  #增加规则:发现一个重复文件时,在父目录下文件数加1,若是首次发现则取该文件在总文件列表的父目录,其数目也加1
                  pardir = os.path.dirname(filepath)
                  if self.rdddirs.has_key(pardir):
                        self.rdddirs = self.rdddirs.get(pardir)+1
                  else:
                        self.rdddirs = 1
                  
                  
                  if self.rddfiles.has_key(filekey) :
                        self.rddfiles.append(f)
                  else:
                        self.rddfiles =
                        f = self.singlefiles.get(filekey)
                        self.rddfiles.append(f)
                        #若是首次发现则取该文件在总文件列表的父目录,其数目也加1
                        pardir = os.path.dirname(f)
                        if self.rdddirs.has_key(pardir):
                            self.rdddirs = self.rdddirs.get(pardir)+1
                        else:
                            self.rdddirs = 1
                        
                        
                else:
                  self.singlefiles=f
                  
            else:
                return
                  
      except Exception as e:
            print(e)
      
   
    def showFileCount(self):
      print(self.allfilecount)
   
    def showRedundanceFile(self,filepath):
      '''
      根据文件名称和大小判断文件是否重复
      '''
      self.allfilecount = 0
      self.rddfilecount = 0
      self.singlefiles={}
      self.rddfiles={}
      
      
      
      self.setRedundanceFile(filepath)
      print('the total file num:{0},the redundance file num(not including the first file):{1}'.format(self.allfilecount,self.rddfilecount))
      print('-----------------------------------------')
      for k in self.rddfiles.keys():
            for l in sorted(self.rddfiles.get(k), key=itemgetter(1)): #按修改日期升序排列
                print(l);
            print('');
      print('------------------------------------------')
      
      
      
    def showCanRemoveFile(self,filepath):
      '''
      根据文件名称和大小判断文件是否重复
      输出按修改时间较旧的文件
      '''
      self.allfilecount = 0
      self.rddfilecount = 0
      self.singlefiles={}
      self.rddfiles={}
      rmlist = []
      self.setRedundanceFile(filepath)
      
      for k in self.rddfiles.keys():
            tmplist = sorted(self.rddfiles.get(k), key=itemgetter(1))
            tmplist.pop()
            rmlist.extend(tmplist)
      for rl in rmlist:
            print(rl)
      
    def rdddirstat(self):
      '''
      按目录统计文件重复个数
      输出:目录/tmp重复个数5,是指/tmp目录下有5个文件在其他地方也存在
      
      '''
      if len(self.rdddirs)> 0 :
            print('The redundance file statistics by dirs:')
            for rd in self.rdddirs.keys():
                print('{0} {1}'.format(rd, self.rdddirs.get(rd)))
      else:
            print('There are no redundance files')
      
if __name__ == '__main__':
    f = File()
    filepath = os.getcwd()
    #filepath = '/scripts'
   
    f.showRedundanceFile(filepath) #查看多余的文件
    #f.showCanRemoveFile(filepath)#按修改时间给出比较旧的多余文件
    f.rdddirstat()               #按目录统计重复文件个数

yamakawa 发表于 2017-9-23 16:03:08

用md5判断最普遍,,一般都是用这个。。

cashiba 发表于 2017-9-23 18:50:08

怎么判断呢?只找到FileGetAttrib,获取文件外部属性的....
文件的MD5或hash或 sha1用什么函数获取呢?

ila 发表于 2017-9-23 19:28:16

md5最快,有重复再检测其他。
上面的python代码的用的是判断文件属性里的信息

yamakawa 发表于 2017-9-23 19:49:48

回复 3# cashiba


    帮助文件中搜索_Crypt_HashFile

yamakawa 发表于 2017-9-23 19:57:45

左边是haozip自带的md5计算。。右边是我高仿的au3版

基本上,就是楼上那个函数的作用了

zzwwdd 发表于 2017-9-24 15:44:49

可以用Beyond Compare

cashiba 发表于 2017-9-24 22:36:03

回复cashiba
_Crypt_HashFile
yamakawa 发表于 2017-9-23 19:49 http://www.autoitx.com/images/common/back.gif
原来_Crypt_HashFile函数就是做这个用的,以前看到这个函数不太懂......
那个CRC32值是怎么算来的呢?找到_WinAPI_ComputeCrc32
计算内存块的 CRC32 校验和.看不懂。
{:face (52):}

cashiba 发表于 2017-9-24 22:41:03

可以用Beyond Compare
zzwwdd 发表于 2017-9-24 15:44 http://www.autoitx.com/images/common/back.gif
用第三方工具有时不如用自己做的小巧随意....
{:face (125):}

heroxianf 发表于 2017-9-25 14:39:44

MD5值对比一波来的快一点吧。

yamakawa 发表于 2017-9-25 20:05:30

回复 8# cashiba


    我用的是这个。。。忘记是什么地方收集来的。。; #FUNCTION# ;===============================================================================
;
; Name...........: _CRC32ForFile
; Description ...: Calculates CRC32 value for the specific file.
; Syntax.........: _CRC32ForFile ($sFile)
; Parameters ....: $sFile - Full path to the file to process.
; Return values .: Success - Returns CRC32 value in form of hex string
;                        - Sets @error to 0
;                  Failure - Returns empty string and sets @error:
;                  |1 - CreateFile function or call to it failed.
;                  |2 - CreateFileMapping function or call to it failed.
;                  |3 - MapViewOfFile function or call to it failed.
;                  |4 - RtlComputeCrc32 function or call to it failed.
; Author ........: trancexx
;
;==========================================================================================
Func _CRC32ForFile($sFile)

        Local $a_hCall = DllCall("kernel32.dll", "hwnd", "CreateFileW", _
                        "wstr", $sFile, _
                        "dword", 0x80000000, _ ; GENERIC_READ
                        "dword", 3, _ ; FILE_SHARE_READ|FILE_SHARE_WRITE
                        "ptr", 0, _
                        "dword", 3, _ ; OPEN_EXISTING
                        "dword", 0, _ ; SECURITY_ANONYMOUS
                        "ptr", 0)

        If @error Or $a_hCall = -1 Then
                Return SetError(1, 0, "")
        EndIf

        Local $hFile = $a_hCall

        $a_hCall = DllCall("kernel32.dll", "ptr", "CreateFileMappingW", _
                        "hwnd", $hFile, _
                        "dword", 0, _ ; default security descriptor
                        "dword", 2, _ ; PAGE_READONLY
                        "dword", 0, _
                        "dword", 0, _
                        "ptr", 0)

        If @error Or Not $a_hCall Then
                DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFile)
                Return SetError(2, 0, "")
        EndIf

        DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFile)

        Local $hFileMappingObject = $a_hCall

        $a_hCall = DllCall("kernel32.dll", "ptr", "MapViewOfFile", _
                        "hwnd", $hFileMappingObject, _
                        "dword", 4, _ ; FILE_MAP_READ
                        "dword", 0, _
                        "dword", 0, _
                        "dword", 0)

        If @error Or Not $a_hCall Then
                DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)
                Return SetError(3, 0, "")
        EndIf

        Local $pFile = $a_hCall
        Local $iBufferSize = FileGetSize($sFile)

        Local $a_iCall = DllCall("ntdll.dll", "dword", "RtlComputeCrc32", _
                        "dword", 0, _
                        "ptr", $pFile, _
                        "int", $iBufferSize)

        If @error Or Not $a_iCall Then
                DllCall("kernel32.dll", "int", "UnmapViewOfFile", "ptr", $pFile)
                DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)
                Return SetError(4, 0, "")
        EndIf

        DllCall("kernel32.dll", "int", "UnmapViewOfFile", "ptr", $pFile)
        DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)

        Local $iCRC32 = $a_iCall

        Return SetError(0, 0, Hex($iCRC32))

EndFunc   ;==>_CRC32ForFile

cashiba 发表于 2017-9-26 17:23:00

回复cashiba
我用的是这个。。。忘记是什么地方收集来的。。
yamakawa 发表于 2017-9-25 20:05 http://www.autoitx.com/images/common/back.gif
有了自定义函数就不是问题了,虽然不会用Dllcall,也看不懂......
{:face (288):}

wayne_china 发表于 2019-3-9 20:29:32

好东西!!!
页: [1]
查看完整版本: AU3如何判断两个文件是否重复?[已解决]