找回密码
 加入
搜索
楼主: nbmpe

[AU3基础] 删除重复行,为什么速度慢,帮看下代码(已解决)

 火... [复制链接]
发表于 2010-11-15 18:18:27 | 显示全部楼层
大家都是强人,我来学习一下下
发表于 2010-11-16 07:22:56 | 显示全部楼层
想高手学习
发表于 2010-12-10 13:34:00 | 显示全部楼层
能提高速度吗?
发表于 2011-2-20 14:56:20 | 显示全部楼层
都是高手````
发表于 2011-3-21 09:46:32 | 显示全部楼层
回复 41# afan
String 可以包含 2147483647 个字符的字符串.
这个是AU3的数据类型的说明
不知道这么大的字符串能到多少呢?
8bit(位)=1Byte(字节)
1024Byte(字节)=1KB
1024KB=1MB
1024MB=1GB
1024GB=1TB
真的可以这么大吗?
我可以用纯正则删除所有重复行跟空行,只是看见28M的文本,感觉不是很靠谱!
另外用正则处理这类的东西有好处,我不是很懂,当初是为了从网页提取信息学的正则,不过确实好用! 我是新手多多指教
发表于 2011-3-21 10:04:08 | 显示全部楼层
然后,我们从函数回到命题本身。
小说中有个毛病,会出现一行中出现一句话,这句话是正常的重复。比如“没问题!”
如果我们的函数吧这些正常的重复都给删除了 是不是就修改了作者的本意!
这样看来楼上大多数的人都不是很正确的解决方案,那不是效率的问题!
我自认为我代码可能连3流都算不上,但逻辑能力勉强能进2流,希望我的言辞不要引起楼上各位的反感!
发表于 2011-3-21 14:25:00 | 显示全部楼层
回复 66# love5173
这个问题一定要请教下.
如果要做到只删除非正常的重复的话,大概需要做一个智能分析吧.

不知道你的这个逻辑是指的什么呢?
是中文分词?还是联系上下文?

比如这样一个句式:
王五问:"大家准备好了吗?"
"没问题!"
"没问题!"
张三和李四几乎同时回答!
发表于 2011-3-21 17:20:58 | 显示全部楼层
回复 67# 3mile
这个就是难点啊 我也不会!我说的也是纯正则删除重复我会,但是回到命题的作者这边的话,删的不是数据库重复内容,这样就牵扯到联系上下文,所以我才说 即便我给出代码 也不是很合理的!
大家上面都没想到这个问题。我不是说大家的代码有问题,而是针对小说的话,不够完美,不是么!
另外我很崇拜你,2M大哥
发表于 2011-3-21 17:21:38 | 显示全部楼层
SORRY,是3M,打字太快,打错了
发表于 2011-3-21 18:34:22 | 显示全部楼层
回复 68# love5173
哦,这样啊.
本来还想学习新的思路呢.
看到逻辑这个词语,联想到的是算法.还以为有一种算法可以实现智能判断呢.
看来我又想多了
发表于 2011-3-21 18:39:25 | 显示全部楼层
回复 70# 3mile
让您失望了,如果我有什么想法一定跟您分享
发表于 2011-11-26 02:41:47 | 显示全部楼层
学习中,菜鸟啊
发表于 2011-12-3 02:06:01 | 显示全部楼层
楼主的代码是基于依次比较,复杂度是n^2 如果是28万行的文档,需要比较392亿次,再加上读取频繁读取的时间消耗,当然速度慢了
而nbmpe 和 批处理的原理应该都是 得到一行后,就对此行文字进行define(定义),类似于定义变量,处理的过程中,如果某一行文字没有被定义过,说明第一次出现,写入文档,如果已被定义说明此行文档文档已经出现过,属于重复,不处理,继续下一行。。复杂度是n,而查找是否曾定义应该是使用了含有索引功能的优化操作,时间复杂度不会太大,所以比较快。
我猜测就是这个
发表于 2011-12-19 02:30:51 | 显示全部楼层
回复 68# love5173


    Love 姐,不知道您用正则去重如何实现的,是全文的,不要相邻的...
    细细查看了楼上各位的发言,感触颇深,学习了不少...
    希望 姐能 慷慨 指点...
   
发表于 2011-12-19 02:33:24 | 显示全部楼层
本帖最后由 bdancerlc 于 2011-12-19 02:34 编辑

回复 41# afan


    A版,不知道您用正则去重如何实现的,
    小弟正则初级,想多学习学习,
    细细查看了楼上各位的发言,感触颇深,也学习了不少...
    希望A版  指点 一二...
    我想知道 全文去重的,相邻去重的论坛中已经有例子了..谢谢A版..
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-4-26 11:30 , Processed in 0.072831 second(s), 15 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表