删除重复行，为什么速度慢，帮看下代码(已解决)-已解决问题区-AUTOIT CN

xkowen 发表于 2010-11-15 18:18:27

大家都是强人，我来学习一下下

31408177 发表于 2010-11-16 07:22:56

想高手学习

aaaaab 发表于 2010-12-10 13:34:00

能提高速度吗？

suifengyao 发表于 2011-2-20 14:56:20

都是高手````

love5173 发表于 2011-3-21 09:46:32

回复 41# afan
String 可以包含 2147483647 个字符的字符串.
这个是AU3的数据类型的说明
不知道这么大的字符串能到多少呢？
8bit(位)=1Byte(字节)
1024Byte(字节)=1KB
1024KB=1MB
1024MB=1GB
1024GB=1TB
真的可以这么大吗？
我可以用纯正则删除所有重复行跟空行，只是看见28M的文本，感觉不是很靠谱！
另外用正则处理这类的东西有好处，我不是很懂，当初是为了从网页提取信息学的正则，不过确实好用！我是新手多多指教

love5173 发表于 2011-3-21 10:04:08

然后，我们从函数回到命题本身。
小说中有个毛病，会出现一行中出现一句话，这句话是正常的重复。比如“没问题！”
如果我们的函数吧这些正常的重复都给删除了是不是就修改了作者的本意！
这样看来楼上大多数的人都不是很正确的解决方案，那不是效率的问题！
我自认为我代码可能连3流都算不上，但逻辑能力勉强能进2流，希望我的言辞不要引起楼上各位的反感！

3mile 发表于 2011-3-21 14:25:00

回复 66# love5173
这个问题一定要请教下.
如果要做到只删除非正常的重复的话,大概需要做一个智能分析吧.

不知道你的这个逻辑是指的什么呢?
是中文分词?还是联系上下文?

比如这样一个句式:
王五问:"大家准备好了吗?"
"没问题!"
"没问题!"
张三和李四几乎同时回答!

love5173 发表于 2011-3-21 17:20:58

回复 67# 3mile
这个就是难点啊我也不会！我说的也是纯正则删除重复我会，但是回到命题的作者这边的话，删的不是数据库重复内容，这样就牵扯到联系上下文，所以我才说即便我给出代码也不是很合理的！
大家上面都没想到这个问题。我不是说大家的代码有问题，而是针对小说的话，不够完美，不是么！
另外我很崇拜你，2M大哥

love5173 发表于 2011-3-21 17:21:38

SORRY，是3M，打字太快，打错了

3mile 发表于 2011-3-21 18:34:22

回复 68# love5173
哦,这样啊.
本来还想学习新的思路呢.
看到逻辑这个词语,联想到的是算法.还以为有一种算法可以实现智能判断呢.
看来我又想多了

love5173 发表于 2011-3-21 18:39:25

回复 70# 3mile
让您失望了，如果我有什么想法一定跟您分享

零度深蓝 发表于 2011-11-26 02:41:47

学习中，菜鸟啊

jamer 发表于 2011-12-3 02:06:01

楼主的代码是基于依次比较，复杂度是n^2 如果是28万行的文档，需要比较392亿次，再加上读取频繁读取的时间消耗，当然速度慢了
而nbmpe 和批处理的原理应该都是得到一行后，就对此行文字进行define（定义），类似于定义变量，处理的过程中，如果某一行文字没有被定义过，说明第一次出现，写入文档，如果已被定义说明此行文档文档已经出现过，属于重复，不处理，继续下一行。。复杂度是n，而查找是否曾定义应该是使用了含有索引功能的优化操作，时间复杂度不会太大，所以比较快。
我猜测就是这个

bdancerlc 发表于 2011-12-19 02:30:51

回复 68# love5173

Love 姐，不知道您用正则去重如何实现的，是全文的，不要相邻的...
细细查看了楼上各位的发言，感触颇深，学习了不少...
希望姐能慷慨指点...
{:face (468):}

bdancerlc 发表于 2011-12-19 02:33:24

本帖最后由 bdancerlc 于 2011-12-19 02:34 编辑

回复 41# afan

A版，不知道您用正则去重如何实现的，
小弟正则初级，想多学习学习，
细细查看了楼上各位的发言，感触颇深，也学习了不少...
希望A版指点一二...
我想知道全文去重的，相邻去重的论坛中已经有例子了..谢谢A版..

页: 1 2 3 4 [5] 6 7 8

AUTOIT CN's Archiver