xkowen
发表于 2010-11-15 18:18:27
大家都是强人,我来学习一下下
31408177
发表于 2010-11-16 07:22:56
想高手学习
aaaaab
发表于 2010-12-10 13:34:00
能提高速度吗?
suifengyao
发表于 2011-2-20 14:56:20
都是高手````
love5173
发表于 2011-3-21 09:46:32
回复 41# afan
String 可以包含 2147483647 个字符的字符串.
这个是AU3的数据类型的说明
不知道这么大的字符串能到多少呢?
8bit(位)=1Byte(字节)
1024Byte(字节)=1KB
1024KB=1MB
1024MB=1GB
1024GB=1TB
真的可以这么大吗?
我可以用纯正则删除所有重复行跟空行,只是看见28M的文本,感觉不是很靠谱!
另外用正则处理这类的东西有好处,我不是很懂,当初是为了从网页提取信息学的正则,不过确实好用! 我是新手多多指教
love5173
发表于 2011-3-21 10:04:08
然后,我们从函数回到命题本身。
小说中有个毛病,会出现一行中出现一句话,这句话是正常的重复。比如“没问题!”
如果我们的函数吧这些正常的重复都给删除了 是不是就修改了作者的本意!
这样看来楼上大多数的人都不是很正确的解决方案,那不是效率的问题!
我自认为我代码可能连3流都算不上,但逻辑能力勉强能进2流,希望我的言辞不要引起楼上各位的反感!
3mile
发表于 2011-3-21 14:25:00
回复 66# love5173
这个问题一定要请教下.
如果要做到只删除非正常的重复的话,大概需要做一个智能分析吧.
不知道你的这个逻辑是指的什么呢?
是中文分词?还是联系上下文?
比如这样一个句式:
王五问:"大家准备好了吗?"
"没问题!"
"没问题!"
张三和李四几乎同时回答!
love5173
发表于 2011-3-21 17:20:58
回复 67# 3mile
这个就是难点啊 我也不会!我说的也是纯正则删除重复我会,但是回到命题的作者这边的话,删的不是数据库重复内容,这样就牵扯到联系上下文,所以我才说 即便我给出代码 也不是很合理的!
大家上面都没想到这个问题。我不是说大家的代码有问题,而是针对小说的话,不够完美,不是么!
另外我很崇拜你,2M大哥
love5173
发表于 2011-3-21 17:21:38
SORRY,是3M,打字太快,打错了
3mile
发表于 2011-3-21 18:34:22
回复 68# love5173
哦,这样啊.
本来还想学习新的思路呢.
看到逻辑这个词语,联想到的是算法.还以为有一种算法可以实现智能判断呢.
看来我又想多了
love5173
发表于 2011-3-21 18:39:25
回复 70# 3mile
让您失望了,如果我有什么想法一定跟您分享
零度深蓝
发表于 2011-11-26 02:41:47
学习中,菜鸟啊
jamer
发表于 2011-12-3 02:06:01
楼主的代码是基于依次比较,复杂度是n^2 如果是28万行的文档,需要比较392亿次,再加上读取频繁读取的时间消耗,当然速度慢了
而nbmpe 和 批处理的原理应该都是 得到一行后,就对此行文字进行define(定义),类似于定义变量,处理的过程中,如果某一行文字没有被定义过,说明第一次出现,写入文档,如果已被定义说明此行文档文档已经出现过,属于重复,不处理,继续下一行。。复杂度是n,而查找是否曾定义应该是使用了含有索引功能的优化操作,时间复杂度不会太大,所以比较快。
我猜测就是这个
bdancerlc
发表于 2011-12-19 02:30:51
回复 68# love5173
Love 姐,不知道您用正则去重如何实现的,是全文的,不要相邻的...
细细查看了楼上各位的发言,感触颇深,学习了不少...
希望 姐能 慷慨 指点...
{:face (468):}
bdancerlc
发表于 2011-12-19 02:33:24
本帖最后由 bdancerlc 于 2011-12-19 02:34 编辑
回复 41# afan
A版,不知道您用正则去重如何实现的,
小弟正则初级,想多学习学习,
细细查看了楼上各位的发言,感触颇深,也学习了不少...
希望A版指点 一二...
我想知道 全文去重的,相邻去重的论坛中已经有例子了..谢谢A版..