qixinwb 发表于 2012-6-9 15:30:23

前辈帮忙处理大量文本内容,需要用正则!

本帖最后由 qixinwb 于 2012-6-9 20:58 编辑

<tr bgcolor=#fafafa onmouseover=this.bgColor='#eaeaf4'; onmouseout=this.bgColor='#fafafa';>
<td class="td3" style="text-align: center;" COLSPAN="8"><span CLASS="b red">武汉自驾车去·河北省·线路·里程</span></td>
</tr>

<tr bgcolor=#fafafa onmouseover=this.bgColor='#eaeaf4'; onmouseout=this.bgColor='#fafafa';>


<td class="td3" style="text-align: center; background: #e8f7ff;">石家庄</td>
        <td style="text-align: center"><a TARGET="_blank" href="http://www.checi.cn/way_to/wuhan/39/">武汉到石家庄线路</a></td>
        <td style="text-align: center">896千米</td>
        <td style="text-align: center">11小时43分钟</td>



<td class="td3" style="text-align: center; background: #e8f7ff;">唐山</td>
        <td style="text-align: center"><a TARGET="_blank"href="http://www.checi.cn/way_to/wuhan/63/">武汉到唐山线路</a></td>
        <td style="text-align: center">1,280千米</td>
        <td style="text-align: center">16小时56分钟</td>


</tr>

<tr bgcolor=#fafafa onmouseover=this.bgColor='#eaeaf4'; onmouseout=this.bgColor='#fafafa';>


<td class="td3" style="text-align: center; background: #e8f7ff;">秦皇岛</td>
        <td style="text-align: center"><a TARGET="_blank"href="http://www.checi.cn/way_to/wuhan/78/">武汉到秦皇岛线路</a></td>
        <td style="text-align: center">1,462千米</td>
        <td style="text-align: center">18小时17分钟</td>



<td class="td3" style="text-align: center; background: #e8f7ff;">邯郸</td>
        <td style="text-align: center"><a TARGET="_blank"href="http://www.checi.cn/way_to/wuhan/86/">武汉到邯郸线路</a></td>
        <td style="text-align: center">731千米</td>
        <td style="text-align: center">9小时35分钟</td>


</tr>

<tr bgcolor=#fafafa onmouseover=this.bgColor='#eaeaf4'; onmouseout=this.bgColor='#fafafa';>


<td class="td3" style="text-align: center; background: #e8f7ff;">邢台</td>
        <td style="text-align: center"><a TARGET="_blank" href="http://www.checi.cn/way_to/wuhan/106/">武汉到邢台线路</a></td>
        <td style="text-align: center">786千米</td>
        <td style="text-align: center">10小时24分钟</td>



<td class="td3" style="text-align: center; background: #e8f7ff;">保定</td>
        <td style="text-align: center"><a TARGET="_blank" href="http://www.checi.cn/way_to/wuhan/124/">武汉到保定线路</a></td>
        <td style="text-align: center">1,031千米</td>
        <td style="text-align: center">13小时33分钟</td>


</tr>
部分内容如上,我需要替换其中的所有的类似“href="http://www.checi.cn/way_to/wuhan/39/">武汉到石家庄线路”为“href="武汉到石家庄线路.html">武汉到石家庄线路”,依此类推、。。。
href="武汉到石家庄线路.html">武汉到石家庄线路
href="武汉到唐山线路.html">武汉到唐山线路
href="武汉到秦皇岛线路.html">武汉到秦皇岛线路
href="武汉到邯郸线路.html">武汉到邯郸线路
.......
附件是整个文档,简单的说,就是把top.txt里面一部分部分的替换成list.txt里面的

Ycxw2008 发表于 2012-6-9 15:44:03

本帖最后由 Ycxw2008 于 2012-6-9 15:57 编辑

StringRegExpReplace(FileRead("C:\Users\Administrator\Desktop\top.txt.au3"),'(?<=<a TARGET="_blank" href=)([^\>]+\>)([^\<]+)',"bbx/$2\.html")

试试看
是这样吗

qixinwb 发表于 2012-6-9 16:46:09

我测试显示错误:Error:Unknown Function name。麻烦你再上传编译好的exe我试试看?莫非是我的版本问题

afan 发表于 2012-6-9 20:25:24

Local $Str = FileRead('top.txt')
Local $sTest = StringRegExpReplace($str, '(?<=href=")[^"]+">(.+?)(?=</a)', 'bbx/$1.html">$1')
FileWrite('top_修改.txt', $sTest)

qixinwb 发表于 2012-6-9 21:04:44

望尘莫及!。。。{:face (229):}

afan 发表于 2012-6-9 21:07:58

望尘莫及!。。。
qixinwb 发表于 2012-6-9 21:04 http://www.autoitx.com/images/common/back.gif


    何出此言?

qixinwb 发表于 2012-6-9 21:21:31

实在是佩服,找你果然正确

qixinwb 发表于 2012-6-9 22:30:59

回复 6# afan


   
好不容易把那个看懂了,不过新难题又来了。。。
这回是两处要替换,完全没有头绪了。。。
页: [1]
查看完整版本: 前辈帮忙处理大量文本内容,需要用正则!