找回密码
 加入
搜索
查看: 12184|回复: 37

[AU3基础] 求中文、汉语拼音、英文正则

 火.. [复制链接]
发表于 2015-2-9 16:03:11 | 显示全部楼层 |阅读模式
一篇中文、汉语拼音、英文混编的文章,求分别匹配中文、汉语拼音、英文及其对应标点符号的正则表达式,搜索本论坛未果,请老师们出手帮忙!
 楼主| 发表于 2015-2-9 16:03:30 | 显示全部楼层
自己先顶一下。。。。。
发表于 2015-2-9 17:21:03 | 显示全部楼层
本帖最后由 半芯竹 于 2015-2-9 17:26 编辑

[^\x00-\xff]
  匹配中文。
[A-Za-z] 
匹配E文。
"一篇中文、汉语拼音、英文混编的文章 "你把你说的这段文章发上来,我们才能帮得上你。
 楼主| 发表于 2015-2-9 19:45:04 | 显示全部楼层
回复 3# 半芯竹
谢谢老师指教!我没有具体文章。现在问题是还有汉语拼音及各种对应的标点符号一同匹配下来。
发表于 2015-2-9 21:29:20 | 显示全部楼层
回复 4# wangms


    你没有明确的示例范文,我不知道怎么帮你。。
 楼主| 发表于 2015-2-10 11:52:57 | 显示全部楼层
单独正则中文、E文,半芯竹老师说的都对!现在问题是里头还含有汉语拼音、标点符号。中文及其对应标点符号、E文及其对应标点符号、汉语拼音及其对应标点符号,各自完整分别匹配出来,这个正则难题,正则大师级A大,不知能否出手帮一下
发表于 2015-2-10 12:15:19 | 显示全部楼层
半角标点符号基本都是通用的,拼音也是包含字母的(有些没有声调的完全就是字母),因此它们之间混在一起也是完全正常的。所以,如此去区分它们,意义不大…
 楼主| 发表于 2015-2-10 12:47:38 | 显示全部楼层
biànlì de。 convenient;favourable。   便利的;biànshēn。  all over。   遍身;biānyuán。   edge。   边缘;biǎobái   exhibit   表白   
biǎodá,  express,   表达;biǎoshì。    display;express 。  表示;bié dǎjiǎo mǒurén!   to let somebody alone!  别打搅某人!
bié de rén。  other。   别的人;bié de wù,   other ,  别的物;biélǐ   let alone   别理
biépènɡ   let alone   别碰
biérén   another   别人
bǐjì   note   笔记
bǐjiào。   compare;comparison。   比较。
bǐjìbù 。  notebook。   笔记簿。
bìnɡ    disease;illness   病
bīnɡ   ice   冰
bìnɡ de   ill   病的
bǐnɡɡān   cake   饼干
bīnɡqílín   ice-cream   冰淇淋
bǐsài   game   比赛
bìshǔ de   health resort   避暑地
bìxū   must;necessity   必须
bìyào   necessary   必要的
bìyè   graduate   毕业
bìyèshēnɡ   graduate   毕业生
bǐzhí de    direct   笔直的
bōduó   deprive   剥夺
bōli   glass   玻璃
bōlibēi   glass   玻璃杯
bómǔ   aunt   伯母
bóshì    doctor   博士
bówùɡuǎn   museum   博物馆
bōxuē   exploit   剥削
bózi   neck   脖子
bù   ⑴department;ministry;⑵no   ⑴部;⑵不
bǔ   catch   捕
bù ɡāoxìnɡ!    displeased!   不高兴!
bù mǎnyì !   displeased!   不满意!
bù shízì de。   illiterate。   不识字的。
bù zànchénɡ。   disapprove。   不赞成。
bù zhònɡyào de。   of no account。   不重要的。
bù zhùyì de。   careless。   不注意的。
 楼主| 发表于 2015-2-10 13:41:44 | 显示全部楼层
谢谢A大关注和指点!!我用‘[^\x00-\xff]+’匹配双字节、取反‘[\x00-\xff]+‘匹配单字节,匹配出来有的带声调拼音字母归到双字节里、而有的带声调拼音字母归到单字节里,这咋办?
发表于 2015-2-10 17:48:55 | 显示全部楼层
回复 9# wangms


    拼音应该单独捕获,或者有单独匹配拼音的表达式
 楼主| 发表于 2015-2-11 11:20:33 | 显示全部楼层
A大能否赐教匹配拼音的单独表达式
发表于 2015-2-11 11:40:39 | 显示全部楼层
匹配拼音
(?:[a-zA-Z]*[\x{C0}-\x{261}][a-zA-Z]*)+
虽未测试很多,但应该没什么问题,因为这里不会有特殊字符,如果需要判断字符串是否是合法的拼音,那就很复杂了,只是这里完全没必要~
发表于 2015-2-11 11:50:49 | 显示全部楼层
又是想做字典的,别折腾了
发表于 2015-2-11 11:56:10 | 显示全部楼层
回复 12# afan
afan,xi'an,西安,能匹配出来吗,我没试,不清楚
发表于 2015-2-11 12:00:08 | 显示全部楼层
回复 14# netegg


    西安是 Xī'ān ,可以匹配到 Xī 和 ān,如果要连在一起,需要修改下表达式
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-5-12 15:36 , Processed in 0.082978 second(s), 24 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表