wangms 发表于 2015-2-9 16:03:11

求中文、汉语拼音、英文正则

一篇中文、汉语拼音、英文混编的文章,求分别匹配中文、汉语拼音、英文及其对应标点符号的正则表达式,搜索本论坛未果,请老师们出手帮忙!

wangms 发表于 2015-2-9 16:03:30

自己先顶一下。。。。。

半芯竹 发表于 2015-2-9 17:21:03

本帖最后由 半芯竹 于 2015-2-9 17:26 编辑

[^\x00-\xff]匹配中文。
匹配E文。
"一篇中文、汉语拼音、英文混编的文章 "你把你说的这段文章发上来,我们才能帮得上你。

wangms 发表于 2015-2-9 19:45:04

回复 3# 半芯竹
谢谢老师指教!我没有具体文章。现在问题是还有汉语拼音及各种对应的标点符号一同匹配下来。

半芯竹 发表于 2015-2-9 21:29:20

回复 4# wangms


    你没有明确的示例范文,我不知道怎么帮你。。

wangms 发表于 2015-2-10 11:52:57

单独正则中文、E文,半芯竹老师说的都对!现在问题是里头还含有汉语拼音、标点符号。中文及其对应标点符号、E文及其对应标点符号、汉语拼音及其对应标点符号,各自完整分别匹配出来,这个正则难题,正则大师级A大,不知能否出手帮一下

afan 发表于 2015-2-10 12:15:19

半角标点符号基本都是通用的,拼音也是包含字母的(有些没有声调的完全就是字母),因此它们之间混在一起也是完全正常的。所以,如此去区分它们,意义不大…

wangms 发表于 2015-2-10 12:47:38

biànlì de。 convenient;favourable。   便利的;biànshēn。all over。   遍身;biānyuán。   edge。   边缘;biǎobái   exhibit   表白   
biǎodá,express,   表达;biǎoshì。    display;express 。表示;bié dǎjiǎo mǒurén!   to let somebody alone!别打搅某人!
bié de rén。other。   别的人;bié de wù,   other ,别的物;biélǐ   let alone   别理
biépènɡ   let alone   别碰
biérén   another   别人
bǐjì   note   笔记
bǐjiào。   compare;comparison。   比较。
bǐjìbù 。notebook。   笔记簿。
bìnɡ    disease;illness   病
bīnɡ   ice   冰
bìnɡ de   ill   病的
bǐnɡɡān   cake   饼干
bīnɡqílín   ice-cream   冰淇淋
bǐsài   game   比赛
bìshǔ de   health resort   避暑地
bìxū   must;necessity   必须
bìyào   necessary   必要的
bìyè   graduate   毕业
bìyèshēnɡ   graduate   毕业生
bǐzhí de    direct   笔直的
bōduó   deprive   剥夺
bōli   glass   玻璃
bōlibēi   glass   玻璃杯
bómǔ   aunt   伯母
bóshì    doctor   博士
bówùɡuǎn   museum   博物馆
bōxuē   exploit   剥削
bózi   neck   脖子
bù   ⑴department;ministry;⑵no   ⑴部;⑵不
bǔ   catch   捕
bù ɡāoxìnɡ!    displeased!   不高兴!
bù mǎnyì !   displeased!   不满意!
bù shízì de。   illiterate。   不识字的。
bù zànchénɡ。   disapprove。   不赞成。
bù zhònɡyào de。   of no account。   不重要的。
bù zhùyì de。   careless。   不注意的。

wangms 发表于 2015-2-10 13:41:44

谢谢A大关注和指点!!我用‘[^\x00-\xff]+’匹配双字节、取反‘[\x00-\xff]+‘匹配单字节,匹配出来有的带声调拼音字母归到双字节里、而有的带声调拼音字母归到单字节里,这咋办?

afan 发表于 2015-2-10 17:48:55

回复 9# wangms


    拼音应该单独捕获,或者有单独匹配拼音的表达式

wangms 发表于 2015-2-11 11:20:33

A大能否赐教匹配拼音的单独表达式

afan 发表于 2015-2-11 11:40:39

匹配拼音(?:*[\x{C0}-\x{261}]*)+虽未测试很多,但应该没什么问题,因为这里不会有特殊字符,如果需要判断字符串是否是合法的拼音,那就很复杂了,只是这里完全没必要~

netegg 发表于 2015-2-11 11:50:49

又是想做字典的,别折腾了

netegg 发表于 2015-2-11 11:56:10

回复 12# afan
afan,xi'an,西安,能匹配出来吗,我没试,不清楚

afan 发表于 2015-2-11 12:00:08

回复 14# netegg


    西安是 Xī'ān ,可以匹配到 Xī 和 ān,如果要连在一起,需要修改下表达式
页: [1] 2 3
查看完整版本: 求中文、汉语拼音、英文正则