垃圾短信判别范文-盘古文库

垃圾短信判别范文（精选3篇）

垃圾短信判别第1篇

当前垃圾短信层出不穷,严重干扰了人们的生活,甚至给用户带来严重的财产损失。电信运行商由于利益牵涉其中,在治理短信方面注定不会有大的作为,于是在用户的手机端进行垃圾短信的处理就变得十分有意义。

目前已经有相当多的此类软件产品被开发出来,但它们都存在这样或那样的问题,如不够智能、操作繁琐、功能繁杂、速度慢、准确率低等问题,而且绝大多数软件都是安装在智能机上的,不能惠及最大众的手机用户。而且那些声称智能的产品并不能做到真正的智能,不能对垃圾短信的各种变形做到有效的识别,也不能根据用户的习惯作出准确的判别,因此都不能够令用户满意。在这种情况下,我们在ARM9平台上开发了这个自主学习式垃圾短信判别分拣系统,采用人工智能领域的机器学习技术对垃圾短信的特征进行自主学习,完美地实现了在用户手机端对垃圾短信作出个性化准确识别。

1 系统开发的软硬件环境

系统采用博创科技UP-NETARM 2410-S开发板作为硬件平台,开发板的CPU为ARM920T内核的三星S3c2410芯片,微处理器202MHz,64MRAM。在开发板上插入一个北京博创科技公司的GPRS模块,接上天线、插入手机卡,结合开发板上的LCD显示屏模拟一个中低端的手机终端。系统在嵌入式Linux系统下使用C编程,界面部分使用Qt 4.4.0 for Embedded Linux。

2 系统的整体设计

该系统在手机原有SMS软件的基础上,设置一个垃圾箱,系统会对收到的短信息进行自动判别,判别为正常的短信发出提醒后放入收件箱,判别为垃圾短信则放入垃圾箱,显示垃圾短信的条数,不发出声音或震动提醒。除了设置垃圾箱,在针对短信内容操作的菜单中,增加一个菜单项“设为垃圾短信”或“设为正常短信”,当系统判别错误时,只需点击这个菜单项,系统就会自动对该短信内容进行学习,提取特征,并采用增量学习技术自动调整特征库中特征的权值,当后面再收到类似短信时,系统就会作出正确的判断。经过一段时间的使用,系统就可以完全按照个人的意愿进行准确的判断识别,几乎不出现误判。

系统以连续滑动的方式提取短信的二进制特征,因此能够应对垃圾短信的各种变形,并能够胜任各个国家的语言,甚至对图片、彩信的判别。操作简单,用户无需手动设置“关键词”、“过滤规则”、“黑白名单”等。当前的低端手机都已经主要采用ARM11芯片了,而我们的系统计算复杂度低,在ARM9平台下都可以运行流畅,完全可以满足从低端到高端的手机应用需求。

垃圾短信的判别分拣和垃圾邮件的过滤一样都属于短文本的分类,且都有着内容短小、特征字变形众多等共同特征,可以互相借鉴。判别模型、特征提取、训练方法是其中最核心的技术[1]。

3 判别学习模型的选择

判别模型的选择直接影响到垃圾短信的判别精度和处理速度。传统的文本分类模型有生成模型和判别学习模型两大类。生成模型如贝叶斯分类法采用极大似然估计来求解参数,它需要足够大的训练数据时才能达到最优,更关键是它不具备主动学习的能力,而目前垃圾短信形式不断变化的实际情况使它不能满足应用要求。于是我们采用了判别学习模型。判别学习模型主要有逻辑回归模型和SVM模型[2],都具有良好的性能,但逻辑回归模型具有更低的时间复杂度和空间复杂度,判别速度也要比SVM快很多,更加适合在通信终端实现在线学习。逻辑回归模型也是目前垃圾邮件过滤中的主流模型之一[3,4]。我们的系统采用逻辑回归模型,结合n-gram特征提取方法,取得了非常好的性能。

根据该短信中的特征,应用逻辑回归模型,根据短信的特征判断该短信是垃圾短信的概率(即得分)如式(1)所示:

$Ρ (y = S p a m | \bar{t}) = \frac{\exp (\bar{w} \cdot \bar{t})}{1 + \exp (\bar{w} \cdot \bar{t})}$ (1)

其中: $\bar{t}$ 是该封短信的所有特征组成的0-1向量,即(1,0,,0,1);

$\bar{w}$ 是该封短信的所有特征相对应的特征权重向量。

某条短信为非垃圾短信的概率如式(2)所示: $Ρ (y = Η a m | \bar{t}) = 1 - Ρ (y = S p a m | \bar{t}) = 1 - \frac{\exp (\bar{w} \cdot \bar{t})}{1 + \exp (\bar{w} \cdot \bar{t})} (2)$

然后定义一个分界值threshold,就可以判断该封短信是垃圾短信还是非垃圾短信。

因此,短信过滤的函数为:

其中最重要的是计算出各个特征对应的特征权重 $\bar{w}$ ,也就是通过训练器建立和完善特征库。

4 增量学习的训练方法

本文参考了Joshua Goodman提出的垃圾邮件的训练方法TONE[1,5],并在训练中采用梯度下降的方法更新特征库中特征的权重。使用梯度下降方法时,采用一个特征学习速率来避免某一封短信对特征库中特征的权重影响过大,避免出现由一次权重调整导致的大面积误判。

TONE(Train On/Near Error) 是一种主动学习的方法,由TOE(Train ON Error)方法改进而来。TOE方法仅当短信被误判时才进行训练。但是仅对误判的短信进行训练导致过滤器数据不足,不能快速提高系统的准确率。TONE(Train On/Near Error)在TOE基础上加以改进,预设一个分数界限,当短信的得分与判断阀值之差的绝对值在界限之内时,即使正确判断也进行训练。

对于本文采用的逻辑回归模型,当短信的得分(即计算得到的概率值)大于等于0.5时,就判断成垃圾短信;反之,当短信的得分小于等于0.5时,就判断成正常短信。采用TONE训练方法,将在下述两种情况下进行训练:(1)过滤器分类错误;(2)如果设定阈值为0.1,则得分介于0.4到0.6之间的短信都需要进行训练。

训练时采用梯度下降的方法,通过选取适当的特征学习速率来更新特征库中特征的权重。采用梯度下降的权重更新算法如下:

这种根据不断收到的短信息进行不断学习的方式,本质上属于一种反馈技术[6]。陆续收到的短信息构成了反馈数据集,分类器通过从反馈数据中实现增量学习,获取最新特征子集,并修正已经训练完成的分类特征库,最大程度地不断优化分类器的性能[7]。增量学习的训练流程如图1所示。

系统的这种在线训练方法和权重调整方法,使系统实现了对垃圾短信的自主学习、合理判别和准确度极高的个性化分拣。而且它的工作方式使它具备使用越久越准确的特性。

5 特征提取及特征库的建立

垃圾短信的判断的依据是垃圾短信的特征。目前声称智能的垃圾短信过滤软件大多以词作为特征的基本单元,需要配合编码识别和分词,有的还需要用户手工编辑关键词。这种以词为过滤单元的方式,对未录入关键词库的特征无能为力,对文字变形方式的垃圾短信也无能为力。

由于目前垃圾短信普遍采用文字变形:如英文短信在单词中间插入空格、或字母重叠,中文短信如“发*/票”、“fa *票”、“【发】【票】”等夹杂拼音、特殊符号等方式,还有的垃圾短信要求你竖着看,传统的以词为过滤单元的方法已经无法满足应用的要求。针对这种情况,我们采用了统计分析的方法来进行短信特征提取:该方法将短信看成一个字节序列,以滑动窗口的方式依次提取长度为n的字节片段(n-gram),即连续的n个字节,作为分析特征。例如,message,当n=4时,抽取的特征为mess、essa、ssag、sage 4个4-gram,当文字变形为mess-age时,抽取到的特征则为mess、ess-、ss-a、s-ag、-age,这种不正常的变形往往出现在垃圾短信中,表明了短信的性质。其他国家的语言也是一样,例如中文使用至少2个字节表示一个字(如GB2312使用两个字节表示1个汉字,GB18030使用两个字节或四个字节表示1个汉字)。这样抽取到的特征虽然很多不是一个完整的汉字,但是词语变形方式的垃圾短信特征却能够被有效提取,夹杂的各种符号恰好表明了短信的性质。这种特征提取方式应用在垃圾短信的识别领域还是第一次。

特征项定义好后,按特征项定义进行特征抽取,然后对全部gram 的出现频率进行统计,按照事先设定的阈值进行过滤形成关键的gram 列表,即为该文本内容的特征向量空间,列表中的每一种gram 均为一个特征向量的维度。如果短信中包含了某个n-gram,其值就为1,否则为0[1]。

同时,这种n-gram特征提取方式,提取的是短信内容的二进制特征,避免了繁杂的短信解析、汉字编码转换等工作,无需任何字典的支持、无需分词,不但可以有效处理变形短信,还可以满足包括中文以内的所有国家文字的处理能力,也可以胜任彩信、图片等的特征提取。而且,对于短信过滤,n-gram还有一个优势,就是能够容忍无线通信过程中的错码(一个字节的错误,会导致随后的整篇错误)。n-gram方式的特征提取将使人为插入错码的垃圾短信方式无处藏身。

对于中文特征提取,我们在近年SEWM垃圾邮件评测中的测试结果表明,在特征提取中取n=4可以获得最理想判别效果[1]。因此,在本系统中同样取n=4。通常短信的长度限制是140个字符,汉字则通常为70个,若GB2312编码方式137个4-gram正好70个字。这种n-gram方法建立的特征库不会遗漏特征,也不会占用太多系统资源。而且系统在短信转变成文字显示给用户查看时在内存中已进行过特征提取和判别,保证了最小程度的影响通信终端的性能,绝不会使用户感觉到手机速度变慢,从而影响手机用户的使用。

6 实验结果

判别分拣系统从本质上来说是一个分类过滤器,它的性能可以从正确率和错误率两方面来评价。正确率,就是无论垃圾短信(spam)还是正常短信(ham),所有正确识别的短信的数量与参与判别的短信总数的比值。错误率则由两个主要方面组成:正常短信被放入正常短信文件夹的程度和垃圾短信被放入垃圾短信文件夹的程度。过滤器的错误由两个指标评价:正常短信误判率ham%是正常短信被放入垃圾短信文件夹的几率,垃圾短信误判率spam%是垃圾短信被放入正常短信文件夹的几率。在这两个指标上都达到最小程度的过滤器被认为是高性能的[8]。

在正常短信和垃圾短信的误判之间有一个自然的趋势,就是减少其中一方面的错误,通常会使另一方面错误增加,因此单纯强调任何一方面的评价方式都是不科学的。而逻辑平均误判率lam%则可以兼顾两方面,它同时也是垃圾邮件领域国际上通用的评价指标[9]。其定义为:

$l a m % = \log i t^{- 1} \frac{l o g i t (h a m %) + l o g i t (s p a m %)}{2}$ (4)

其中

$\log i t (x) = \log \frac{x}{100 % - x}$ (5)

在2011年3月至6月期间,发动学生积累收集了8019条短信,构成实验语料数据集(见表1)。并将收集到的短信进行人工标注,垃圾短信标注为0,正常短信标注为1,所有测试用数据的标注全部由一个人完成,以保证原始判断的准确性和个性化判断。

先使用这些短信息对系统进行离线训练,也就是离线学习,编写程序将垃圾短信集合文件生成供训练用垃圾短信数据集,调用系统的分类程序生成离线特征库。然后通过在线学习的方式,在特征项提取n=4,即4-gram、逻辑回归分类法分界值为0.5的情况下(应用本系统原理实现的高性能垃圾邮件过滤器在中国计算机学会主办SEWM 2010 垃圾邮件过滤评测中曾取得5项第一的好成绩,我们直接利用当时实验获得参数作为系统的初始参数[1]),随机发送新的短信息,根据系统的判断情况,微调训练器参数TONE和TRAIN_RATE。

实验结果(见表2)显示:本系统对收集到的训练语料离线学习之后,对测试集中的短信判别,其逻辑平均误判率已经达到1%以下。通过在线学习方式实时调整权重之后可以看到,对样本中短信的判别正确率始终在99.99%以上,对于样本中出现的特征,几乎不出现误判。其中TONE阈值为0.1,学习速率rate为0.005时,获得了最佳的判别效果。

在202MHz、64MRAM的ARM9平台环境下实际测试,对于不超过140个字符长度的短信息,平均判别时间小于0.01s。对收集的8 000余条短信训练之后得到的特征库大小低于9KB,判别分拣系统内存消耗低于1.5MB,CPU峰值低于1%。由于无需词典和分词,对系统的资源需求大大降低,同时相比基于分词技术的方法,判别速度提高了230倍,判别时间只为它的0.4%[10],且无国别限制。

7 结语

由上可以得出我们的系统具有操作简单、自主学习、智能化、个性化判断、准确度高、运行速度快、满足国际化应用、对系统性能要求低等全面的优点和突出的优势。如果手机生产商有意,它完全可以替换手机中的短信程序,使垃圾短信的判断识别成为手机SMS程序中的内置功能,让垃圾短信的判别分拣成为手机中的系统调用。目前,高性能手机越来越普及,2GRAM+1G主频、甚至双核的智能手机已经开始走入人们的生活,高性能手机将逐渐地成为主流,而我们在相当于低端手机环境下取得的测试结果充分显示了我们的系统完全可以在由低端到高端的手机系统中流畅运行,也即表明这项技术可以应用在世界上绝大多数手机当中,相比于现在绝大多数的此类软件都是安装在智能手机上的应用程序,我们的系统无疑拥有着更广阔的市场应用前景,一经采用将使世界上广大的手机用户受益。

参考文献

[1]齐浩亮,程晓龙.高性能中文垃圾短信过滤器[J].中文信息学报,2010,24(2):76-83.

[2]李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报:自然科学版,2005,33(3):53-55.

[3]姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687.

[4]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859.

[5]Goodman J,Yih W.Online Discriminative Spam Filter Training[C/OL].Third Conference on Email and Anti-Spam(CEAS 2006).2006:113-115.http://www.ceas.cc/2006/22.pdf.

[6]Lee J H.Combining the evidence of different relevance feedback meth-ods for information retrieval[J].Information Processing&Manage-ment,1998,34(6):681-691.

[7]陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864.

[8]Cormack G V,Jose Maria Gomez Hidalgo,Enrique Puertas Sanz.Fea-ture engineering for mobile(SMS)spam filtering[C]//Proceedings ofthe 30th Annual International ACM SIGIR Conference on Research andDevelopment in Information Retrieval[s.n.],2007:871-872.

[9]Jose Maria Gomez Hidalgo,Guillermo Cajigas Bringas,Enrique PuertasSanz,et al.Content based SMS spam filtering[C]//Proceedings of the2006 ACM Symposium on Document Engineering[s.n.],2006:107-114.

如何屏蔽垃圾短信第2篇

用短信防火墙（不是所有的手机都有）...到营业厅取消梦网服务...干脆关闭短信业务....先说下什么是垃圾短信，比如号码是（东莞地区）076988、076933、076911等的号码，这些短信的内容大家应该都很清楚，无非是骗钱的，什么“我不小心把电话本删了，想不起你的名字”、“拨打******56737听少妇刺激的声音”等等，你一回复信息就马上扣钱了，5元——10元不等，我可怜的一个同事听少妇刺激的声音听了8分钟扣了40多元！

我用的是东莞的动感地带，打电话到1860，小姐接通后，你就语气严厉的告诉她，你被垃圾短信骚扰得很烦，要求屏蔽除1860以外的所有垃圾短信，小姐很客气的告诉我，不能屏蔽，让我不要回复，自己删除垃圾短信就可以了。我说我不信，然后告诉她偶是学电子通信专业的，屏蔽垃圾短信电信绝对可以做到，小姐就有点慌了，请大家记住，我当时的语气是很严厉的，不然是没有效果的。然后说可以屏蔽我手机上收到的短信号码，我不肯妥协，告诉她必须全部屏蔽。小姐说超出她们的能力范围，要向上面提交申请，我说那是你们的事，跟我无关，如果你不给我提供这个屏蔽服务，嘿嘿，就等着我用别的方法吧！（当时我说我有朋友在报社、律师楼）当时我挂机了，第二天上午，1860给我来电话了，说技术上做不到，还是不能屏蔽，我仍然是强硬的态度和严厉的语气，告诉她们技术是她们的事，跟我无关，我记得小姐说一句我顶她三句，被偶顶得都没话说了，哈哈厉害吧！又挂机了，到了下午，又打电话来了，告诉我说可以屏蔽所有东莞的垃圾短信（就是以0769开头的垃圾短信），别的地方的她们没有办法，我想也只有这样了，就同意了，我问了服务小姐，原来我的投诉已经成了恶性投诉，她们不搞定是很麻烦的，所以很快就搞好了！

挖哈哈，再也没有垃圾短信来骚扰我了，现在整个世界都清静了。。。

同意我的请支持我，把帖子顶上去，让更多的人看到，明天就打电话去1860 吧！行使我们消费者应有的权利！！

浅析垃圾短信泛滥问题第3篇

垃圾短信的定义

根据《中华人民共和国电信条例》第五十七条的规定，任何组织或个人利用电信网络制作、复制、发布、传播含有 (1)反对宪法所确定的基本原则的；(2)危害国家安全，泄露国家秘密，颠覆国家政权，破坏国家统一的；(3)损害国家荣誉和利益的；(4)煽动民族仇恨、民族歧视，破坏民族团结的；(5)破坏国家宗教政策，宣扬邪教和封建迷信的；(6)散布谣言，扰乱社会秩序，破坏社会稳定的；(7)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的；(8)侮辱或者诽谤他人，侵害他人合法权益的；(9)含有法律、行政法规禁止的其他内容的。垃圾短信，是指未经接收者同意的，包含违反法律规定或具有广告信息内容的，或以恶意报复他人为目的的、侵害接收者通信自由、生活安宁或违背社会善良风俗的信息。

垃圾短信的表现及其危害

目前，日常生活中的垃圾短信主要有几种：一是骚扰短信，大多是无聊的人的恶作剧，或是为达到报复目的恶意骚扰，或是相熟的人互发黄色短信等；二是广告推销短信，如办假证，办保险，促销各种打折商品等；三是诈骗性质的短信，如虚假的中奖短信，虚假的招聘短信，利用同名同姓欺骗性收款短信等。垃圾短信的泛滥，对我们的生活产生了困扰，带来极大的危害。从法律的角度来讲，垃圾短信其实质上侵犯了公民的基本权利和自由。

第一，侵犯公民的通信自由权。通信自由权，既包括发送信息的自由，也包括接收信息的自由。具体到短信方面，通信自由是指手机用户既有发送短信的自由，也有接收短信息的自由，并且有自主的决定发送或接收哪些短信息，接受哪些人发送的信息或发送信息给哪些人的自由。然而在生活中人们往往只能决定发送信息的方式和发送的内容，在接受信息上却处于被动的状态，用户难以采取有效的措施，拒绝接受垃圾短信的干扰。

第二，侵犯公民的隐私权。隐私权是指自然人享有的私人生活安宁与私人信息秘密依法受到保护，不被他人非法侵扰、知悉、收集、利用和公开的一种人格权，而且权利主体有权决定自己是否向他人公开隐私以及公开的程度和范围等。但是，垃圾短信的出现，意味着个人信息的泄漏，这对公民的隐私构成极大的威胁。

第三，侵犯公民的自主决定权。对于手机用户而言，明明没有制定任何短信息，可手机上总会收到一些莫名其妙的短信息，这属于消费者权益保护法上的强迫接收服务的行为；而如果用户收到这样的短信息后不予理睬，部分短信在免费发布一定时间后，往往开始收取一定的费用，消費者将此类短信称为“霸王短信”。

治理垃圾短信的建议

垃圾短信的猖獗，关键在于利益根源，遏制和打击垃圾短信刻不容缓。

1、加强监管力度。目前，国家明确监管的主要是犯罪短信、黄色短信和诈骗短息等违法短信；而广告促销短信不在规定之列，国家对此还处于监管空白状态。因此要尽快加强理发，加快出台通讯服务管理规定，明确通信运营商、电信增值业务服务商及委托人的义务和责任，对广告短信加以规制。

2、加强对公民道德素质的教育。要想彻底的治理垃圾短信，要求全社会形成一种抵制垃圾短信的风气。手机用户应该积极行动起来，利用法律武器，向社会不良风气宣战。通过自身遵守规范、检举不良行为，让垃圾短信无处藏身，将垃圾短信彻底消灭，还短信空间一片洁净。

3、加强立法工作。短信立法应以保护手机用户合理使用短信并不受他人侵害、干扰，维护信息空间洁净和安全，为总原则。要规范短信的行政监督权；规范信息服务参与者的权利和义务以及违反义务应当承担的责任。

（作者单位：青岛大学法学院）

垃圾短信判别范文

垃圾短信判别第1篇

如何屏蔽垃圾短信第2篇

浅析垃圾短信泛滥问题第3篇

垃圾短信判别范文

猜你喜欢

栏目

最近更新

热门标签

垃圾短信判别范文

垃圾短信判别 第1篇

如何屏蔽垃圾短信 第2篇

浅析垃圾短信泛滥问题 第3篇

垃圾短信判别范文

猜你喜欢

栏目

最近更新

热门标签

垃圾短信判别第1篇

如何屏蔽垃圾短信第2篇

浅析垃圾短信泛滥问题第3篇