基于海量样本数据和行业领先的自然语言处理技术,定制专属智能策略,高效识别广告、涉政、涉黄等违规文本
基于多年行业经验,海量数据积累,采用NLP自然语言理解算法、深度学习技术,支持多语言检测,能够有效识别并拦截第三方广告、灌水、政治敏感、涉黄、涉暴恐、低俗辱骂等文本垃圾,保证内容安全。
涉政文本识别、色情文本识别、辱骂文本识别、违禁文本识别、广告导流、垃圾内容识别。
适用于社交聊天、视频弹幕、论文/长文、昵称、签名、留言、评论等场景。
NLP自然语言处理:智能机器学习算法,高效过滤复杂变种文本。
模型自更新:增量学习+主动学习,模型更强大。
多维度检测:全面检测文本内容安全,同时兼具检测设备ID、用户IP等数据。
策略灵活:规则可灵活配置,同时支持海外小语种检测。
1. 注册谛听账号(填写企业信息及联系方式)
2. 使用注册账号登录审核后台,在【项目管理】中创建新项目,等待客服人员联系确认需求(客服人员将会在1个工作日内联系)
3. 获取凭证,调试接口
4. 数据调通,成功开通试用服务
Q:对接谛听内容审核需要多长时间?
A:注册成功后,参考本文档即可在短时间内完成对接,参考前文代码示例可直接运行,无需其他流程。
Q:接入后如何进行测试?
A:接入之后建议使用真实数据进行测试,以获取最真实且符合业务需求的测试结果;同时在测试之前建议联系我们为您进行必要的配置,以达到最好的测试效果。
Q:谛听内容审核如何保证接入数据的安全?
A:我们的接口通过token进行鉴权,每个用户在注册成功后会得到属于自己的token,每次请求我们通过token进行身份验证,防止您提交的数据被篡改;同时我们支持https请求,在必要时保证了数据安全可靠的传输。
Q:通过谛听内容审核接口获取的结果,客户应该如何处理?
A:审核结果会对用户的处理给出建议,一般有review/block/pass三种建议,分别对应疑似/拦截/通过三种审核结果,客户可以选择前置或后置拦截,前置拦截时,客户会直接收到返回的审核结果,可自行通过结果对消息进行拦截、放行或其他处理;选择后置拦截时,客户需要提供禁言接口,针对判定结果属于疑似或拦截的消息,我们可以调用客户提供的禁言接口直接对用户进行禁言处理。
Q:接口参数中的非必选字段有什么作用?
A:接口参数中的非必选字段可以提升审核的效果,比如ip、用户id、角色id一类的详细信息可以使拦截更有针对性,为风险用户的预警储备必要的数据,在具备这些数据的情况下建议一并传输。
⼀、概要
⾃定义词库,可根据需求随时添加屏蔽内容,便捷的帮助我们在使⽤过程中及时调整审核规则,实现预期的⽂本内容审核效果。
但词库的添加并不是完全⽆害的,假如您将⼀个⽇常交流中常⽤的词加⼊了词库,您产品的正常沟通可能会因此受到较⼤影响, 为了使您在使⽤我们产品的过程中有着更好的体验,我们总结了⼀些添加规范供您参考,应⽤这些规范可⼤幅降低您的产品受到内容审核系统的不利影响。
⼆、规范内容
1. 词的⻓度
添加新的词汇时,限制较短词汇的过量加⼊可以明显地减少误杀。假如您的产品与战争内容关联性较⼤,那您将“炸弹”这个词加⼊⾃定义词库时可能会让⽤户交流出现困难,此时,我们建议您多加⼊⼏个较⻓的词汇,例如:“炸弹制作”,“塑胶炸弹”,“出售炸弹”等。最后对于单个字的词汇除⾮特例(如:“肏”),否则我们也同样不建议加⼊(例如“操”)。
2. 常⽤词
⼀些在⽇常交流中经常⽤到的词汇如果不慎被加⼊,将引起严重的误杀,⼗分伤害⽤户的体验。例如您可能为了减少交流中的⾊情内容⽽将“⻩⾊”加⼊词库,此时若是游戏玩家交流某个属性的装备,⽽这个装备的属性是⽤颜⾊(如“⻩⾊”)来表示时,那么后果是很明显的。所以我们建议对于没有明显证据表明某种倾向的词汇请不要轻易加⼊
,⽽对于“⻩⾊电影”这样证据明显的不合规词汇的加⼊引起的误杀则⾮常低。对于其他语种词汇也建议遵守此原则(如英语中的”system”)。
3. 缩写及简称
英⽂或者拼⾳(⾸字⺟)的缩写我们引⼊了⾃动矫正机制,如加⼊“av”或者“sm”这样的词汇,我们的系统不会将have, smile等词汇识别为不合规。但是您仍然需要注意您加⼊的缩写是否为某个常⽤的英⽂单词,这也会引起误杀。