(一)项目名称
互联网广告数据监测与分析服务。
(二)采购清单
包号 |
标的名称 |
03 |
互联网广告数据监测与分析服务 |
(三)项目背景
随着互联网业的迅猛发展,网络广告发展迅速,渗透到现代生活的各个层面。但同时一些虚假、夸大等违法广告充斥网络,损害消费者利益,破坏了市场正常秩序,制约了网络广告市场的健康发展。
国家市场监管总局关于做好《互联网广告管理暂行办法》贯彻实施工作的通知(工商广字[2016]148 号)要求“利用信息网络技术实现对广告等行为的在线监督监测,推动移动互联、大数据等先进技术与工商行政管理和市场监管业务的全面融合”,“各地工商、市场监管部门也要积极提升互联网广告监管的信息化技术水平,运用互联网的技术和手段做好互联网广告监管工作,实现‘以网管网’”。
(四)服务目标及内容
通过本项目实现对全市重点的互联网媒体、平台等媒介发布的广告实施监测。通过数据搜索、网络爬虫、模拟 IP、OCR 识别、语音转文字、帧截取等互联网技术及时、有效的采集到互联网媒介发布的广告信息,并通过违规模型识别出涉嫌违法广告线索数据。
实施时间:乙方应自合同签订之日起至 2023 年 12 月 31 日前完成本分包项下的全部工作。
实施地点:采购人指定地点。
二、付款条件
详见第六章 拟签订的合同文本相关规定。
1、总体目标
(1)实现对全市互联网广告的信息化数据采集、初筛,及时发现涉嫌违法互联网广告线索;
(2)减少人力成本,提高监管效率;
(3)规范互联网广告发布行为,促进行业自律;
(4)采集并分析行业数据,为行政决策提供数据支持;
(5)为京津冀广告监测监管协同机制提供数据支持,实现京津冀互联网广告监测数据共享。
2、业务需求
一是通过本项目实现对全市重点的互联网媒体、广告主体等媒介发布的广告实施监测,同时为强化京津冀广告协同监测监管,要对天津、河北两地广告主体在北京媒体发布的互联网广告进行采集。要通过大数据、云计算、网络爬虫、模拟IP、人群画像、语音转文字、帧截取、OCR识别技术、NLP识别技术等互联网技术及时、有效的采集到互联网媒介发布的广告信息,并通过违法模型识别出涉嫌违法广告线索数据,及时发现涉嫌违法广告线索,为净化网络广告市场环境提供数据支持。
二是为推动解决直播带货虚假宣传问题,强化落实国家市场监管总局《关于加强网络直播营销活动监管的指导意见》等相关工作要求,该项目依托信息化技术手段要对北京地区重点平台的直播带货数据实施搜索采集,并获取直播带货视频数据,通过违法识别模型识别出涉嫌违法问题,及时发现涉嫌虚假违法广告或网络交易线索,提升智慧监测监管效能。
三是随着互联网广告表现形式的不断更迭变化,一些商业广告与网络交易、网络信息等内容越来越难以区分。因此,该项目要进一步强化网络技术应用,按照采购人需求对一些网络交易、网络信息等可能构成商业广告行为的,以及涉及知识产权侵权等行为的相关数据信息进行采集、识别,打击变相发布虚假违法商业广告的行为。
二、服务/功能需求
1、广告采集服务
基于大数据、云计算、人工智能等技术,满足高速、稳定、安全的理念,按照指定的互联网媒介及广告内容对各种形式、类别的广告数据进行采集。能够模拟真实用户浏览媒体行为去请求对方站点来获取动态生成的广告页面,可以针对移动端的使用场景抓取广告页面,充分利用大数据分析、机器学习等先进技术,实现对互联网广告的海量采集。
采集互联网媒介范围主要包括PC端的门户、电商、视频、搜索引擎、社交网站、企业自有网站等以及移动端APP、公众号、小程序等。
广告形式主要包括图片、文字、图文链接、展示广告、广告联盟、通栏广告、悬浮广告、信息流、弹出广告、音视频、直播营销、搜索引擎、精准投放、算法广告等各种广告形式。
(1)PC端数据采集。重点采集注册地在北京的互联网媒介以及北京市企业在全国范围利用互联网发布的广告数据。
(2)移动端数据采集。对采集媒体投放广告细化到全国地市级采集。
(3)专项数据采集。根据广告监测监管工作重点,开展专项广告数据采集,对指定商品服务类别、广告投放地区、企业主体等维度的广告数据进行采集。
(4)直播营销数据采集。采集北京地区重点电商平台、短视频平台及MCN机构等发布的直播数据。
2、广告识别服务
通过OCR、NLP、云计算、人脸识别、关键字词库、以图搜索、语音转文字、帧截取等技术,根据《广告法》、《互联网广告管理暂行办法》等法律法规建立全品类违法广告识别模型。要针对重点行业、重点领域如教育培训行业、金融行业、房地产行业等监管工作重点建立重点行业识别模型。要通过上述识别模型获取到相关涉嫌违法广告数据,并对素材中的涉嫌违法点进行标识。同时,能通过机器自学习的方式对抓取广告线索的确认结果进行分析,及时更新、优化广告识别模型。
要针对直播营销数据,建立直播营销数据识别模型,依托先进技术实现对直播情况及视频数据的处理分析,获取到直播数据的基本指标、直播数据特点、具体内容、营销商品服务类别、表现形式、涉嫌违法问题等信息。直播营销数据的基本指标一般包括销售金额、销售数量、直播场均互动率(转发、评价、点赞)、场均进场人数、主播粉丝数、主播热力值等。
3、广告数据的存储
本项目涉及到的全量数据要求使用云存储,对每天广告采集量(不少于100万条次)进行存储,可确保数据随时查看、使用。
4、数据应用
数据的应用服务应满足数据的接收、复核、分派、处理反馈、数据统计等业务工作全流程的使用要求,提供数据审核、任务管理、媒体互动、统计查询等服务。
京津冀广告数据应实现三地广告数据共享,对天津、河北两地企业在北京媒体发布的互联网广告进行采集、识别,实现三地广告数据的共享,并可提供远程或现场讲解服务。
5、产出数据及相关分析报告
按照上述要求及工作需要,每个工作日都应产出相应广告数据,并按时传送待监测人员进行复核监测,且应优先传送违法问题严重、重点专项监测的广告数据。
为充分发挥促进广告行业发展的数据支持作用,本项目要具备对全量广告采集数据的统计分析能力,要能够按照具体需求对监测媒体的广告采集数量、广告发布类别、发布形式、发布特点以及发布趋势等情况进行统计分析。
为深入了解、分析广告行业发展趋势,投标人需提供广告行业相关数据及行业发展趋势分析报告。主要包括全国、北京和重点省市的广告发布、投放情况数据,广告市场主体相关数据,广告规模数据等。要特别突出互联网广告行业情况数据。要结合广告发布情况,按月、年度产出相关分析报告:包括互联网广告案例分析,行业发展趋势分析报告、互联网广告具体领域数据分析报告等。
三、质量时效要求
广告数据采集技术要求基于人工智能、搜索引擎等技术,通过大数据采集满足高速、稳定、安全等理念。要求能够模拟真实用户使用浏览器的行为去请求对方站点来获取动态生成的广告页面,可以针对移动站的使用场景抓取广告页面,可以根据需求不断动态优化采集的准确性和安全性。
1、广告采集服务
(1)数据完整性。采集广告的基本信息包括:广告采集时间、广告名称、广告种类、广告发布平台、违法问题描述、链接页广告截图、落地页广告截图、违法图片违法点标注、违反的法律法规等;广告发布者信息主要包括:广告发布者名称、发布者网站地址、广告链接入口地址、广告落地页地址、发布主体注册地、发布主体管辖单位、发布主体网站ICP备案号、联系方式等;广告主信息主要包括:广告主名称、广告主注册地、广告主管辖单位、联系方式等。直播营销信息包含:直播平台、直播间名称、直播日期、直播时间、直播账号、直播商品名称、品牌等。
(2)日常采集数量与频率。日常采集媒体数量不得少于500家,重点采集移动端媒体,APP、公众号、小程序等媒体总量不少于500家,PC端网站不少于200家。每季度媒体名单进行轮换,年采集量达到1200家媒体;更新频次为每1-3个工作日完成一轮次的数据更新,保证每天有新的涉嫌违法广告数据交付人工复核监测,广告线索的采集时间与传输的时间间隔不得超过3个工作日。
(3)专项数据采集数量与频率。根据广告监测监管工作重点,开展专项广告数据采集,对指定商品服务类别、广告投放地区、企业主体等维度的涉嫌违法广告数据进行采集,采集频次一般不少于1个月2次,具体频次根据专项整治时间确定。广告线索的采集时间与传输的时间间隔不得超过3个工作日。
(4)直播营销数据采集数量与频率。根据行业类别、近期热点以及广告监测监管工作重点,开展直播营销数据采集。按照具体需求,每月对20个主播或直播间进行全天候监测,或者多个主播或直播间全天不定时段抽查监测,监测名单按月度进行更换,年监测主播或直播间数量不少于100个。同时要保证每月均有直播数据交付人工复核监
测。直播营销数据的采集时间与传输的时间间隔不得超过5个工作日。
(5)采集深度。网站和手机APP的采集深度应达到3级页面以上的采集深度。移动端自媒体应可采集自媒体内容内广告和内容外广告。搜索引擎网站应支持对关键词搜索结果页面和其下级页面的采集。
(6)数据采集量与存储。要求日均采集量不少于100万条;在指定采集周期,采集范围内的媒体、网站、移动端APP等的广告采集要充分利用服务器的并行技术,使得多个采集程序同时运行,且自动采集程序应去访问每个被采集媒体的各个位置,提升广告采集的广度和深度。项目涉及到的全量数据要求使用云存储,对每天采集数据线索
(不少于100万条)进行存储。
(7)数据存储时间要求,对推送的数据,人工认定违法的数据至少保存2年(包括图片、信息等),两年内可随时查询、调用;除广告素材以外的其他相关记录数据,不受时间限制可以随时查询、调用;人工认定不违法的数据至少保存1年(包括图片、信息等),一年内可以随时查询、调用,并按要求提供。
2、广告识别服务
(1)广告数据去重
对相同媒体、相同广告素材、相同广告主在指定时间段内数据进行去重,要求一般不少于7天(可根据监测工作要求进行随时调整)。
(2)违法特征模型
依据《广告法》、《互联网广告管理暂行办法》等法律法规标准,利用人工智能等先进技术通过数据分析处理建立全品类违法特征模型,针对重点行业、重点领域建立行业识别模型,如教育培训行业、金融行业、房地产行业等。机器依据模型,通过OCR、
NLP、云计算、人脸识别、关键字词库、以图搜索等技术对采集到的广告素材进行识别,并对涉嫌违法点进行标记。能通过机器自学习的方式对抓取广告线索的确认结果进行分析,同时优化广告识别模型。
(3)直播营销数据推送要求
直播营销数据除提供涉嫌违法视频外,还应将标记出具体违法时间、违法描述、违法关键词,以及对应的违法表现和违反法条。
(4)数据质量要求
对于投标人提供的日常数据、专项数据以及直播营销数据符合率不低于90%。针对指定某重点领域数据准确率应按照工作需要达到50%以上。
3、数据应用及安全
(1)投标人提供的数据服务应支持500人以上同时使用;
(2)在数据安全方面,应使用全面、先进的互联网安全防护技术,保障数据使用的安全性;
(3)提供数据的投标人不得因为企业或个人的原因影响提供数据的公正性。
四、项目团队人员要求
投标人要根据需求定期对数据采集、识别进行升级优化,安排专业团队负责互联网广告数据的采集,涉嫌违法广告的识别筛选,以及违法广告模型的优化研究等。能够按照数据需求的要求,按时提供涉嫌违法广告数据,保证所提供广告数据的真实性,完整性,准确性。
上述“专业团队”要求专、兼职技术人员不少于40人,硕士及以上学历占比需超过70%,精通常用软件架构模式,熟悉各种算法与数据结构,多线程网络编程等。在技术开发、大数据研究、违法广告模型研究等领域上有超过5年的开发研究经验。同时该团队需配备1名硕士以上学历,具有同类产品开发经验的专职产品经理,在各个模块上对前端的需求收集、持续完成后期优化等工作。
投标人要安排专人对数据质量、数据使用及数据传输等提供实时服务,接到电话时要求在30分钟内响应并及时提供维护服务,保证数据正常传输与正常使用。支持24小时电话服务。
投标人应根据采购方实际要求,提供数据查看、使用等相关培训。投标人应提供完整的培训计划,包括培训方式、课程内容、人数、时间、地点等,必要时前往工作一线现场培训。
五、成果物
1、互联网广告数据
日常数据、专项数据以及直播营销数据应满足数量、频率、质量等各项要求。
2、分析报告
主要包括全年数据情况分析报告,互联网广告重点案例分析,互联网广告行业发展趋势分析报告等。
3、项目工作总结报告
项目服务期结束后,供应商按照采购方要求提供工作总结报告。
六、成果验收
1、获取涉嫌违法互联网广告线索数量≥6万条次
2、互联网广告数据的符合率≥90%
3、年采集量媒体数量≥1200家,直播带货主播或直播间数量≥100个
4、全年数据情况分析报告≥1份
5、互联网广告重点案例分析≥6份
6、互联网广告行业发展趋势分析报告≥6份
详情请见招标文件