一、竞赛背景
近年来,人工智能技术快速发展,正在深刻改变产业形态与社会运行方式。从研发设计到生产制造,从公共服务到城市治理,AI在提高效率、优化决策、提升服务体验等方面的作用日益凸显,也成为推动新一轮科技创新和产业升级的重要力量。人工智能的持续突破,离不开政策引导与产业协同支持。近几年,国家与地方围绕人工智能关键技术攻关、产业集聚发展、应用场景开放以及安全治理等方面陆续出台政策措施,既强调核心技术与基础能力建设,也注重在制造、医疗、金融、城市管理等领域推进示范应用。同时,在算力设施布局、数据资源建设开放、算法合规与伦理安全等方面的制度建设也在不断完善,强化以人工智能基座为支撑的能力供给,推动数据要素高质量汇聚、开放与合规流通,为技术创新和产业落地提供更稳定的支撑环境,进一步促进和支撑人工智能发展。
在政策层面,《2024年政府工作报告》提出开展“人工智能+”行动,释放出推动人工智能与产业深度融合的明确信号。随后,各部委与地方陆续出台配套举措,聚焦智能制造、智慧城市、生物医药、金融科技等重点领域,加快建设示范应用场景与开放测试平台;同时统筹推进算力基础设施布局,夯实人工智能基座能力,推动高质量数据集建设与开放共享,激活数据要素价值,并强化算法合规、伦理安全等规范指引与风险防控,逐步形成促进和支撑人工智能发展的政策体系,为技术创新与产业落地提供制度与资源保障,更好服务民生与经济高质量发展。
在上述政策牵引与产业需求共同驱动下,人工智能与实体经济融合应用进入加速阶段。算力规模持续增长,大模型及相关技术迭代迅速,行业解决方案不断涌现。人工智能正在持续赋能智能驾驶、AI制药、生成式内容等新业态发展,也在传统产业改造升级、公共治理能力提升、科研创新等方面展现出广阔空间,并在教育、医疗、交通、政务等领域进一步改善民生服务体验。为进一步激发青年群体在数据分析与人工智能方向的创新意识与实践能力,现举办本届大数据分析挑战赛。
今年的主题是“智联万物,数创未来”,鼓励参赛者结合真实应用需求与政策导向,自主选取来自智能终端、工业互联网、数字内容、金融服务、医疗健康、城市管理、节能环保等领域的多源数据,围绕数据要素的采集治理、融合应用与价值释放,综合运用数据分析、机器学习与人工智能方法,提出具有可解释性、可落地性与应用价值的解决方案,推动人工智能与产业深度融合,以创新实践持续赋能产业升级与民生改善,共同促进和支撑人工智能发展。
二、组织机构
(1)主办单位:
上海工商管理专业学位研究生教育指导委员会产教融合专委会、上海工程管理学会技术创新专委会、上海市系统工程学会、上海市非线性科学研究会、上海大数据联盟
(2)承办单位:
上海理工大学管理学院、上海理工大学电子商务发展研究院
三、比赛要求
(1)参赛作品内容:数据分析作品需要具有问题导向、创新性、技术含量、开放数据利用程度、社会效益、团队能力等要素,保证作品图文结合,风格统一,分析结论要明确,逻辑清楚。
(2)参赛对象:上海市及长三角地区高校在读大学生(含MBA等专业学位研究生、学术型研究生、本科生和高职生),鼓励全国其他地区高校在读大学生参赛。
团队组成要求:团队由全日制或非全日制高等学校研究生、本科生或专科生组成,允许跨校组队,以团队为单位参赛。
(3)人数要求:团队总人数:4-7 人,团队成员包括指导教师限制1-2名、队员学生限制3-5名。
(4)成员要求:
1.具有较强的科研能力
2.具备较强的创新能力
3.具备较强的团队意识
4.具备较强的数据分析能力
5.具备较强的主观能动性
四、比赛安排
(1)报名时间:
即日起至2026年2月20日均可报名。
(2)报名方式:
报名网址:http://115.159.198.39:7000/,需注意备注跨校成员的姓名以及学校信息。报名后请留意网站审核成功状态。
(3)比赛阶段:
1.完成参赛作品:参考报名网址http://115.159.198.39:7000/的征题指南,获取并分析“智联万物,数创未来”相关数据集。撰写数据分析报告(4000字-8000字,格式要求详见http://115.159.198.39:7000)。内容包括:(a)作品背景;(b)数据集和分析环境简介;(c)数据分析过程;(d)分析结论与对策建议,或商业计划书,或创新性互联网产品。
2.提交参赛作品:各参赛队于2026年3月20日之前提交参赛作品,包括①作品(word格式、pdf格式)、②答辩PPT文档、③如果有,需提供其他所获取 的数据集文件。将所有材料发送至邮箱SUODATA@163.com,邮件名为“学校-参赛队-数据分析作品名”,参赛作品以附件形式发送,文件名同邮件名。
(4)答辩阶段:
作品在经过组委会初选之后,进入比赛答辩阶段。
1.答辩规则:参赛各队伍限时8分钟PPT进行线下现场答辩
2.答辩时间:2026年4月上旬(待定)
3.答辩地点:另行通知
(5)评比阶段:
1.评比规则:见报名网站相关评分标准
2.评比时间:2026年4月中旬(待定)
(6)公示阶段:公示时间为2026年4月下旬(待定)
(7)颁奖阶段:时间地点待定通知
五、奖项设置
大赛组委会为获奖团队统一颁发加盖主办单位的荣誉证书,并给予丰富奖励:
特等奖4个队,价值1000 元奖品/队;
一等奖4个队,价值800 元奖品/队;
二等奖10个队,价值500元奖品/队;
三等奖20个队,价值200 元奖品/队;
优胜奖32个队,价值150元奖品/队;
比赛的获奖结果由大赛专家委员会审议评比后对外公布。对获奖团队学生提供大型企业,以及其他长三角地区中小型优秀IT公司的参观、面试和见习的机会。
六、联系方式
(1)大赛指定邮箱:SUODATA@163.com
(2)联系人:孙进鹏 254461128@st.usst.edu.cn(师生联络:待定)
七、注意事项
(1)报名者自愿参加本次大赛,认同比赛规则,接受比赛安排,且不能半途以各种理由退出比赛。
(2)比赛以微信公众号、学校教务处通知为主,通过邮件与短信等方式通知参赛团队,请务必保持通讯工具的畅通。
(3)参赛队必须保证提交作品属于团队原创,严格杜绝抄袭。
(4)提交作品必须真实完整,符合中华人民共和国相关法律法规。
(5)题目指南、数据集以及作品格式,请参考通知附录。
(6)本次活动的最终解释权归第六届上海市高校开放大数据分析挑战赛组委会
选题指南
(提交的 word 和 PPT 作品题⽬可⾃拟)
A.基于多维健康指标的慢性病风险预测与健康管理
背景:
在“健康中国2030”与“AI+医疗”持续推进的背景下,糖尿病、高血压等慢性病已成为影响居民健康水平与医疗体系运行效率的重要因素。慢性病具有病程长、管理周期长、并发症风险高等特点,一旦进入中重度阶段,不仅会显著增加个人与家庭负担,也会挤占基层医疗与公共卫生资源。与传染病不同,慢性病的发生与发展往往与生活方式、体重管理、运动习惯、饮食结构、心理压力以及基础健康状况等多因素长期累积相关,这使得“早识别、早干预、早管理”比“事后治疗”更具成本效益与社会价值。与此同时,居民健康数据的可获得性正在提升:体检指标、问卷调查、健康档案与可穿戴设备等多源数据,为从人群层面识别高风险群体提供了基础。慢性病风险管理的关键,在于把分散的健康指标转化为可解释的风险信号:一方面要揭示哪些因素与患病风险高度相关、在不同人群中差异如何;另一方面要进一步把“风险洞察”落实为“管理行动”,例如针对不同风险层级的人群制定不同强度的随访、健康教育与行为干预策略,并形成可持续的数字化管理闭环。因此,如何基于多维健康指标开展数据分析与建模,实现对慢性病风险的量化预测、对人群特征的分层刻画,并提出可落地的健康管理建议,已成为公共卫生治理与数字健康产业的重要研究方向。
数据集说明:
本数据集为糖尿病健康指标调查数据的清洗整理版本,包含约25万条样本、21个特征变量。核心字段包括目标变量 Diabetes_012(用于表示不同糖尿病状态)以及BMI、总体健康评价、体力活动、饮酒/吸烟、医疗可及性、人口统计特征等多维健康与生活方式指标。
主要字段解析:
Diabetes_012(目标变量):分类变量,0表示无糖尿病,1表示糖尿病前期,2表示患有糖尿病。这要求模型具备处理多分类问题的能力。
HighBP / HighChol:是否患有高血压/高胆固醇,这是心血管代谢疾病的重要共病指标。
BMI(身体质量指数):连续变量,反映肥胖程度,是糖尿病的关键风险因子。
Smoker / HvyAlcoholConsump:吸烟与重度饮酒情况,反映生活习惯。
PhysActivity / Fruits / Veggies:是否进行体育锻炼、食用水果蔬菜,反映健康行为。
GenHlth / MentHlth / PhysHlth:受访者自评的总体健康状况、过去30天中心理健康不佳的天数及身体健康不佳的天数,提供了主观健康维度。
DiffWalk:行走是否有困难,反映身体机能受损情况。
Sex / Age / Education / Income:基础人口学特征,用于分析疾病在不同社会阶层和年龄段的分布差异。
赛题:
(1)基础数据分析:进行描述性统计与缺失/异常值检查;从生活习惯、收入、等不同维度分析 Diabetes_012 的分布差异,并通过可视化展示关键变量之间的关系(例如 BMI 与总体健康评价等)。
(2)人群分层分析:利用所提供数据集中的多维健康与生活方式特征(在剔除目标变量后)进行聚类分析,识别具有相似健康画像的人群群组,并比较不同群组的实际患病比例与典型特征,以形成可解释的人群分层结论。
(3)关联规则分析:探索生活方式与健康指标之间的关联规则,并进一步分析哪些特征组合更容易与不同 Diabetes_012 状态同时出现,为后续的风险识别与干预定位提供依据。
(4)预测与建议:利用合适的模型预测个体的 Diabetes_012 状态(进行建模、训练、评估即可),并结合前三问的分析结果,为如何开展慢性病风险预警、重点人群管理与分层干预提出适当的建议,或撰写有关慢性病数字化健康管理的商业策划书。
B.工业设备预测性维护与故障模式识别
背景:
与传统制造业相比,现代工厂的生产节奏更快、设备结构更复杂,关键设备一旦发生故障往往会引发停线、延期交付与额外的能耗浪费,并可能带来安全隐患与质量波动。随着工业数字化与工业互联网不断推进,越来越多设备被安装了温度、转速、扭矩、磨损等传感器,形成高频、连续、可追溯的运行数据。相比“坏了再修”的被动处置或按固定周期检修的粗放维护,企业更希望根据设备的真实状态提前预警:在故障征兆刚出现时就安排检修、备件与人员,把非计划停机降到最低,同时减少过度维护导致的停机与备件浪费。工业场景也有其特殊挑战:故障通常是小概率事件,数据分布极不均衡;不同质量等级、不同工况下的信号模式差异明显,同一故障可能由多种因素共同触发;而企业不仅关心“会不会坏”,还关心“为什么坏、可能是哪类故障”,以便采取差异化维护动作并优化检修排程。如何利用多维传感器数据刻画设备健康状态、识别故障模式,并将预测结果转化为可执行的维护策略与资源配置建议,是预测性维护落地的关键。此外,现场系统通常要求低延迟与可解释输出,便于一线工程师快速定位原因;维护决策还需要考虑报警阈值、备件库存与产线负荷等约束,做到“该修就修、该放就放”,实现成本与可靠性的平衡。
数据集说明:
本数据集收录了10000条工业设备运行记录数据,包含14个字段,覆盖设备标识与质量类型、环境与工艺温度、转速、扭矩、刀具磨损等传感器指标,并提供设备是否故障的标记以及若干细分故障模式标记,可用于同时开展“是否故障”与“故障类型”两类分析与建模。
主要字段解析:
UID / Product ID:唯一标识符和产品ID。产品ID包含质量等级信息(L-低质量, M-中等质量, H-高质量),不同质量的产品可能有不同的故障率。
Type:产品质量类型(L, M, H)。
Air temperature [K]:空气温度,由传感器采集。
Process temperature [K]:过程温度,加工过程中的温度。
Rotational speed [rpm]:主轴转速。
Torque [Nm]:扭矩。通常转速与扭矩之间存在物理关联(P = 2πnT/60),数据中引入了部分噪声。
Tool wear [min]:刀具磨损时间,随着加工进行而增加。
Machine failure(目标变量1):二分类标签,0表示正常,1表示故障。
TWF, HDF, PWF, OSF, RNF(目标变量2):五种具体的故障模式标签,分别代表刀具磨损故障、散热故障、电力故障、过载故障和随机故障。
赛题:
(1)基础数据分析:分析设备整体故障率与不同质量类型设备的故障差异;展示关键传感器指标在正常与故障状态下的分布差别;观察设备指标随磨损变化的趋势与可能的异常区间。
(2)设备群体分析:利用运行工况特征(如温度、转速、扭矩、磨损水平等)进行聚类分析,识别具有相似运行模式的设备/工况群组,并比较不同群组的故障风险差异。
(3)关联规则分析:探索“工况组合特征”与“故障/故障模式”之间的关联规则;进一步分析不同故障模式之间是否存在共现或相互伴随的关系。
(4)预测与建议:利用合适的模型预测设备是否会发生故障或更可能出现的故障类型(进行建模、训练、评估即可),并结合前三问为如何开展预测性维护与差异化检修提出适当的建议或撰写有关预测性维护落地的商业策划书。
C.金融交易欺诈检测与风险防控
背景:
随着移动支付、线上信贷与跨境电商的发展,金融交易呈现出“高频、小额与场景化”并存的特征,交易链路更长、参与主体更多。与此同时,欺诈行为也从早期的简单冒用演化为更隐蔽的团伙化操作:通过多账号、多设备、多渠道分散交易,利用时间差与地域差规避拦截,甚至以正常交易做掩护逐步试探风控阈值。传统依赖固定规则的风控方式在面对新型欺诈时容易出现两难:规则设得严格会误伤正常用户、影响支付体验;规则设得宽松又会放过高风险交易,造成直接资金损失与合规风险。金融风控的核心诉求因此转向数据驱动:在海量交易流水中及时识别极少数高风险样本,并给出可追溯的风险理由,支持实时拦截、事后复核与策略迭代。该场景也具有明显的业务约束:标签稀缺且类别极度不平衡,特征往往经过隐私脱敏处理,欺诈模式还会随时间快速变化,导致模型需要持续更新与监控。因此,如何在追求高风险识别能力的同时控制误报成本,并在“风险控制—用户体验—运营效率”之间取得可落地的平衡,是智能风控系统设计的关键。同时,线上交易对响应时延十分敏感,系统往往需要在极短时间内完成判断并触发拦截、二次验证或人工复核流程,这也要求模型输出能够被业务策略理解并快速转化为行动。
数据集说明:
本数据集收录了约284807条信用卡交易记录,字段包含交易发生的相对时间、若干经过隐私处理后的数值型特征、交易金额以及是否为欺诈交易的标记。数据中欺诈样本占比极低,适合用于研究小概率高风险事件识别与风险控制问题。
主要字段解析:
Time:该交易与数据集中第一笔交易之间经过的秒数。
V1 – V28:为了保护用户隐私,原始特征经过了PCA(主成分分析)转换,变为无物理含义的数值型特征。
Amount:交易金额。这是唯一的原始数值特征,可用于分析欺诈金额的分布。
Class(目标变量):1表示欺诈交易,0表示正常交易。
赛题:
(1)基础数据分析:分析欺诈与非欺诈交易在金额区间与时间分布上的差异;观察不同时间段的交易活跃度及潜在高风险时段;展示关键数值特征在两类样本中的分布对比。
(2)交易群体分析:基于交易特征(金额、时间、脱敏特征组合等)进行聚类分析,识别具有相似交易行为的交易模式群组,并比较各群组的风险占比与典型特征。
(3)关联规则分析:探索“交易时间段/金额区间/特征组合”与“高风险标记”之间的关联规则;尝试分析哪些行为组合更容易伴随高风险出现。
(4)预测与建议:利用合适的模型预测一笔交易是否为高风险交易(进行建模、训练、评估即可),并结合前三问为如何构建实时风险防控、降低损失且兼顾用户体验提出适当的建议或撰写有关智能风控的商业策划书。
同时需完成并纳入以下“实地调研与业务体验”要求:
每位成员实地调研:参赛队伍每位成员需在中国农业银行上海长白支行进行实地调研,了解与本赛题相关的业务流程与风控触点(如交易风险提示、身份核验/反欺诈、风险拦截/二次验证、人工复核、贷前评估等)。
每位成员业务体验(完成其一):成员需完成一项与本赛题有关的该银行业务服务,包括但不限于:新增个人储蓄账户/新增公司储蓄账户/进行个人贷款风险评估或贷款咨询/使用银行App完成缴纳党费等等。对储蓄与贷款金额不做任何要求。
成果纳入作品:需拍摄实地调研照片,并将调研与业务体验内容写入作品
合规与隐私要求:作品与照片不得展示任何敏感信息(如身份证号、银行卡号、账户信息、客户隐私等);如不可避免须打码处理,并遵守网点现场管理要求。
D.智慧城市交通流量预测与拥堵治理
背景:
城市化进程加快使交通需求持续增长,通勤高峰的拥堵、事故与天气扰动带来的连锁影响,已成为影响城市运行效率与居民生活质量的重要因素。在智慧城市建设中,交通治理越来越强调“提前感知、提前调度”:只有准确把握未来一段时间的流量变化,才能更合理地进行信号配时、发布诱导信息、协调公共交通运力与应急资源,进而降低车辆怠速与无效绕行造成的能源消耗与碳排放。交通流数据具有典型的时序规律与突发性并存特征:日内早晚高峰、工作日与周末差异明显,同时节假日活动、降雨降雪、能见度变化等外部因素会改变出行决策,导致流量突然上升或骤降。此外,交通治理不仅关注“预测值准不准”,还关心“哪些因素导致变化、在何种情境下需要采取措施”,以便把预测结果转化为可执行的管理策略。面对多源变量与强非线性关系,如何融合时间信息与外部特征,刻画交通流的周期性、趋势与异常波动,并进一步支持拥堵预警、出行提示与管理优化建议,是智慧交通应用中的核心问题。在实际数据中,还可能存在缺失、异常值与不同量纲的连续/类别特征混杂,例如天气描述、节假日标记等都需要合理编码;同时极端天气和突发事件会造成分布漂移,使得预测与治理需要具备一定的鲁棒性。
数据集说明:
本数据集收录了约48204条按小时统计的交通流量记录,字段包含目标流量数值、时间戳、节假日标记、温度、降雨/降雪、云量以及天气类别与描述等信息,既包含连续变量也包含类别变量,可用于研究交通流的周期性规律、天气与节假日效应及流量预测。
主要字段解析:
traffic_volume(目标变量):每小时的车流量数值。
holiday:分类变量,标记是否为节假日(如国庆、圣诞等)或“None”。
temp:平均温度(开尔文)。
rain_1h / snow_1h:过去一小时的降雨量和降雪量(mm)。
clouds_all:云量覆盖百分比。
weather_main / weather_description:天气状况的文本描述
date_time:时间戳,这是时间序列分析的核心。
赛题:
(1)基础数据分析:展示交通流量在日内与周内的时间分布(如早晚高峰与工作日/周末差异);比较节假日与非节假日的流量变化;分析不同天气条件下的平均流量差异与波动特征。
(2)时段群体分析:利用时间特征与天气特征对“小时/日期”进行聚类分析,识别具有相似交通形态的时段或日期群组(如典型通勤型、休闲型、恶劣天气扰动型),并比较各群组的拥堵风险特征。
(3)关联规则分析:探索“节假日—天气—时间段”等因素组合与“高流量/异常波动”之间的关联规则,识别更容易触发拥堵的情境模式。
(4)预测与建议:利用合适的模型预测未来一段时间的交通流量(进行建模、训练、评估即可),并结合前三问为如何进行拥堵预警、出行诱导与交通治理提出适当的建议或撰写有关智慧交通管理的商业策划书。
E.社交电商用户购买转化预测与内容分发优化
背景:
与传统电商“搜索—比价—下单”的路径不同,社交电商(如小红书、抖音等)的购买往往发生在“内容种草—互动反馈—信任建立—决策转化”的链路中:用户先被图文/短视频触达,再通过点赞、评论、收藏、分享等互动信号表达态度,进而在社区氛围与他人反馈中形成信任与购买意向。相关研究普遍指出,社交互动与用户生成内容会影响消费者信任与购买意向,使得“互动热度”和“内容质量”在转化中扮演关键角色。同时,社交电商还具有典型的动态性与异质性:热点更迭快、用户兴趣切换频繁,价格与折扣会与内容热度共同作用;不同用户(如新手/高等级、低频/高频、不同性别年龄段)对折扣、券、社交影响力的敏感度存在显著差异。再加上“多数曝光不购买”的客观现象,平台需要在不牺牲体验的前提下,提高转化效率并减少无效触达:既要识别更可能购买的人群与内容形态,也要理解“为什么会买/不买”的行为机制,从而指导内容供给、流量分发、优惠触达与推荐策略的迭代。近年来,社交电商规模持续扩大,也进一步推动平台将数据驱动决策前置到内容生产与分发环节,让“可解释的洞察、可执行的策略”成为运营与算法协同的核心方向。
数据集说明:
本数据集包含100,000条社交电商用户购买行为记录,涵盖31个特征变量和1个二分类目标变量(是否购买)。小红书、抖音等社交电商平台的真实场景,包含用户特征、内容特征、社交特征、行为序列特征以及4个衍生特征。数据集正负样本比例约为1:4,用户以年轻女性为主(平均年龄27岁,女性占比63.8%),价格和互动数据呈右偏分布,符合社交电商的典型特征,适用于购买转化预测、推荐系统优化、用户行为分析等机器学习任务。
主要字段解析:
label(目标变量):是否购买(0=未购买,1=购买),用于购买转化的二分类预测与评估。
user_id / item_id(标识字段):用户唯一标识与商品唯一标识,用于用户/商品维度的分组统计、画像聚合与行为关联分析。
age / gender / user_level / register_days(用户基础特征):年龄(18–65)、性别(0=女,1=男)、用户等级(1–7)、注册天数,用于刻画用户人群结构与不同人群的转化差异。
purchase_freq / total_spend / follow_num / fans_num(用户历史与社交规模特征):近30天购买次数、累计消费金额、关注数、粉丝数,反映用户消费活跃度、历史价值与社交活跃/影响力基础。
price / discount_rate / category / title_length / title_emo_score / img_count / has_video(内容与商品特征):商品价格(元)、折扣率(0–1)、类目、标题长度、标题情感得分(0–1)、图片数量、是否含视频(0/1),用于描述商品与内容呈现形态及其对转化的影响。
like_num / comment_num / share_num / collect_num / is_follow_author(社交互动与关系特征):点赞、评论、分享、收藏数以及是否关注作者(0/1),用于衡量内容热度、互动深度与用户—作者关系强度。
add2cart / coupon_received / coupon_used / pv_count / last_click_gap(行为序列特征):是否加购(0/1)、是否领券/用券(0/1)、近7天浏览次数、距上次点击间隔(小时),反映购买路径中的关键动作与行为新近性。
interaction_rate / purchase_intent / freshness_score / social_influence(衍生综合特征):互动率、购买意向强度、时间新鲜度、社交影响力,作为由多维行为与社交信号综合得到的强度/倾向指标,用于增强对转化行为的刻画与预测能力。
赛题:
(1)基础数据分析:分析整体购买转化率与不同人群(年龄段、性别、用户等级、购买频次等)的转化差异;识别对转化更敏感的内容因素(价格、折扣、类目等)与社交因素(点赞、评论、分享、收藏等),并用可视化展示价格与互动类变量的右偏分布及其对转化的影响;展示关键行为变量(加购、领券、用券、浏览强度、距上次点击间隔等)在“购买/未购买”两类样本中的差异。
(2)用户群体分析:利用所提供数据集中的多类特征(用户特征、内容特征、社交特征、行为特征与衍生特征)进行聚类分析,识别具有相似行为路径与互动偏好的用户群组(例如偏折扣、偏互动、偏加购、偏冲动等特征的群体),并比较不同群组的实际转化率、典型特征与可能的运营触达方式差异。
(3)关联规则分析:探索“互动行为(点赞/评论/分享/收藏)—行为动作(加购/领券/用券/浏览)—购买结果”之间的关联规则;进一步识别更容易触发购买的特征组合,并讨论这些规则在内容分发与促转策略中的应用价值与局限。
(4)预测与建议:利用合适的模型预测用户是否购买(进行建模、训练、评估即可),并结合前三问结果,为如何在社交电商场景中实现更高效的转化提升与个性化分发提出适当建议,或撰写有关社交电商内容分发与运营增长的商业策划书。
F. 图书馆读者数据分析与服务优化
背景:
在高校数字化转型与“智慧校园”建设持续推进的背景下,图书馆正从以馆藏为中心的管理模式,逐步转向以读者需求为导向的精细化服务。借阅、续借、预约、到馆、座位使用与线上资源访问等业务过程会持续产生大量行为数据,这些数据能够客观反映不同群体在不同教学科研阶段的阅读偏好、到馆规律与资源获取方式,也为评估服务公平性与资源可及性提供了量化依据。与此同时,馆藏结构更新、热门书供给、复本配置、窗口与自助设备投放、开放时间与人员排班、空间与座位管理、阅读推广活动评估、跨校资源共享等工作面临“需求波动大、学科差异显著、长尾与热点并存、峰值拥堵明显、服务触点多元”的现实挑战。若仅依赖经验决策,容易出现采购与实际需求错配、热门资源供给不足、空间利用效率低、超期与遗失风险上升等问题,进而影响读者体验与资源使用效率。如何在遵守隐私保护与数据合规要求的前提下,对读者行为与馆藏流通进行系统分析,识别关键影响因素与潜在痛点,并进一步形成可解释、可评估、可落地的运营优化与个性化服务方案,支撑图书馆高质量发展与可持续服务能力提升,是本赛题关注的核心。参赛者需综合运用数据分析、预测建模与可视化表达,给出面向管理决策与读者服务的完整解决思路。
数据集说明:
数据集来源为上海理工大学图书馆。数据通常覆盖图书馆日常业务过程,可能包含读者借还与续借记录、预约与到馆服务记录、馆藏书目与分类信息、以及与读者相关的基础属性标签。具体表结构与字段以赛方最终发布的数据集为准。
赛题:
(1)基础数据分析:分析整体借阅活跃度与不同读者群体的差异;识别对借阅更敏感的资源因素与服务因素。
(2)读者群体分析:利用数据集中可用的多类特征进行聚类分析,识别具有相似借阅路径与资源偏好的读者群组,并比较不同群组的借阅活跃度、资源偏好结构、典型行为模式及可能的服务触达方式差异。
(3)关联规则分析:探索“服务行为—借阅动作—结果表现”之间的关联规则;进一步识别更容易触发高借阅活跃或更易发生超期风险的特征组合,并讨论这些规则在馆藏配置、服务流程优化、分层运营与提醒策略中的应用价值与局限。
(4)预测与建议:选择合适的预测目标开展建模,并结合前三问结果,为如何在高校图书馆场景中实现更高效的资源配置与服务提升提出适当建议,或撰写有关智慧图书馆运营优化、绿色阅读促进与个性化服务的商业策划书。
G.基于医学影像的数据治理与智能标注
背景:
在“AI+医疗”快速落地的过程中,医学影像被认为是最具规模化价值的数据类型之一,但其高价值往往被“低可用性”所限制:一方面,影像检查往往伴随大量非结构化文本报告,存在专业术语多、表达不确定、模板化描述、跨科室/跨医院书写差异显著等问题,导致影像与结论难以被机器直接理解与复用;另一方面,医学数据天然包含大量敏感信息,来源又高度异构(影像系统、信息系统、人工报告等),即使获取到数据,也必须经过系统化清洗、脱敏、合规审计与可追溯管理,才能进入研究与产品开发流程。现实中,不同设备与医院的DICOM实现差异、私有标签与像素“烧录”信息、以及持续变化的隐私法规,都使得“可用、可控、可追溯”的数据治理成为医学影像AI的第一道门槛。为此,本赛题聚焦“标注”这一关键环节,但不把标注孤立看作画框/分割,而是把它放进完整的数据生产闭环:先完成清洗脱敏与索引关联,再结合专家共识构建标签体系与流程规范,并引入文本智能解析辅助标注,最终形成可复用的结构化数据资产,为后续的辅助诊断研究、学术发表与AI产品化打下可靠的数据基础。
数据集说明:
给定一批医学影像数据及其对应的检查文本报告,数据可能来自多中心、多设备、多模板环境;原始数据可能包含DICOM影像、报告文本,以及来自信息系统导出的部分结构化信息。参赛者需在合规前提下完成数据治理与标注相关工作,并产出可追溯的结构化标注结果。
赛题:
(1)数据治理与安全脱敏
对原始数据进行基础清洗与质量检查,并完成隐私优先的数据脱敏:包括对直接标识符的加密/替换、对DICOM隐私相关信息的清理,以及对可能存在于像素中的“烧录”敏感文字区域进行检测与处理;同时建立“脱敏后ID—原始信息”的安全索引映射机制,保证可控追溯。
(2)标签体系与标注规范制定
在不依赖具体字段名的前提下,设计一个层级清晰、可扩展的标注标签体系,并给出标注说明文档;建议配套质量控制流程,形成可执行的标注SOP。
(3)文本智能解析辅助标注
利用文本智能解析方法,将非结构化检查报告中的关键信息抽取为结构化标签,并强调对“不确定表述”与“肯定诊断陈述”的区分;最终将报告侧标签与影像数据进行关联,为影像标注与下游建模提供一致、可追溯的“影像—结论”对齐结果。
(4)标注交付与可复用数据资产沉淀
输出一套可复用的标注成果与过程材料:包括标注数据、标签体系文档、标注流程与安全管理操作要点,以及(可选)标注工具使用与培训方案说明,使数据生产具备可复制性与规模化扩展能力。
H. 其他选题
数据集文件与报告格式要求文档下载地址:
通过网盘分享的文件:选题指南
链接: https://pan.baidu.com/s/1fJjquP3wNlQfnyJK-K9iNw?pwd=he96 提取码: he96
第六届上海市高校开放大数据分析挑战赛组委会