全部版块 我的主页
论坛 经济学论坛 三区 宏观经济学
322 2
2026-03-04
  CnOpenData维基百科每小时页面视图时间序列数据收录了2024年1月整月期间,全球范围内被高频访问的维基百科页面的逐小时精确浏览量数据。该数据集以结构化时间序列的形式,记录了不同语言版本(域名)下特定页面的标题及其在一天24小时中每个整点时刻的独立访问量。该数据集为深入分析维基百科页面浏览行为、用户兴趣变化以及特定页面的访问趋势提供了强有力的数据支持。


数据独特性
  • 高时间分辨率与完整月度覆盖:本数据集提供每小时级别的页面浏览数据,且完整覆盖2024年1月整个自然月。这种细粒度的时间序列使得分析者能够追踪日内关注度变化、识别流量峰值的确切时间点(如特定新闻发布后的小时级反应),并进行精确的周期(如日周期、周周期)分析。相较于仅提供日度或月度聚合数据的公开数据集,本数据在时间维度上的分辨率具有显著优势,为微观行为研究和实时趋势捕捉提供了可能。
  • 聚焦热门页面,数据价值密度高:数据经过严格筛选,每日文件仅收录至少被浏览10次的页面,日均数据量高达500-600万条。这意味着每条记录都代表着当月受到显著公众关注的主题、人物或事件。对于研究特定时期的社会热点、流行文化趋势、重大新闻事件的全球传播与影响,本数据集提供了经过预筛选的高价值、高信噪比的分析对象,能有效提升研究效率与分析深度。
  • 跨语言/地域维度的标准化结构:数据通过 domain_code 字段清晰标识了页面的所属维基百科子项目。这种标准化的结构允许研究者便捷地进行跨语言、跨文化比较研究,例如分析同一国际事件在不同语言用户群体中关注度的时空差异,或探究特定文化主题在其主要语言社区内的活跃度。


  该数据以其小时级的高时间分辨率、对热门页面的聚焦、以及标准化的跨语言结构,为学术界和产业界提供了一个独特而强大的分析工具。无论是用于揭示公众注意力的微观动态,还是服务于网络基础设施的智能优化,亦或是支撑前沿的跨文化数字研究,该数据集都能提供坚实、精细的数据基础,赋能用户从海量网络行为中挖掘出深刻的洞察与价值。


1.字段展示
1.png




2.样本展示
2.png
3.png
4.png
















二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2026-3-5 10:19:33
thanks for sharing
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2026-3-5 13:00:13
谢谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群