经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
关联规则transaction数据集准备工作
楼主
柠檬半熟
3820
4
收藏
2019-02-24
悬赏
2
个论坛币
未解决
1.原始数据集为8448*20008,每一列是一个transaction,每一行是一个item。
2.使用R 转置函数,将原始数据集转置。
问题!3.转置后的数据集格式为character,如何变成能进行频繁项集处理的transaction呢?
4. 使用fread读取数据集的时候,总是报错显示invalid head position. jump=1,我知道是因为表格中(0,0)部分没有数据,如何解决呢?
原始数据集格式(部分):0代表没有买,大于0的数字代表已购买。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
cutebe
2019-2-24 11:00:39
as(x, "transactions")
#x为列表或data.frame
好像可以这样,试下看。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
柠檬半熟
2019-2-24 11:52:53
cutebe 发表于 2019-2-24 11:00
as(x, "transactions")
#x为列表或data.frame
我试了这个样子不行,假设数据集是这个样子:
cheese bread apple
1 0 1 1
2 1 1 0
我的输出是所有的列名,并没有按照0,1来构造准确的交易记录,是为什么呢?输出结果是:1.{cheese,bread,apple}
抱歉二次修改,之前发现自己理解错了。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
柠檬半熟
2019-2-24 13:46:26
# Data Processing Of Gene
# Import the dataset
library(data.table)
dataCSV = fread("Data.csv")
dataRow = fread("GSE115469_Data.csv",header = FALSE)
dataP1 = dataRow[,1:1069]
# Transpose
dataTrans = t(dataP1)
# Set the rowNames and colNames
rownames(dataTrans) = dataTrans[,1]
colnames(dataTrans) = dataTrans[1,]
dataTrans = dataTrans[-1,-1]
# character --> Numberic
dataNum=apply(dataTrans,2,as.numeric)
# Normalization
dataNum[dataNum > 1] = 1
dataNum[dataNum < 1] = 0
# Removing all rows which all columns have value
dataValue = dataNum[which(rowSums(dataNum==0)!=0),]
# Removing all rows which all columns are 0
dataZero = dataValue[which(rowSums(dataValue)>0),]
dataZero =na.omit(dataZero)
# Apriori
library(Matrix)
library(arules)
# data --> Transaction
trans = as(dataZero,"transactions")
# Using Apriori to find frequent itemsets
#dataset = read.transactions(dataTrans)
#itemFrequencyPlot(dataset, topN = 100)
rules = apriori(data = trans, parameter = list(support = 0.8, confidence = 0.8))
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
yoocy
2019-12-12 11:32:59
遇到了同样的处理Transactions交易数集的问题,是与这个基因数集格式相同的嘛,求分享
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
求助一个选择关联账号的算法问题
求解SAS数据步的原始数据问题???
医疗数据清洗
sas中如何对一个原始数据集进行标准化处理?
数据集横向多个判断条件分别输出,请问如何编程避免多次读原始数据?
求教:循环的问题?
SAS 如何编写宏来构建下面的数据集
求助!一个小小的R软件关于bwplot作图的作业
语句求助
数据清洗数据清洗数据清洗,重要事情说三遍
栏目导航
R语言论坛
经管文库(原现金交易版)
数据求助
行业分析报告
悬赏大厅
经管在职研
热门文章
CDA数据分析师:以数据思维赋能企业管理,驱 ...
CDA全国考点信息一览(更新于2025年12月10日 ...
企业级AI平台发展趋势报告(2026)
【24重磅,顶刊热点!】2001-2024上市公司大数 ...
当AI遇见ML:高校教师如何借助AI与机器学习 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
CDA数据分析师实战:指标体系搭建的全流程方 ...
Essentials of Statistics for Research by ...
Navigating Qualitative Research: A Compr ...
2026年市场展望报告-机遇与挑战并存
推荐文章
12月武汉站|Deepseek辅助论文写作与数据分 ...
2026JG学术冬训营:从Stata初高到Python机器 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群