科研路上的思考与实践

2024-03-04

/posts/research-101/ map[email:[email protected] name:Junyi Hou]

#MISC

Table of Contents

# 引言

本文整理自每周组会的讨论内容，涵盖了科研工作的全流程经验与思考。从阅读论文到撰写研究，从方法论设计到实验执行，这些内容旨在为科研新手提供实用的指导，帮助建立正确的科研思维和工作方法。

# 读 Paper

看 paper 解决什么问题，比看它用什么方法要更重要
有创新吗？如果大家都是这么做的，就不算创新。（如果要其他人做这个事情，其他人也会这么做）

回答下面三个问题：
1. 这个 paper 的 contribution 是什么？
2. 为什么这个 paper 可以中？
3. 这个 paper 的 weakness 在哪里？
思考一下，如果让你跟这篇 paper 做 exactly 一样的工作，你会跟他用一样的方法吗？

# 想 Paper

我们的工作要吸引真正的用户使用，在过程中发现参数设置是否合理。要仔细考虑怎么去 incentive 其他人去使用我们的项目，来探索领域内的相关场景。
如果有1000人用你的项目，这是个什么样的项目呢？怎么让他们心甘情愿为社区做贡献？
Re-search重新-找，在你想问题的时候得问自己：
“paper 想全了吗？”
“feature 都找出来了吗？”
”为什么有这么多 feature ?“
“这些 feature 是可以拍脑袋想的吗？”
“时刻记着 garbage in garbage out.”
当你看到一个 metric 的时候：
It’s important to have a methodology to analysis.

# 讲 Paper

不要只讲他怎么做的，要用自己的语言 summarize 它
（告诉一些新人）我们应当关注以下问题：
1. what’s the problem?
2. what’s the solution?
3. what’s the key message in your slides? (为了xxx，你到底想说啥？)
当老师给你说一件事的时候，你 24 小时之内应该去做，不要想那么多。或者给老师一个 timing 的回复。「比如让你 “联系 XX 老师” 的时候，最好 24 小时内就去联系」

# 写 Paper

写 paper 的时候自己觉得 exciting 才能写得好！
思考自己的 Research contribution 在什么地方？ What’s new here？
别人读完你的 paper，学到了什么（比如你可以在 conclusion 写一段话，表示自己在这个领域有什么贡献）
reviewer 读这一段的时候，会想得到什么信息？
流程创新的，需要在流程里的有个核心步骤，并且说出来创新点在哪里。
我这篇paper为什么被拒？想一下为什么 reviewer 说我 novelty 不够？没事，很多paper都可以被说 novelty 不够 (Fig.1)
选数据是一个非常慎重的事情

view-service — Fig.1 - The most common comments at ICLR 2024, keywords extrated by GPT4.

I’m sure someone will ask “but won’t that get my idea stolen?”. I’ve heard anecdotally of that happening, but not to me or anyone I know in my field. Most likely because the idea is only the first tiny piece of the thesis: the idea is always followed by a significant investment of labor to execute and evaluate. The people you talk to are too busy with their own work to invest all that labor on your idea. But they’ll be happy to give you feedback on it.

# 审 Paper / 写 Review

一个 Review 要有一段话对这个工作做总结，并且整理出这个工作的 contribution：

contribution 1
contribution 2
contribution 3

（关注一下，方法和实验是否说明有 contribution）

Strengths

Strength 1
Strength 2
Strength 3

Weakness

Weakness 1
Weakness 2
Weakness 3

Minor Components

一个paper也就4、5个 findings

# 方法论 & 做实验

想明白 methodology 再做实验。而不是做实验再想 methodology。

Experiment 做完之前就可以写 paper 了

大家都知道的信息不代表没用，你可以用数据做 confirm。

Methodology 应该都想好了，正好有 XXX paper 所以你这么多。

你一定要把数据的 methodology 讲清楚（怎么收集的数据）。因为你有 X goal 所以有 Y metric。你应该定义一个 metric：goal是什么。你定义的 metric，和用什么来做，是两回事。注意：定义 metric 和用什么数据集是没关系的。

整个paper应该围绕一个图/table 去铺开，作为整个 paper 的精华。先把结果写清楚，再美化结果。一般来说 table 比 figure 更有信息量。

注意：这个paper不会因为你把table换成图，从拒绝变为接受，当然有一个好看的图会觉得很酷。

Coefficient？

XX 写 paper 很快。但是你喜欢把东西揉在一起。

prof：没 ai 之前，一天写 2 页论文，现在 idea 想明白了写 paper 就一天

prof：structure 应该理清楚，然后再写 paper。

prof：我发现你喜欢把实现和 methodology 混在一起。

prof: 你应该把这两个解耦。design 和 methodology 放前面，implementation 放后面。

prof：我要做什么事，遇到什么问题，怎么解决的。数据那边（finetune），实现（用什么数据finetune、怎么finetune）

prof：读paper最怕 “读一个methodology，用 arxiv 数据集实现，所以怎么样” 这个时候读者就会 question 你为啥要用 arxiv 为啥不用别的啊？所以我们要把 methodology 和 implementation 分开。

junyi：这个跟软件工程很像，解耦 interface 和 impl

prof：你得有一个逻辑让别人知道你为什么这么写。如果你写“我们每个section都按照 methodology，implementation，methodology，implement”

prof：顶层设计要做好，后面的实现是另外一个部分。用 iclr 2024 数据集，用 iclr 2023 做 cross validation。

prof: ai 领域的审稿，会带来很多噪声。

prof: 实验本身没有价值，只有当你能把它转化为结论、并且解释“为什么”时，它才变成论文的一部分。

prof: 除了展示你的结果图表，还要进一步分析你的图表。

prof: 要跳出本科、硕士的思维模式，要 try to make a paper 出来。

Junyi's Lab