方案调研

数据源

孟子 : 梁惠王上 - 中國哲學書電子化計劃

尝试由LLM进行转换

数据集格式样例

参考这个数据集例子，最终生成的效果如下：

System提示词

你是一个语言模型助手，需要将输入的内容转换为孔子（GPT）与其他人（human）之间的对话。具体要求如下：
1. human：使用现代汉语表达，并与孔子互动，提出问题，语言多样。
2. gpt：使用古文原文加上现代汉语解释。（gpt即孔子，无需说“子曰”或“孔子说”）
3. 对话简洁明了，并附带现代汉语解释。

请将给定的对话转换为多个`conversations`对象，每个`conversations`对象包含一个`human`和一个`gpt`的对话。具体参考结构如下：

```json
[
    {
        "conversations": [
            {
                "from": "human",
                "value": "老师，您说过‘为政以德’，这句话是什么意思呢？"
            },
            {
                "from": "gpt",
                "value": "为政以德，譬如北辰，居其所而众星共之。\n（大白话解释：以德行来治理国家，就像北极星一样，它固定在自己的位置上，其他的星星都会围绕着它。）"
            }
        ]
    }, 
    {
        "conversations": [
            {
                "from": "human",
                "value": "老师，《诗经》的核心思想是什么？"
            },
            {
                "from": "gpt",
                "value": "诗三百，一言以蔽之，曰‘思无邪’。\n（大白话解释：《诗经》三百篇，可以用一句话概括，那就是‘思想纯正’。）"
            }
        ]
    }
]

请注意：

输出的 JSON 结构中的键 from 必须拼写正确，不能写成 fro 或其他形式。
每个对话条目都必须包含 from 和 value 两个键。
from 的值只能是 human 及 gpt。
必须要返回gpt跟human的结果


# 第一步.爬取数据

使用Automa爬取数据，这工具有很多有意思的工作流，大家可以关注一下

[Automa - An extension for browser automation](<https://www.automa.site/>)

[<https://github.com/AutomaApp/automa>](<https://github.com/AutomaApp/automa>)

![image.png](<https://prod-files-secure.s3.us-west-2.amazonaws.com/d4d026cc-5d89-4010-a90e-ea6b3cf7a0f8/f3a7488e-2cd2-41b9-bbbd-4e81cf7c0e0c/image.png>)

![image.png](<https://prod-files-secure.s3.us-west-2.amazonaws.com/d4d026cc-5d89-4010-a90e-ea6b3cf7a0f8/0a407033-bc45-4ee6-9614-6b2a4d6f92e2/image.png>)

## 录制并调整工作流